Indice de gini ejemplo
Coeficiente de gini en suecia
Los árboles de decisión se utilizan a menudo al aplicar algoritmos de aprendizaje automático. La estructura jerárquica de un árbol de decisión nos lleva al resultado final recorriendo los nodos del árbol. Cada nodo consiste en un atributo o característica que se divide en más nodos a medida que descendemos por el árbol. Pero, ¿cómo decidimos?
Al participar más de un atributo en el proceso de toma de decisiones, es necesario decidir la relevancia e importancia de cada uno de los atributos. Así, se coloca el más relevante en el nodo raíz y se sigue descendiendo dividiendo los nodos.
A medida que avanzamos por el árbol, el nivel de impureza o incertidumbre disminuye, lo que conduce a una mejor clasificación o mejor división en cada nodo. Para decidirlo, se utilizan medidas de división como la ganancia de información, el índice de Gini, etc.
Si todos los elementos pertenecen a una sola clase, entonces puede llamarse pura. El grado del índice de Gini varía entre 0 y 1,donde,0 denota que todos los elementos pertenecen a una determinada clase o si sólo existe una clase, y1 denota que los elementos están distribuidos aleatoriamente en varias clases.
Cómo se mide el índice de gini
Los árboles de decisión son algoritmos de aprendizaje automático supervisado que se adaptan mejor a los problemas de clasificación y regresión. Estos algoritmos se construyen aplicando las condiciones particulares de división en cada nodo, dividiendo los datos de entrenamiento en subconjuntos de variables de salida de la misma clase.
El «conocimiento» aprendido por un árbol de decisión a través del entrenamiento se formula directamente en una estructura jerárquica. Esta estructura mantiene y muestra el conocimiento de tal manera que puede ser fácilmente entendido, incluso por personas no expertas». (De)
Sin embargo, no es posible conseguir subconjuntos puros y homogéneos, por lo que al construir un árbol de decisión, cada nodo se centra en identificar un atributo y una condición de división en ese atributo que disminuye la mezcla de etiquetas de clase, dando así subconjuntos relativamente puros.
Se calcula entre 0 y 1, sin embargo, dependiendo en gran medida del número de grupos o clases presentes en el conjunto de datos, puede ser más de 1, pero representando el mismo significado, es decir, un nivel extremo de desorden.
Árbol de decisión del índice de gini
El árbol de decisión es uno de los enfoques prácticos más utilizados para el aprendizaje supervisado. Puede utilizarse para resolver tanto tareas de regresión como de clasificación, siendo esta última la más utilizada en la práctica. En estos árboles, las etiquetas de clase están representadas por las hojas y las ramas denotan las conjunciones de características que conducen a esas etiquetas de clase. Se utiliza mucho en los algoritmos de aprendizaje automático. Normalmente, un enfoque de aprendizaje automático incluye el control de muchos hiperparámetros y optimizaciones.
El árbol de regresión se utiliza cuando el resultado predicho es un número real y el árbol de clasificación se utiliza para predecir la clase a la que pertenecen los datos. Estos dos términos se denominan colectivamente árboles de clasificación y regresión (CART).
Se trata de técnicas de aprendizaje de árboles de decisión no paramétricos que proporcionan árboles de regresión o de clasificación, dependiendo de si la variable dependiente es categórica o numérica, respectivamente. Este algoritmo despliega el método del Índice de Gini para originar divisiones binarias. Tanto el índice de Gini como la impureza de Gini se utilizan indistintamente.
Calcular el coeficiente de gini
En economía, el coeficiente de Gini (/ˈdʒiːni/ JEE-nee), también índice de Gini y ratio de Gini, es una medida de dispersión estadística que pretende representar la desigualdad de ingresos o la desigualdad de riqueza dentro de una nación o un grupo social. El coeficiente de Gini fue desarrollado por el estadístico y sociólogo Corrado Gini.
El coeficiente de Gini mide la desigualdad entre los valores de una distribución de frecuencias (por ejemplo, los niveles de renta). Un coeficiente de Gini de cero expresa una igualdad perfecta, donde todos los valores son iguales (por ejemplo, donde todos tienen los mismos ingresos). Un coeficiente de Gini de uno (o 100%) expresa la máxima desigualdad entre los valores (por ejemplo, para un gran número de personas en el que sólo una persona tiene todos los ingresos o el consumo y todas las demás no tienen ninguno, el coeficiente de Gini será casi uno)[3][4].
En el caso de grupos más grandes, es poco probable que los valores se acerquen a uno. Dada la normalización tanto de la población acumulada como de la parte acumulada de la renta que se utiliza para calcular el coeficiente de Gini, la medida no es demasiado sensible a los detalles de la distribución de la renta, sino sólo a cómo varían los ingresos en relación con los demás miembros de una población. La excepción es la redistribución de la renta que da lugar a una renta mínima para todas las personas. Cuando la población está ordenada, si su distribución de la renta se aproxima a una función conocida, se pueden calcular algunos valores representativos.