Qué son los árboles de decisión y para qué sirven

Qué son los árboles de decisión y para qué sirven

may´20 Patricia Merayo 0 comentarios

Los árboles de decisión son uno de los algoritmos más utilizados para la toma de decisiones en Machine Learning.

Aunque su capacidad predictiva es superada por otros algoritmos, son de uso frecuente por su sencilla implementación y fácil interpretación.

Qué es un árbol de decisión

Un árbol de decisión es un modelo predictivo que divide el espacio de los predictores agrupando observaciones con valores similares para la variable respuesta o dependiente.

Para dividir el espacio muestral en sub-regiones es preciso aplicar una serie de reglas o decisiones, para que cada sub-región contenga la mayor proporción posible de individuos de una de las poblaciones.

Si una sub-región contiene datos de diferentes clases, se subdivide en regiones más pequeñas hasta fragmentar el espacio en sub-regiones menores que integran datos de la misma clase.

El tipo de problema a resolver dependerá de la variable a predecir: 

  • Variable dependiente: estaríamos ante un problema de regresión.
  • Variable categórica: nos enfrentaríamos a un problema de clasificación.

Cuál es el origen de los árboles de decisión

Los creadores de la metodología del árbol de clasificación con aplicación al aprendizaje automático, también llamada metodología CART, fueron Leo Breiman, Jerome Friedman, Richard Olshen y Charles Stone. Su aplicación en el ámbito de la Estadística se inició en 1984.

Qué tipo de algoritmo es un árbol de decisión

Los algoritmos de aprendizaje automático se clasifican en dos tipos:

  • Supervisados.
  • No supervisados.

Un árbol de decisión es un algoritmo supervisado de aprendizaje automático porque para que aprenda el modelo necesitamos una variable dependiente en el
conjunto de entrenamiento.

Estructura básica de un árbol de decisión

Los árboles de decisión están formados por nodos y su lectura se realiza de arriba hacia abajo. 

Dentro de un árbol de decisión distinguimos diferentes tipos de nodos: 

  • Primer nodo o nodo raíz: en él se produce la primera división en función de la variable más importante.
  • Nodos internos o intermedios: tras la primera división encontramos estos nodos, que vuelven a dividir el conjunto de datos en función de las variables.
  • Nodos terminales u hojas: se ubican en la parte inferior del esquema y su función es indicar la clasificación definitiva.

Otro concepto que debes tener claro es la profundidad de un árbol, que viene determinada por el número máximo de nodos de una rama.

La continuación te mostramos un ejemplo gráfico:

Ventajas y desventajas de los árboles de decisión

Al hacer uso de esta herramienta surgen ventajas e inconvenientes.

Ventajas

  • Son fáciles de construir, interpretar y visualizar.
  • Selecciona las variables más importantes y en su creación no siempre se hace uso de todos los predictores.
  • Si faltan datos no podremos recorrer el árbol hasta un nodo terminal, pero sí podemos hacer predicciones promediando las hojas del sub-árbol que alcancemos.
  • No es preciso que se cumplan una serie de supuestos como en la regresión lineal (linealidad, normalidad de los residuos, homogeneidad de la varianza, etc.).
  • Sirven tanto para variables dependientes cualitativas como cuantitativas, como para variables predictoras o independientes numéricas y categóricas. Además, no necesita variables dummys, aunque a veces mejoran el modelo.
  • Permiten relaciones no lineales entre las variables explicativas y la variable dependiente.
  • Nos podemos servir de ellos para categorizar variables numéricas.

Desventajas

  • Tienden al sobreajuste u overfitting de los datos, por lo que el modelo al predecir nuevos casos no estima con el mismo índice de acierto.
  • Se ven influenciadas por los outliers, creando árboles con ramas muy profundas que no predicen bien para nuevos casos. Se deben eliminar dichos outliers.
  • No suelen ser muy eficientes con modelos de regresión.
  • Crear árboles demasiado complejos puede conllevar que no se adapten bien a los nuevos datos. La complejidad resta capacidad de interpretación.
  • Se pueden crear árboles sesgados si una de las clases es más numerosa que otra.
  • Se pierde información cuando se utilizan para categorizar una variable numérica continua.

Cómo se crea un árbol de decisión

La creación de un árbol de decisión de un problema de clasificación se lleva a cabo aplicando el algoritmo de Hunt que se basa en la división en sub-conjuntos que buscan una separación óptima. Dado un conjunto de registros de entrenamiento de un nodo, si pertenecen a la misma clase se considera un nodo terminal, pero si pertenecen a varias clases, se dividen los datos en sub-conjuntos más pequeños en función de una variable y se repite el proceso.

Para seleccionar qué variable elegir para obtener la mejor división se puede considerar el Error de Clasificación, el índice Gini (rpart) o la Entropía (C50).

El índice de Gini mide el grado de pureza de un nodo. Nos mide la probabilidad de no sacar dos registros de la misma clase del nodo. A mayor índice de Gini menor pureza, por lo que seleccionaremos la variable con menor Gini ponderado. Suele seleccionar divisiones desbalanceadas, donde normalmente aísla en un nodo una clase mayoritaria y el resto de clases los clasifica en otros nodos.

Se define el índice de Gini como:

Donde Pi es la probabilidad de que un ejemplo sea de la clase i.

La entropía es una medida que se aplica para cuantificar el desorden de un sistema. Si un nodo es puro su entropía es 0 y solo tiene observaciones de una clase, pero si la entropía es igual a 1, existe la misma frecuencia para cada una de las clases de observaciones.

La entropía tiende a crear nodos balanceados en el número de observaciones. Relacionado con la entropía se define la Ganancia de Información que busca la división con mayor ganancia de información, es decir, con menor entropía ponderada de la variable.

Se define la entropía como:

Donde Pi es la probabilidad de que un ejemplo sea de la clase i.

En el caso de los árboles de decisión de un problema de regresión se utiliza el RSS (Residual Sum of Squares) que es una medida de la discrepancia entre los datos reales y los predichos por el modelo. Un RSS bajo indica un buen ajuste del modelo a los datos, es decir, se busca minimizar el RSS.

Se define el RSS como:

Donde yi es el valor real de la variable a predecir y ˆyi es el valor predicho.

0 comentarios

Acepto la política de privacidad

¹ Todos los campos son obligatorios.
² Tu correo electrónico no será publicado.

  • Disfruté leyendo tu artículoi.

    Responder

    erotik izle 24 de julio de 2020, 23:04

    • Gracias Erotik!

      Responder

      Rosana Ferrero 31 de julio de 2020, 09:47

  • Ein guter Blog! Ich werde ein paar von diesen Lesezeichen .. Adina Stanleigh Jorin

    Responder

    Adina Stanleigh Jorin 10 de agosto de 2020, 03:05

    • ¡Danke dir!

      Responder

      Rosana Ferrero 11 de agosto de 2020, 10:20

  • Wow, muchas gracias! Esta onda de Data Science me está gustando cada vez más, gracias por compartir sus conocimientos y su pasión con los demás.

    Responder

    Andrea Aranda 24 de febrero de 2021, 22:26

  • Thanks you Tansy!

    Responder

    Rosana Ferrero 3 de agosto de 2020, 12:34

En Máxima Formación utilizamos cookies propias y de terceros con finalidad analítica y publicitaria. En nuestra política de cookies te contamos cuáles usamos y cómo desactivarlas si quieres. Aceptar todas Configurar/Rechazar

Diseño web: Albin Soft.