Capitulo 7 CART
Capitulo 7 CART
Capitulo 7 CART
Temas
Temas Administrativos 2. Clase: CART: Arboles de Clasificacin y Regresin
1.
Descanso
Control 4. Tarea
3.
Temario Clase
1. Arboles 2. Particin Recursiva 3. Medidas de Impureza 4. El Problema de Overfitting 5. Arboles de Regresin
Arboles
Arboles y Reglas
Objetivo: Clasificar o predecir un resultado basado en un grupo de predictores El resultado es un grupo de reglas Ejemplo: Objetivo: Clasificar un registro si aceptar una oferta de tarjera de crdito o no aceptar La regla podras ser SI (Ingreso> 92.5) Y (Educacin < 1.5) Y (Familia<= 2.5) ENTONCES Clase = 0 (no acepta) Tambin llamado CART, Reglas de decisin, o slo Arboles Las reglas son representadas por diagramas de arboles
Ideas Principales
Particin recursiva: Dividir los registros repetitivamente en dos partes con el fin de lograr mxima homogeneidad en los nuevos grupos Podar el rbol: Simplificar el rbol podando las ramas perifricas para evitar overfitting
Particin Recursiva
Income 60.0 85.5 64.8 61.5 87.0 110.1 108.0 82.8 69.0 93.0 51.0 81.0 75.0 52.8 64.8 43.2 84.0 49.2 59.4 66.0 47.4 33.0 51.0 63.0
Lot_Size 18.4 16.8 21.6 20.8 23.6 19.2 17.6 22.4 20.0 20.8 22.0 20.0 19.6 20.8 17.2 20.4 17.6 17.6 16.0 18.4 16.4 18.8 14.0 14.8
Ownership owner owner owner owner owner owner owner owner owner owner owner owner non-owner non-owner non-owner non-owner non-owner non-owner non-owner non-owner non-owner non-owner non-owner non-owner
Con varias categoras, pueden ser muchas las opciones XLMiner soporta solo variables categricas binarias
Medidas de Impureza
Indice Gini
Indice Gini para un rectngulo A que contiene m registros:
I(A) = 1 -
=1
= proporcin de casos en rectngulo A que pertenecen a la clase k I(A) = 0 cuando todos los casos pertenecen a la misma clase I(A) es mximo cuando todos los casos estn igualmente representados ( = 0,50 en caso binario)
Entropa
=
=1 2
= proporcin de casos (sobre m) en rectngulo A que pertenecen a la clase k Entropa vara entre 0 (ms puro) y log2(m) (clases igualmente representadas)
Particin Recursiva
Obtener medida de impureza general (promedio ponderado de rectngulos individuales) En cada etapa sucesiva, comparar este medida entre todas las posibles divisiones de todas las variables Elegir la divisin que ms reduce la impureza Los puntos de divisin escogidos se convierten en nodos del rbol
Primera Divisin
El Problema de Overfitting
CHAID
CHAID, ms antiguo que CART, utiliza medida estadstica de chi-square para limitar el crecimiento del rbol Las divisiones se detienen cuando la mejora de pureza no es estadsticamente significativa
Podar o Pruning
CART permite al rbol crecer al mximo, luego poda las hojas La idea es encontrar el punto en que el error de validacin empieza a crecer En el proceso se generan arboles ms pequeos en forma sucesiva podando las hojas En cada paso de podar, son posibles varios arboles Se utiliza el Costo Compuesto para seleccionar el mejor rbol en cada paso
Costo Compuesto
CC(T) = Err(T) + L(T) CC(T) = Costo Compuesto de un rbol Err(T) = proporcin de registros mal clasificados = factor de penalidad de acuerdo al tamao del rbol (determinado por el usuario) Entre arboles de cierto tamao, seleccionar el de menor CC Realizar esto para cada tamao de rbol
Resultados de Podar
Este proceso genera un grupo de rboles de diferentes tamaos y sus tasas de error asociadas Dos rboles de inters: Arbol de error mnimo
Tienes menor tasa de error en datos de validacin
Arboles de Regresin
Desventajas
Puede no funcionar bien donde la estructura de datos no es bien capturada por divisiones horizontales o verticales Como el proceso funciona con una variable a la vez, no puede capturar interacciones entre las variables
Resumen
Arboles de Clasificacin y Regresin es un mtodo fcil y transparente para clasificar o predecir nuevos registros Un rbol es una representacin grfica de un grupo de reglas Arboles deben ser podados para evitar overfitting de los datos de entrenamiento Como los rboles no hacen supuestos de la estructura de datos, estos usualmente requieren grandes muestras