Capitulo 7 CART

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 40

CART: Arboles de Clasificacin y Regresin

Taller de Inteligencia de Negocios DATA MINING


Arie Rapaport

Temas
Temas Administrativos 2. Clase: CART: Arboles de Clasificacin y Regresin
1.

Descanso

Control 4. Tarea
3.

Temario Clase
1. Arboles 2. Particin Recursiva 3. Medidas de Impureza 4. El Problema de Overfitting 5. Arboles de Regresin

Arboles

Arboles y Reglas
Objetivo: Clasificar o predecir un resultado basado en un grupo de predictores El resultado es un grupo de reglas Ejemplo: Objetivo: Clasificar un registro si aceptar una oferta de tarjera de crdito o no aceptar La regla podras ser SI (Ingreso> 92.5) Y (Educacin < 1.5) Y (Familia<= 2.5) ENTONCES Clase = 0 (no acepta) Tambin llamado CART, Reglas de decisin, o slo Arboles Las reglas son representadas por diagramas de arboles

Ideas Principales
Particin recursiva: Dividir los registros repetitivamente en dos partes con el fin de lograr mxima homogeneidad en los nuevos grupos Podar el rbol: Simplificar el rbol podando las ramas perifricas para evitar overfitting

Particin Recursiva

Pasos para Particin Recursiva


Elegir una de las variables predictoras, xi Seleccionar un valor de xi,siendo si, que divide los datos de entrenamiento en dos grupos Medir cuan puro u homogneo son cada uno de los nuevos grupos
Puro = contiene registros mayormente de una clase

La idea es elegir xi, y si para maximizar pureza Repetir el proceso

Ejemplo: Riding Mowers


Datos: 24 dueos de casa clasificados si tienen o no un cortacspedes con conductor Predictores = Ingreso, Tamao del patio

Income 60.0 85.5 64.8 61.5 87.0 110.1 108.0 82.8 69.0 93.0 51.0 81.0 75.0 52.8 64.8 43.2 84.0 49.2 59.4 66.0 47.4 33.0 51.0 63.0

Lot_Size 18.4 16.8 21.6 20.8 23.6 19.2 17.6 22.4 20.0 20.8 22.0 20.0 19.6 20.8 17.2 20.4 17.6 17.6 16.0 18.4 16.4 18.8 14.0 14.8

Ownership owner owner owner owner owner owner owner owner owner owner owner owner non-owner non-owner non-owner non-owner non-owner non-owner non-owner non-owner non-owner non-owner non-owner non-owner

Como Dividir los Registros


Ordenar los registros de acuerdo a una variable, supongamos lot_size Encontrar puntos medios entre valores sucesivos Ej. Primer punto medio es 14.4 (entre 14.0 y 14.8) Dividir los registros entre los que lot size > 14.4 y los que lot size < 14.4 Despus de evaluar esa divisin, probar la siguiente, que es 15.4 (entre 14.8 and 16.0)

Primera Divisin: Lot Size = 19.000

Segunda Divisin: Income = $84,750


(Nodo de Lot Size <19.000)

Representacin Tres Primeras Divisiones

Despus de Todas las Divisiones

Nota: Variables Categricas


Examinar todas las formas posibles en que pueden agruparse las categoras Ej. categoras A, B, C puede ser dividido en 3 formas:
{A} y {B, C} {B} y {A, C} {C} y {A, B}

Con varias categoras, pueden ser muchas las opciones XLMiner soporta solo variables categricas binarias

Medidas de Impureza

Indice Gini
Indice Gini para un rectngulo A que contiene m registros:

I(A) = 1 -

=1

= proporcin de casos en rectngulo A que pertenecen a la clase k I(A) = 0 cuando todos los casos pertenecen a la misma clase I(A) es mximo cuando todos los casos estn igualmente representados ( = 0,50 en caso binario)

Entropa
=
=1 2

= proporcin de casos (sobre m) en rectngulo A que pertenecen a la clase k Entropa vara entre 0 (ms puro) y log2(m) (clases igualmente representadas)

Particin Recursiva
Obtener medida de impureza general (promedio ponderado de rectngulos individuales) En cada etapa sucesiva, comparar este medida entre todas las posibles divisiones de todas las variables Elegir la divisin que ms reduce la impureza Los puntos de divisin escogidos se convierten en nodos del rbol

Primera Divisin

Arbol en Tercera Divisin

Estructura del Arbol


Puntos de divisin pasan a ser nodos del rbol (crculos con valor de divisin en el centro) Rectngulos representan hojas (puntos terminales, no ms divisiones, se nota la clase) Nmeros en lneas entre nodos indican # de casos Leer hacia abajo el rbol para obtener la regla, ej.
SI lot size < 19, Y SI income > 84.75, ENTONCES clase = owner

Determinar el Nombre del Nodo Hoja


Cada nombre de nodo hoja es determinado votando sobre los registros y usando el valor de corte Registros en cada nodo hoja son de los datos de entrenamiento Corte por defecto = 0.5 significa que el nombre del nodo hoja se determina por la clase mayoritaria Corte = 0.75: requiere mayora de 75% o ms registros 1 en la hoja para nombrarlo nodo 1

Arbol luego de todas las divisiones

El Problema de Overfitting

Detener el Crecimiento del Arbol


Fin natural es 100% puro en cada hoja Esto overfitt los datos, ajustndose al ruido de los datos Overfitting implica una baja precisin predictiva de nuevos datos Pasado cierto punto, la tasa de error de los datos de validacin empiezan a crecer

Tasa de Error del Arbol

CHAID
CHAID, ms antiguo que CART, utiliza medida estadstica de chi-square para limitar el crecimiento del rbol Las divisiones se detienen cuando la mejora de pureza no es estadsticamente significativa

Podar o Pruning
CART permite al rbol crecer al mximo, luego poda las hojas La idea es encontrar el punto en que el error de validacin empieza a crecer En el proceso se generan arboles ms pequeos en forma sucesiva podando las hojas En cada paso de podar, son posibles varios arboles Se utiliza el Costo Compuesto para seleccionar el mejor rbol en cada paso

Costo Compuesto
CC(T) = Err(T) + L(T) CC(T) = Costo Compuesto de un rbol Err(T) = proporcin de registros mal clasificados = factor de penalidad de acuerdo al tamao del rbol (determinado por el usuario) Entre arboles de cierto tamao, seleccionar el de menor CC Realizar esto para cada tamao de rbol

Resultados de Podar
Este proceso genera un grupo de rboles de diferentes tamaos y sus tasas de error asociadas Dos rboles de inters: Arbol de error mnimo
Tienes menor tasa de error en datos de validacin

Mejor rbol podado


Arbol ms pequeo dentro de una desviacin estndar del rbol de menor error Esto agrega un bono de simplicidad

Tasas de Error en Arboles Podados

Arboles de Regresin

Arboles de Regresin para Prediccin


Usado con variables objetivos continuas Procedimiento similar al rbol de clasificacin Varios intentos de divisin, seleccionar el que minimice la impureza

Diferencias con Clasificacin (CT)


La prediccin es calculada como promedio de las variables numricas en el rectngulo (en CT es el voto de mayora) Impureza mide la suma de los cuadrados de las desviaciones del promedio de la hoja Efectividad medida con RMSE (raz del promedio de los errores al cuadrado)

Ventajas de los Arboles


Facil de usar y entender Produce reglas que son fciles de interpretar e implementar La seleccin y reduccin de variables es automtica No requiere supuestos de modelos estadsticos Puede funcionar sin un manejo exhaustivo de datos faltantes

Desventajas
Puede no funcionar bien donde la estructura de datos no es bien capturada por divisiones horizontales o verticales Como el proceso funciona con una variable a la vez, no puede capturar interacciones entre las variables

Resumen
Arboles de Clasificacin y Regresin es un mtodo fcil y transparente para clasificar o predecir nuevos registros Un rbol es una representacin grfica de un grupo de reglas Arboles deben ser podados para evitar overfitting de los datos de entrenamiento Como los rboles no hacen supuestos de la estructura de datos, estos usualmente requieren grandes muestras

También podría gustarte