Las Aplicaciones Del Análisis de Segmentación
Las Aplicaciones Del Análisis de Segmentación
Las Aplicaciones Del Análisis de Segmentación
EL PROCEDIMIENTO CHAID
Modesto Escobar
Universidad de Salamanca
Instituto Juan March de Estudios e Investigaciones
Junio de 1998
● Cuando en un cuestionario se desea explicar por qué los entrevistados dan
contestaciones distintas a las preguntas, se construye una serie de tablas que
permiten ver la asociación existente entre unas y otras variables. No es cuestión de
cruzar cada pregunta con el resto, sino de seleccionar una serie de hipótesis
plausibles con el conocimiento previo, teórico o empírico, de la realidad que se está
investigando, y, de acuerdo con ellas, realizar los análisis que pongan a prueba las
conjeturas. Una manera de facilitar la tarea de selección de variables relevantes en la
explicación de la contestación a una pregunta dada es la técnica del análisis de
segmentación, que proporciona además una descripción de las diferencias que los
distintos grupos de una muestra pueden presentar en un determinado rasgo. Es ésta
una técnica de dependencia entre variables. (página 2)
● En su uso se distinguen, por un lado, una variable cuya distribución se desea explicar
y, por el otro, un conjunto de variables, nominales u ordinales, con estatus de
independientes. Éstas reciben el nombre de pronosticadoras y tienen la finalidad de
conformar grupos que sean muy distintos entre sí en la variable dependiente. (página
2)
● En resumidas cuentas, la segmentación permite dividir una muestra de modo que
queden grupos de contenido uniforme muy distintos entre ellos. (página 3)
● El análisis de segmentación fue concebido y debe ser utilizado principalmente con
una finalidad exploratoria. La razón radica en que su mecanismo consiste en la
búsqueda de las mejores asociaciones de las variables independientes con la
dependiente. (página 3)
● Además, segmentar significa dividir y, en consecuencia, permite que se hallen grupos
muy distintos en un determinado aspecto. De este modo, las muestras quedan
fragmentadas en distintos tipos de personas u objetos cuya descripción constituye un
objetivo adicional de esta técnica. (página 3)
2. La lógica del análisis de segmentación. El algoritmo CHAID.
● Se detendrá esta exposición en aquellos casos con variable dependiente medida en
escala nominal. (página 4)
● Los pasos lógicos que deben seguirse para realizar esta tarea son los siguientes:
(página 4)
- a) Preparación de las variables. Tarea del analista, que debe seleccionar una
variable dependiente que sea de interés para el análisis y elegir un conjunto de
posibles pronosticadores relevantes (variables nominales, ordinales con pocas
categorías, preferiblemente menos de diez, o incluso variables cuantitativas
convertidas en discretas) que permitan realizar una descripción y pronóstico
óptimo de la primera variable.
- b) Agrupación de las categorías de las variables independientes en el caso de
que éstas tengan un perfil similar de la variable dependiente.
- c) Primera segmentación, que consiste en la selección de la variable que mejor
prediga la variable dependiente.
- d) Segunda segmentación. Para cada segmento formado en el paso anterior, se
busca entre las variables cuyos valores han sido previamente agrupados de la
misma forma que en el paso b), la que tenga mayor poder pronosticador.
- e) Sucesivas segmentaciones. Se procede de forma similar al paso anterior en
cada grupo formado por la segmentación previa. (página 4 - 5)
● Hay variados procedimientos para llevar a cabo la segmentación. A continuación se
presenta con mayor detalle el algoritmo llamado CHAID, quien la ha adaptado para
el SPSS, tiene como principal característica distintiva de otros algoritmos de
segmentación el que la muestra no se segmente de modo binario, o dicho de otro
modo, el que se pueden formar segmentos con más de dos categorías al unísono. Al
igual que otras prácticas de segmentación, las operaciones elementales que realiza
son: a) la agrupación de las categorías de las variables pronosticadoras; b) la
comparación de efectos entre distintas variables, y c) la finalización del proceso de
segmentación. (página 6)
2.1. Reducción de las categorías más discriminantes de cada pronosticador
● Este primer paso consiste en seleccionar las categorías de las variables
pronosticadoras que realmente discriminan a los sujetos en la variable dependiente.
Suponiendo que una determinada variable tuviera c valores, se trata de convertirlos a
un número k menor o igual c que reduzca la complejidad de la segmentación sin
pérdida sustancial de información. (página 6)
● Se puede optar por tres modalidades de reducción según sean las características de
las variables pronosticadoras: (página 6)
- 1) Variables nominales: Cada valor de la variable pronosticadora puede ser
agregado a cualquier otro valor de la misma variable. Este procedimiento
también se denominaba libre (free).
- 2) Variables ordinales: Un valor de la variable sólo puede ser agregado a otro
si es contiguo en la escala. Este procedimiento también se conoce con la
denominación de monótono. El procedimiento permitiría la fusión de las
categorías primera y segunda o segunda y tercera, y descartaría la posibilidad
de formar un grupo compuesto por sujetos con estudios primarios y
universitarios.
- 3) Variables ordinales con valores perdidos: Es similar a la opción anterior,
pero permite un mayor grado de libertad, por cuanto un valor, generalmente
el “no sabe, no contesta”, puede agregarse libremente a cualquier grupo. Con
este procedimiento, también denominado flotante (float), los sujetos que no
contestaran podrían agruparse con cualquiera de las tres categorías
establecidas.
- 4) Variable cuantitativas: Las variables cuantitativas para ser utilizadas en el
procedimiento CHAID tienen que ser recodificadas en valores discretos y ser
tratadas como si fueran ordinales. (página 7)
● El funcionamiento de formación de grupos de categorías homogéneas se basa en el
estadístico x2 . Los pasos son los siguientes: (página 7)
- 1) Se forman todos los pares posibles de categorías. Esto dependerá de la
opción que se haya preferido dar a un determinado pronosticador.
- 2) Para cada posible par se calcula el x2 correspondiente a su cruce con la
variable dependiente. El par con más bajo x2, siempre que no sea significativo,
formará una nueva categoría de dos valores fusionados. La condición de que
no sea significativo es muy importante porque, caso de que lo fuese, indicaría
que las dos categorías que se pretenden fusionar no lo pueden hacer, ya que
son heterogéneas entre sí en los valores de la variable dependiente y el
objetivo es justo lo contrario, asimilar categorías con comportamiento
semejante.
- 3) Si se ha fusionado un determinado par de categorías, se procede a realizar
nuevas fusiones de los valores del pronosticador, pero esta vez con una
categoría menos, pues dos de las antiguas han sido reducidas a una sola.
(página 8)
- 4) El proceso se acaba cuando ya no pueden realizarse más fusiones porque los
x2 ofrecen resultados significativos. (página 9)
● De esta forma, como casos extremos, podría suceder que una variable con c
categorías siguiera con c grupos, en el supuesto de que todos ellos sean diferentes
entre sí; o bien, que las categorías tengan valores tan parecidos en la variable
dependiente que se queden reducidos a uno solo, con lo que el poder discriminador
del pronosticador sería nulo. (página 9 - 10)
● Existe un procedimiento que ahorra gran cantidad de cálculos y posee una razonable
base lógica. Se trata de limitarse a la obtención de segmentaciones binarias. Esto
implica que, sea cual sea el número de categorías de los pronosticadores, se busque la
mejor combinación de ellas que genere sólo dos grupos (k=2). En consecuencia,
habría que formar todas las posibles combinaciones de dos grupos con las c
categorías y seleccionar aquél con un $2 mayor. Es evidente que utilizando estos
contrastes binarios, el número de posibilidades de agrupación se reduce. (página 10)
● Biggs et al. (1991) propusieron la fusión continua de pares de valores hasta que sólo
quedara una única dicotomía de valores, denominando a tal procedimiento CHAID
exhaustivo. (página 11)
2.2 Selección de los mejores pronosticadores
● Una vez que para cada pronosticador se ha realizado la combinación oportuna de
categorías, el siguiente paso sería la selección de los mejores pronosticadores. Para
hacerlo, hay que calcular para cada uno de ellos su correspondiente $2 y comparar las
significaciones obtenidas; sin embargo, es conveniente en este proceso modificar la
significación de cada pronosticador con el ajuste de Bonferroni, porque la
probabilidad de obtención de un resultado significativo aumenta artificialmente con
la proliferación de pruebas estadísticas que implica este análisis. (página 11)
● Una vez realizada la primera segmentación, se procede a la ejecución de sucesivas
segmentaciones para cada uno de los grupos formados por la primera. (página 13)
● El proceso de segmentación debe ser examinado en sus distintas fases con el objeto
de valorar el comportamiento de los pronosticadores alternativos. El problema
estriba en que el programa analiza varias variables en cada paso de la segmentación y
tiene que elegir entre ellas sólo una. Si en una determinada fase existen varios
pronosticadores de similar poder de segmentación, el análisis de la elección
efectuada puede conducir a interpretaciones precipitadas. (página 19)
● Para descubrir la posible existencia de este problema, habrá que prestar atención en
cada segmentación a la significación ajustada del x2 de los pronosticadores
alternativos. (página 20)
● Por último, para determinar la capacidad pronosticadora de la segmentación en su
conjunto, resulta muy útil cruzar la variable dependiente con una nueva variable
compuesta, cuyos valores sean las características de cada uno de los grupos
terminales formados por la segmentación. Un coeficiente de asociación, como puede
ser la V de Cramer, resume el poder de predicción de los segmentos en su explicación
de la variable dependiente. (página 20)
● Otro modo de juzgar la bondad de la segmentación consiste en construir una tabla
donde se cruce los datos empíricos de la variable dependiente con los que se
pronosticarían con el conocimiento del segmento al que pertenece cada individuo.
(página 20)
● En la tabla de clasificación, quedan distinguidas las cifras de la diagonal, que son
aciertos o coincidencias entre la predicción y lo real, de las que están fuera de ellas,
que son equivocaciones. La estimación del error se calcula mediante el cociente entre
estas últimas frecuencias y el total número de casos. (página 21)
2.3 La finalización del proceso de segmentación
● Si no se pusieran límites al proceso de segmentación, este análisis podría producir
una gran cantidad de grupos terminales de tamaño muy pequeño que serían difíciles
de interpretar. En un caso extremo, con un número elevado de variables y sin
restricción alguna, este análisis produciría tantos grupos como individuos tuviese la
muestra. En la situación común de una muestra de 1000 sujetos con 5 pronosticadores
de tres categorías cada uno, el número posible de grupos terminales sería de 243 con
un tamaño medio aproximado de cuatro personas (1000/243). Es conveniente, por
tanto, poner límites al proceso de segmentación. Existen cuatro tipo de filtros que
evitan la continuación de la segmentación: los de significación, los de asociación, los
de tamaño y los de nivel. (página 21)
2.3.1 Filtros de significación
● Son los más utilizados en la técnica CHAID de segmentación. Su criterio consiste
básicamente en no permitir segmentaciones que no sean estadísticamente
significativas. (página 21)
● Los límites de significación se sitúan en el nivel 0.05, que se corresponde con un nivel
de confianza del 95%. Estos filtros pueden ser aplicados en dos de los procesos
explicados anteriormente: bien en la agrupación de categorías de una variable (fusión
de valores), bien en la selección del mejor pronosticador (segmentación de grupos).
(página 22)
● La aplicación en el primer proceso es en realidad un mecanismo indirecto de
finalización de la segmentación. Su efecto opera fundamentalmente en la cantidad de
categorías de una determinada variable que van a segmentarse. Consiste en
determinar la significación mínima para que dos categorías de una variable queden
englobadas en el mismo segmento. El valor –SC, significación de las categorías (alpha
for merging)– más comúnmente asumido para este parámetro es el de 0.05. Si la
significación de la diferencia en la variable dependiente entre dos categorías de la
variable independiente es menor que este valor, se permite rechazar la hipótesis nula
con un 95% de confianza y, como consecuencia, las dos susodichas categorías quedan
separadas y se puede proseguir la segmentación. En cambio, si el valor es superior a
0.05, las categorías se funden, y, si quedan agrupadas todas las categorías de todas las
variables, la segmentación se detiene. (página 22 - 23)
● Los valores extremos permiten comprender con mayor eficacia el efecto de este
mecanismo. Si se escoge el mayor valor posible del parámetro (1.0), entonces, la
agrupación o reducción de categorías de las variables se torna imposible y, siempre
que haya significación entre pronosticador y variable dependiente, la segmentación
formará con una determinada variable tantos grupos como categorías tenga. (página
23)
● Si, en vez de poner el nivel de significación de la agrupación de las categorías en un
valor alto, se situará en un valor bajo (por ejemplo, 4E-4), entonces, en lugar de
producirse más subdivisiones entre los grupos, se generarían menos divisiones entre
las categorías, con el riesgo añadido de que una determinada variable no funcione
como un buen pronosticador. (página 23 - 24)
● El otro mecanismo de control de significación, en lugar de operar sobre la agrupación
de categorías, afecta a la selección de variables. Este procedimiento es una forma
directa de finalizar la segmentación, porque, después de encontrar el pronosticador
con menor significación, si no es inferior al límite establecido (generalmente 0.05), es
obvio que no habrá otro pronosticador que cumpla también con esta propiedad.
(página 24)
● Visto desde sus posibilidades extremas, si se establece este parámetro -SV,
significación de la variable (alpha for splitting)– en el valor 1.0, la segmentación se
producirá por todas las variables existentes; pero si se determina que el parámetro sea
0.0, entonces la segmentación no se produce ni tan siquiera en el primer nivel, pues la
significación empírica de un pronosticador, por muy pequeña que sea, siempre es
superior a cero. (página 24)
● Ahora bien, es preciso tener en cuenta que no basta cambiar el parámetro SV, porque
si sigue efectivo un valor inferior del SV, al operar con anterioridad, éste elimina los
efectos del primero. Es conveniente, por tanto, que SC > SV. (página 25)
● En cambio, si se aplica un filtro más severo, la segmentación sólo tendrá lugar
cuando la variable independiente tenga una capacidad de predicción alta. (página 26)
2.3.2 Filtros de asociación
● Cumplen una función análoga a la de los filtros de significación de pronosticadores.
Se pueden aplicar a los siguientes coeficientes de asociación: Phi, V de Cramer,
Coeficiente de Contingencia, u otros. Se trata de detener la segmentación no porque
un determinado cruce no obtenga un mínimo de significación, sino porque el
coeficiente de asociación elegido no alcance un determinado nivel. (página 26)
● Por tanto, en valores equiparables de uno y otro, los filtros de asociación son más
permisivos en los niveles más bajos de segmentación. Como los de significación son
muy sensibles al número de casos, es muy probable que en el tercer o cuarto nivel el
análisis no cumpla las condiciones del filtro, porque los segmentos tengan un tamaño
reducido. En cambio, los coeficientes de asociación, por el hecho de eliminar la
influencia del número de casos, permiten segmentaciones aun en condiciones de
escasos sujetos. En este caso hay mucho menos acuerdo sobre cuál debe ser el valor
del filtro. Como regla de experiencia, se consideran adecuados los valores 0.10 ó 0.20.
(página 26)
● Sin embargo, el programa Answer Tree del SPSS no contempla la posibilidad de
utilizarlos para el control de la segmentación. En todo caso, la opción recomendada
para el uso de estos filtros es que se utilicen en conjunción con un filtro de
significación, de forma que una segmentación que no sea significativa no se lleve a
cabo por muy grande que sea su coeficiente de asociación. (página 26)
2.3.3 Filtros de tamaño
● Su principal objetivo consiste en evitar que se formen grupos muy pequeños durante
el proceso de segmentación, dado el problema que supone la generalización en estos
casos. (página 27)
● Si, por ejemplo, se segmentara un grupo de 25 personas de las que un 30% es
favorable al aborto, se plantearían dos problemas: por un lado, este grupo no sería
representativo en sí de la población; por otro, el valor del 30% tampoco sería un
estimador muy preciso con un tamaño de muestra tan reducido. (página 27)
● Los filtros de tamaño pueden aplicarse en dos momentos: después de la
segmentación (Nd, child node) y antes de la segmentación (Na, parent node). En el
primer caso, no se puede formar un grupo si no tiene un número establecido de
componentes. En el segundo, la segmentación se detiene en el supuesto de que haya
un grupo que haya descendido de un determinado número de individuos. (página 27)
● En cambio, si se opta por el filtro del tamaño antes de la segmentación y se toma
como cantidad el mismo número arbitrario, esto es, 400, el gráfico en forma de árbol
toma una apariencia completamente distinta del anterior, porque con este nuevo
criterio, la ideología sí funciona como pronosticador. (página 28)
● Es obvio que ambos filtros pueden utilizarse al mismo tiempo. Lo que no tiene
sentido es que el filtro antes de la segmentación (Na) sea inferior en número al de
después (Nd), puesto que de esta forma este último no se aplicaría. Sólo tiene razón
que Na sea superior a Nd. Como regla general, se recomiendan unos parámetros de
100 para Na y 50 para Nd. Esto implica la no obtención de grupos inferiores a un
medio centenar de personas y la no segmentación de conjuntos con menos de cien
componentes. (página 28 - 29)
2.3.4 Filtros de nivel
● Por último, existe un cuarto tipo de mecanismo de detención de la segmentación.
Consiste en arbitrar un nivel (Ns, depth) máximo de segmentación. Si se establece
este criterio en 0, la segmentación no tendrá lugar; si en 1, sólo se realizará una
segmentación; si en 2, dos tandas. Por tanto, por nivel se entiende cada una de las
franjas horizontales del árbol. invertido. La primera franja horizontal corresponde al
total de la muestra, la segunda a la primera segmentación, la tercera a la segunda.
Este filtro evita que se formen múltiples segmentaciones en segmentos
desproporcionadamente grandes de la muestra. Asimismo, contribuye a simplificar
los resultados en la medida en que reduce directamente el número de variables
necesarias para predecir la variable dependiente. (página 29)
3. Ejemplos de aplicación
● La función clasificadora del análisis de segmentación permite configurar una serie de
grupos que se distinguen por su comportamiento distinto en una determinada
variable dependiente. La especificación de las características de los grupos
terminales formados por esta técnica es un excelente medio para describir grupos
heterogéneos de la muestra. Segmentar significa dividir y este análisis permite con su
algoritmo el hallazgo de grupos muy distintos en un determinado aspecto. Por tanto,
uno de los usos que se le puede dar a la segmentación es la descripción de las
muestras y, por extensión, de las poblaciones de las que son extraídas. (página 30)
● La mejor manera de efectuar la descripción con el análisis de segmentación es
mediante la interpretación de los grupos terminales. Hay que recordar que para hacer
una buena descripción es necesario introducir pronosticadores adecuados en el
procedimiento. Así se mostrará la conveniencia de dos reglas: a) incluir variables
que sean relevantes para la dependiente y b) introducir el máximo posible de
pronosticadores ya que el análisis en cuestión se encarga de filtrar los relevantes.
(página 30)
● El análisis de segmentación permite, pues, realizar una descripción de segmentos de
la muestra con comportamiento u opinión distintos entre ellos. Por su propia lógica,
tiende a encontrar grupos muy diferentes entre sí. Ahora bien, cuanto mejores sean
las variables introducidas, tarea que corresponde al analista, más nítida será la
distribución de los distintos grupos. Por tanto, la mejor estrategia en la introducción
de variables independientes es la inclusión en caso de duda: si se introduce una poco
relevante, el propio análisis se encarga de que no aparezca; en cambio si no se incluye
un buen pronosticador, la calidad de la segmentación se reduce considerablemente.
(página 33)
● La segmentación es adecuada, máxime cuando el error inicial sería del 40%, por lo
que el conocimiento de los segmentos mejora un 25% la predicción de la variable
dependiente. (página 37)
5. Sumario a modo de conclusiones
● El análisis de segmentación es una técnica de análisis de datos basada en la
dependencia entre variables, cuya finalidad es la de formar grupos, configurados con
valores de las variables independientes, que sean muy distintos entre sí en la variable
dependiente. La lógica de su procedimiento se sustenta en los siguientes pasos: a)
agrupación de categorías de los pronosticadores, b) selección de los mejores
pronosticadores y c) sucesivas segmentaciones, hasta alcanzar unos límites definidos
por los denominados filtros, sobre los grupos formados a partir de los pasos
anteriores. (página 38)
● Uno de los algoritmos más útiles para sociólogos es el basado en el estadístico x2 ,
pues es especialmente indicado para variables dependientes nominales. La utilidad
del análisis de segmentación es múltiple. Está especialmente diseñado para
propósitos descriptivos, exploratorios e incluso pronosticadores. Además, con ciertas
cautelas, también puede ser útil para un previo análisis causal de las variables.
(página 38)