Las Aplicaciones Del Análisis de Segmentación

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 9

LAS APLICACIONES DEL ANÁLISIS DE SEGMENTACIÓN:  

EL PROCEDIMIENTO CHAID  
Modesto Escobar  
Universidad de Salamanca  
Instituto Juan March de Estudios e Investigaciones  
Junio de 1998 
 
● Cuando  en  un  cuestionario  se  desea  explicar  por  qué  los  entrevistados  dan 
contestaciones  distintas  a  las  preguntas,  se  construye  una  serie  de  tablas  que 
permiten  ver  la  asociación  existente  entre  unas  y  otras  variables.  No  es  cuestión  de 
cruzar  cada  pregunta  con  el  resto,  sino  de  seleccionar  una  serie  de  hipótesis 
plausibles  con  el  conocimiento  previo,  teórico  o  empírico,  de  la  realidad  que  se  está 
investigando,  y,  de  acuerdo  con  ellas,  realizar  los  análisis  que  pongan  a  prueba  las 
conjeturas.  Una  manera  de  facilitar  la  tarea  de selección de variables relevantes en la 
explicación  de  la  contestación  a  una  pregunta  dada  es  la  técnica  del  análisis  de 
segmentación,  que  proporciona  además  una  descripción  de  las  diferencias  que  los 
distintos  grupos  de  una  muestra  pueden  presentar  en  un  determinado  rasgo.  Es  ésta 
una técnica de dependencia entre variables. (página 2) 
 
● En  su  uso  se  distinguen,  por  un lado, una variable cuya distribución se desea explicar 
y,  por  el  otro,  un  conjunto  de  variables,  nominales  u  ordinales,  con  estatus  de 
independientes.  Éstas  reciben  el  nombre  de  pronosticadoras  y  tienen  la  finalidad  de 
conformar  grupos  que  sean  muy  distintos  entre sí en la variable dependiente. (página 
2) 
 
● En  resumidas  cuentas,  la  segmentación  permite  dividir  una  muestra  de  modo  que 
queden grupos de contenido uniforme muy distintos entre ellos. (página 3) 
 
● El  análisis  de  segmentación  fue  concebido  y  debe  ser  utilizado  principalmente  con 
una  finalidad  exploratoria.  La  razón  radica  en  que  su  mecanismo  consiste  en  la 
búsqueda  de  las  mejores  asociaciones  de  las  variables  independientes  con  la 
dependiente. (página 3) 
 
● Además,  segmentar  significa dividir y, en consecuencia, permite que se hallen grupos 
muy  distintos  en  un  determinado  aspecto.  De  este  modo,  las  muestras  quedan 
fragmentadas  en  distintos  tipos de personas u objetos cuya descripción constituye un 
objetivo adicional de esta técnica. (página 3) 
 
2. La lógica del análisis de segmentación. El algoritmo CHAID. 
 
● Se  detendrá  esta  exposición  en  aquellos  casos  con  variable  dependiente  medida  en 
escala nominal. (página 4) 
 
● Los  pasos  lógicos  que  deben  seguirse  para  realizar  esta  tarea  son  los  siguientes: 
(página 4) 
- a)  ​Preparación  de  las  variables​.  Tarea  del  analista,  que  debe  seleccionar  una 
variable dependiente que sea de interés para el análisis y elegir un conjunto de 
posibles  pronosticadores  relevantes  (variables  nominales,  ordinales con pocas 
categorías,  preferiblemente  menos  de  diez,  o  incluso  variables  cuantitativas 
convertidas  en  discretas)  que  permitan  realizar  una  descripción  y  pronóstico 
óptimo de la primera variable.  
- b)  ​Agrupación  de  las  categorías  de  las  variables  ​independientes  en  el  caso  de 
que éstas tengan un perfil similar de la variable dependiente.  
- c)  ​Primera  segmentación​,  que  consiste en la selección de la variable que mejor 
prediga la variable dependiente. 
- d)  ​Segunda  segmentación​.  Para  cada segmento formado en el paso anterior, se 
busca  entre  las  variables  cuyos  valores  han  sido  previamente  agrupados  de  la 
misma forma que en el paso b), la que tenga mayor poder pronosticador. 
- e)  Sucesivas  segmentaciones.  Se  procede  de  forma  similar  al  paso  anterior  en 
cada grupo formado por la segmentación previa. (página 4 - 5) 
 
● Hay  variados  procedimientos  para  llevar  a  cabo  la  segmentación.  A  continuación  se 
presenta  con  mayor  detalle  el  algoritmo  llamado  CHAID,  quien  la  ha  adaptado  para 
el  SPSS,  tiene  como  principal  característica  distintiva  de  otros  algoritmos  de 
segmentación  el  que  la  muestra  no  se  segmente  de  modo  binario,  o  dicho  de  otro 
modo,  el  que  se  pueden  formar  segmentos  con  más  de  dos  categorías  al  unísono.  Al 
igual  que  otras  prácticas  de  segmentación,  las  operaciones  elementales  que  realiza 
son:  a)  la  agrupación  de  las  categorías  de  las  variables  pronosticadoras;  b)  la 
comparación  de  efectos  entre  distintas  variables,  y  c)  la  finalización  del  proceso  de 
segmentación. (página 6) 
 
2.1. Reducción de las categorías más discriminantes de cada pronosticador 
 
● Este  primer  paso  consiste  en  seleccionar  las  categorías  de  las  variables 
pronosticadoras  que  realmente  discriminan  a  los  sujetos  en  la  variable  dependiente. 
Suponiendo  que  una  determinada  variable  tuviera  c  valores, se trata de convertirlos a 
un  número  k  menor  o  igual  c  que  reduzca  la  complejidad  de  la  segmentación  sin 
pérdida sustancial de información. (página 6) 
 
● Se  puede  optar  por  tres  modalidades  de  reducción  según  sean  las  características  de 
las variables pronosticadoras: (página 6) 
- 1)  ​Variables  nominales​:  Cada  valor  de  la  variable  pronosticadora  puede  ser 
agregado  a  cualquier  otro  valor  de  la  misma  variable.  Este  procedimiento 
también se denominaba libre (free). 
- 2)  ​Variables  ordinales​:  Un  valor  de  la  variable  sólo  puede  ser  agregado  a  otro 
si  es  contiguo  en  la  escala.  Este  procedimiento  también  se  conoce  con  la 
denominación  de  monótono.  El  procedimiento  permitiría  la  fusión  de  las 
categorías  primera  y  segunda  o  segunda  y  tercera, y descartaría la posibilidad 
de  formar  un  grupo  compuesto  por  sujetos  con  estudios  primarios  y 
universitarios. 
- 3)  ​Variables  ordinales  con  valores  perdidos​:  Es  similar  a  la  opción  anterior, 
pero  permite  un  mayor  grado  de  libertad,  por  cuanto  un  valor,  generalmente 
el  “no  sabe,  no  contesta”,  puede agregarse libremente a cualquier grupo.  Con 
este  procedimiento,  también  denominado  flotante  (float),  los  sujetos  que  no 
contestaran  podrían  agruparse  con  cualquiera  de  las  tres  categorías 
establecidas.  
- 4)  ​Variable  cuantitativas:  Las  variables  cuantitativas  para  ser  utilizadas  en  el 
procedimiento  CHAID  tienen  que  ser  recodificadas  en  valores  discretos y ser 
tratadas como si fueran ordinales. (página 7) 
 
● El  funcionamiento  de  formación  de  grupos  de  categorías  homogéneas  se  basa  en  el 
estadístico x2 . Los pasos son los siguientes: (página 7) 
- 1)  ​Se  forman  todos  los  pares  posibles  de  categorías​.  Esto  dependerá  de  la 
opción que se haya preferido dar a un determinado pronosticador.  
- 2)  ​Para  cada  posible  par  se  calcula  el  x2  correspondiente  a  su  cruce  con  la 
variable  dependiente. ​El par con más bajo x2, siempre que no sea significativo, 
formará  una  nueva  categoría  de  dos  valores  fusionados.  La  condición  de  que 
no  sea  significativo  es  muy  importante  porque,  caso de que lo fuese, indicaría 
que  las  dos  categorías  que  se  pretenden  fusionar  no  lo  pueden  hacer,  ya  que 
son  heterogéneas  entre  sí  en  los  valores  de  la  variable  dependiente  y  el 
objetivo  es  justo  lo  contrario,  asimilar  categorías  con  comportamiento 
semejante.  
- 3)  Si  se  ha  fusionado  un  determinado  par  de  categorías,  se  procede  a  realizar 
nuevas  fusiones  de  los  valores  del  pronosticador,  pero  esta  vez  con  una 
categoría  menos,  pues  dos  de  las  antiguas  han  sido  reducidas  a  una  sola. 
(página 8) 
- 4)  El proceso se acaba cuando ya no pueden realizarse más fusiones porque los 
x2 ofrecen resultados significativos. (página 9) 
 
● De  esta  forma,  como  casos  extremos,  podría  suceder  que  una  variable  con  c 
categorías  siguiera  con  c  grupos,  en  el  supuesto  de  que  todos  ellos  sean  diferentes 
entre  sí;  o  bien,  que  las  categorías  tengan  valores  tan  parecidos  en  la  variable 
dependiente  que  se  queden  reducidos  a  uno  solo,  con  lo  que  el  poder  discriminador 
del pronosticador sería nulo. (página 9 - 10) 
 
● Existe  un  procedimiento  que  ahorra  gran  cantidad  de  cálculos y posee una razonable 
base  lógica.  Se  trata  de  limitarse  a  la  obtención  de  segmentaciones  binarias.  Esto 
implica  que,  sea  cual sea el número de categorías de los pronosticadores, se busque la 
mejor  combinación  de  ellas  que  genere  sólo  dos  grupos  (k=2).  En  consecuencia, 
habría  que  formar  todas  las  posibles  combinaciones  de  dos  grupos  con  las  c 
categorías  y  seleccionar  aquél  con  un  $2  mayor.  Es  evidente  que  utilizando  estos 
contrastes binarios, el número de posibilidades de agrupación se reduce. (página 10) 
 
● Biggs  et  al.  (1991)  propusieron  la  fusión  continua  de  pares  de  valores  hasta  que  sólo 
quedara  una  única  dicotomía  de  valores,  denominando  a  tal  procedimiento  CHAID 
exhaustivo. (página 11) 
2.2 Selección de los mejores pronosticadores 
 
● Una  vez  que  para  cada  pronosticador  se  ha  realizado  la  combinación  oportuna  de 
categorías,  el  siguiente  paso  sería  la  selección  de  los  mejores  pronosticadores.  Para 
hacerlo,  hay  que  calcular  para cada uno de ellos su correspondiente $2 y comparar las 
significaciones  obtenidas;  sin  embargo,  es  conveniente  en  este  proceso  modificar  la 
significación  de  cada  pronosticador  con  el  ajuste  de  Bonferroni,  porque  la 
probabilidad  de  obtención  de  un  resultado  significativo  aumenta  artificialmente  con 
la proliferación de pruebas estadísticas que implica este análisis. (página 11) 
 
● Una  vez  realizada  la  primera  segmentación,  se  procede  a  la  ejecución  de  sucesivas 
segmentaciones para cada uno de los grupos formados por la primera. (página 13) 
 
● El  proceso  de  segmentación  debe  ser  examinado  en  sus  distintas  fases  con  el  objeto 
de  valorar  el  comportamiento  de  los  pronosticadores  alternativos.  El  problema 
estriba  en  que  el  programa analiza varias variables en cada paso de la segmentación y 
tiene  que  elegir  entre  ellas  sólo  una.  Si  en  una  determinada  fase  existen  varios 
pronosticadores  de  similar  poder  de  segmentación,  el  análisis  de  la  elección 
efectuada puede conducir a interpretaciones precipitadas. (página 19) 
 
● Para  descubrir  la  posible  existencia  de  este  problema,  habrá  que  prestar  atención  en 
cada  segmentación  a  la  significación  ajustada  del  x2  de  los  pronosticadores 
alternativos. (página 20) 
 
● Por  último,  para  determinar  la  capacidad  pronosticadora  de  la  segmentación  en  su 
conjunto,  resulta  muy  útil  cruzar  la  variable  dependiente  con  una  nueva  variable 
compuesta,  cuyos  valores  sean  las  características  de  cada  uno  de  los  grupos 
terminales  formados  por  la  segmentación.  Un  coeficiente  de asociación, como puede 
ser  la  V de Cramer, resume el poder de predicción de los segmentos en su explicación 
de la variable dependiente. (página 20) 
 
● Otro  modo  de  juzgar  la  bondad  de  la  segmentación  consiste  en  construir  una  tabla 
donde  se  cruce  los  datos  empíricos  de  la  variable  dependiente  con  los  que  se 
pronosticarían  con  el  conocimiento  del  segmento  al  que  pertenece  cada  individuo. 
(página 20) 
 
● En  la  tabla  de  clasificación,  quedan  distinguidas  las  cifras  de  la  diagonal,  que  son 
aciertos  o  coincidencias  entre  la  predicción  y  lo  real,  de  las  que  están  fuera  de  ellas, 
que  son  equivocaciones.  La estimación del error se calcula mediante el cociente entre 
estas últimas frecuencias y el total número de casos. (página 21) 
 
2.3 La finalización del proceso de segmentación 
 
● Si  no  se  pusieran  límites  al  proceso  de  segmentación,  este  análisis  podría  producir 
una  gran  cantidad  de  grupos  terminales  de  tamaño  muy  pequeño  que serían difíciles 
de  interpretar.  En  un  caso  extremo,  con  un  número  elevado  de  variables  y  sin 
restricción  alguna,  este  análisis  produciría  tantos  grupos  como  individuos  tuviese  la 
muestra. En la situación común de una muestra de 1000 sujetos con 5 pronosticadores 
de  tres  categorías  cada  uno,  el  número  posible  de  grupos  terminales sería de 243 con 
un  tamaño  medio  aproximado  de  cuatro  personas  (1000/243).  Es  conveniente,  por 
tanto,  poner  límites  al  proceso  de  segmentación.  Existen  cuatro  tipo  de  filtros  que 
evitan  la  continuación  de  la  segmentación:  los  de significación, los de asociación, los 
de tamaño y los de nivel. (página 21) 
 
2.3.1 Filtros de significación 
 
● Son  los  más  utilizados  en  la  técnica  CHAID  de  segmentación.  Su  criterio  consiste 
básicamente  en  no  permitir  segmentaciones  que  no  sean  estadísticamente 
significativas. (página 21) 
 
● Los  límites de significación se sitúan en el nivel 0.05, que se corresponde con un nivel 
de  confianza  del  95%.  Estos  filtros  pueden  ser  aplicados  en  dos  de  los  procesos 
explicados  anteriormente:  bien  en  la agrupación de categorías de una variable (fusión 
de  valores),  bien  en  la  selección  del  mejor  pronosticador  (segmentación  de  grupos). 
(página 22) 
 
● La  aplicación  en  el  primer  proceso  es  en  realidad  un  mecanismo  indirecto  de 
finalización  de  la  segmentación.  Su efecto opera fundamentalmente en la cantidad de 
categorías  de  una  determinada  variable  que  van  a  segmentarse.  Consiste  en 
determinar  la  significación  mínima  para  que  dos  categorías  de  una  variable  queden 
englobadas  en el mismo segmento. El valor –SC, significación de las categorías (alpha 
for  merging)–  más  comúnmente  asumido  para  este  parámetro  es  el  de  0.05.  Si  la 
significación  de  la  diferencia  en  la  variable  dependiente  entre  dos  categorías  de  la 
variable  independiente  es  menor  que  este  valor, se permite rechazar la hipótesis nula 
con  un  95%  de  confianza y, como consecuencia, las dos susodichas categorías quedan 
separadas  y  se  puede  proseguir  la  segmentación.  En  cambio,  si  el  valor  es  superior a 
0.05,  las  categorías  se  funden, y, si quedan agrupadas todas las categorías de todas las 
variables, la segmentación se detiene. (página 22 - 23) 
 
● Los  valores  extremos  permiten  comprender  con  mayor  eficacia  el  efecto  de  este 
mecanismo.  Si  se  escoge  el  mayor  valor  posible  del  parámetro  (1.0),  entonces,  la 
agrupación  o  reducción  de  categorías  de  las  variables  se  torna  imposible  y,  siempre 
que  haya  significación  entre  pronosticador  y  variable  dependiente,  la  segmentación 
formará  con  una  determinada  variable  tantos  grupos  como  categorías  tenga.  (página 
23) 
 
● Si,  en  vez  de  poner  el  nivel  de  significación  de  la  agrupación  de  las  categorías  en  un 
valor  alto,  se  situará  en  un  valor  bajo  (por  ejemplo,  4E-4),  entonces,  en  lugar  de 
producirse  más  subdivisiones  entre  los  grupos,  se  generarían  menos divisiones entre 
las  categorías,  con  el  riesgo  añadido  de  que  una  determinada  variable  no  funcione 
como un buen pronosticador. (página 23 - 24) 
 
● El otro mecanismo de control de significación, en lugar de operar sobre la agrupación 
de  categorías,  afecta  a  la  selección  de  variables.  Este  procedimiento  es  una  forma 
directa  de  finalizar  la  segmentación,  porque,  después  de  encontrar  el  pronosticador 
con  menor  significación,  si  no  es inferior al límite establecido (generalmente 0.05), es 
obvio  que  no  habrá  otro  pronosticador  que  cumpla  también  con  esta  propiedad. 
(página 24) 
 
● Visto  desde  sus  posibilidades  extremas,  si  se  establece  este  parámetro  -SV, 
significación  de  la  variable  (alpha  for  splitting)–  en  el  valor  1.0,  la  segmentación  se 
producirá por todas las variables existentes; pero si se determina que el parámetro sea 
0.0,  entonces la segmentación no se produce ni tan siquiera en el primer nivel, pues la 
significación  empírica  de  un  pronosticador,  por  muy  pequeña  que  sea,  siempre  es 
superior a cero. (página 24) 
 
● Ahora  bien,  es  preciso  tener en cuenta que no basta cambiar el parámetro SV, porque 
si  sigue  efectivo  un  valor  inferior  del  SV,  al  operar  con  anterioridad,  éste elimina los 
efectos del primero. Es conveniente, por tanto, que SC > SV. (página 25) 
 
● En  cambio,  si  se  aplica  un  filtro  más  severo,  la  segmentación  sólo  tendrá  lugar 
cuando la variable independiente tenga una capacidad de predicción alta. (página 26) 
 
2.3.2 Filtros de asociación 
 
● Cumplen  una  función  análoga  a  la  de  los  filtros  de  significación  de  pronosticadores. 
Se  pueden  aplicar  a  los  siguientes  coeficientes  de  asociación:  Phi,  V  de  Cramer, 
Coeficiente  de  Contingencia,  u  otros.  Se  trata  de  detener  la  segmentación no porque 
un  determinado  cruce  no  obtenga  un  mínimo  de  significación,  sino  porque  el 
coeficiente de asociación elegido no alcance un determinado nivel. (página 26) 
 
● Por  tanto,  en  valores  equiparables  de  uno  y  otro,  los  filtros  de  asociación  son  más 
permisivos  en  los  niveles  más  bajos  de  segmentación.  Como  los  de  significación son 
muy  sensibles  al  número  de  casos,  es  muy  probable  que  en  el  tercer  o  cuarto nivel el 
análisis  no  cumpla las condiciones del filtro, porque los segmentos tengan un tamaño 
reducido.  En  cambio,  los  coeficientes  de  asociación,  por  el  hecho  de  eliminar  la 
influencia  del  número  de  casos,  permiten  segmentaciones  aun  en  condiciones  de 
escasos  sujetos.  En  este  caso  hay  mucho  menos  acuerdo  sobre  cuál  debe  ser  el  valor 
del  filtro.  Como  regla  de  experiencia,  se consideran adecuados los valores 0.10 ó 0.20. 
(página 26) 
 
● Sin  embargo,  el  programa  Answer  Tree  del  SPSS  no  contempla  la  posibilidad  de 
utilizarlos  para  el  control  de  la  segmentación.  En  todo  caso,  la  opción  recomendada 
para  el  uso  de  estos  filtros  es  que  se  utilicen  en  conjunción  con  un  filtro  de 
significación,  de  forma  que  una  segmentación  que  no  sea  significativa  no  se  lleve  a 
cabo por muy grande que sea su coeficiente de asociación. (página 26) 
 
 
2.3.3 Filtros de tamaño 
 
● Su  principal  objetivo  consiste  en  evitar  que  se  formen  grupos muy pequeños durante 
el  proceso  de  segmentación,  dado  el  problema  que  supone  la  generalización en estos 
casos. (página 27) 
 
● Si,  por  ejemplo,  se  segmentara  un  grupo  de  25  personas  de  las  que  un  30%  es 
favorable  al  aborto,  se  plantearían  dos  problemas:  por  un  lado,  este  grupo  no  sería 
representativo  en  sí  de  la  población;  por  otro,  el  valor  del  30%  tampoco  sería  un 
estimador muy preciso con un tamaño de muestra tan reducido. (página 27) 
 
● Los  filtros  de  tamaño  pueden  aplicarse  en  dos  momentos:  después  de  la 
segmentación  (Nd,  child  node)  y  antes  de  la  segmentación  (Na,  parent  node).  En  el 
primer  caso,  no  se  puede  formar  un  grupo  si  no  tiene  un  número  establecido  de 
componentes.  En  el  segundo,  la  segmentación  se  detiene  en  el  supuesto  de  que haya 
un grupo que haya descendido de un determinado número de individuos. (página 27) 
 
● En  cambio,  si  se  opta  por  el  filtro  del  tamaño  antes  de  la  segmentación  y  se  toma 
como  cantidad  el  mismo  número  arbitrario,  esto  es,  400,  el  gráfico en forma de árbol 
toma  una  apariencia  completamente  distinta  del  anterior,  porque  con  este  nuevo 
criterio, la ideología sí funciona como pronosticador. (página 28) 
 
● Es  obvio  que  ambos  filtros  pueden  utilizarse  al  mismo  tiempo.  Lo  que  no  tiene 
sentido  es  que  el  filtro  antes  de  la  segmentación  (Na)  sea  inferior  en  número  al  de 
después  (Nd),  puesto  que  de  esta  forma  este  último  no  se  aplicaría.  Sólo  tiene  razón 
que  Na  sea  superior  a  Nd.  Como  regla  general,  se  recomiendan  unos  parámetros  de 
100  para  Na  y  50  para  Nd.  Esto  implica  la  no  obtención  de  grupos  inferiores  a  un 
medio  centenar  de  personas  y  la  no  segmentación  de  conjuntos  con  menos  de  cien 
componentes. (página 28 - 29) 
 
2.3.4 Filtros de nivel 
 
● Por  último,  existe  un  cuarto  tipo  de  mecanismo  de  detención  de  la  segmentación. 
Consiste  en  arbitrar  un  nivel  (Ns,  depth)  máximo  de  segmentación.  Si  se  establece 
este  criterio  en  0,  la  segmentación  no  tendrá  lugar;  si  en  1,  sólo  se  realizará  una 
segmentación;  si  en  2,  dos  tandas.  Por  tanto,  por  nivel  se  entiende  cada  una  de  las 
franjas  horizontales  del  árbol.  invertido.  La  primera  franja  horizontal corresponde al 
total  de  la  muestra,  la  segunda  a  la  primera  segmentación,  la  tercera  a  la  segunda. 
Este  filtro  evita  que  se  formen  múltiples  segmentaciones  en  segmentos 
desproporcionadamente  grandes  de  la  muestra.  Asimismo,  contribuye  a  simplificar 
los  resultados  en  la  medida  en  que  reduce  directamente  el  número  de  variables 
necesarias para predecir la variable dependiente. (página 29) 
 
 
 
 
3. Ejemplos de aplicación 
 
● La  función  clasificadora del análisis de segmentación permite configurar una serie de 
grupos  que  se  distinguen  por  su  comportamiento  distinto  en  una  determinada 
variable  dependiente.  La  especificación  de  las  características  de  los  grupos 
terminales  formados  por  esta  técnica  es  un  excelente  medio  para  describir  grupos 
heterogéneos  de la muestra. Segmentar significa dividir y este análisis permite con su 
algoritmo  el  hallazgo  de  grupos  muy  distintos  en un determinado aspecto. Por tanto, 
uno  de  los  usos  que  se  le  puede  dar  a  la  segmentación  es  la  descripción  de  las 
muestras y, por extensión, de las poblaciones de las que son extraídas. (página 30) 
 
● La  mejor  manera  de  efectuar  la  descripción  con  el  análisis  de  segmentación  es 
mediante  la  interpretación de los grupos terminales. Hay que recordar que para hacer 
una  buena  descripción  es  necesario  introducir  pronosticadores  adecuados  en  el 
procedimiento.  Así  se  mostrará  la  conveniencia  de  dos  reglas:  a)  incluir  variables 
que  sean  relevantes  para  la  dependiente  y  b)  introducir  el  máximo  posible  de 
pronosticadores  ya  que  el  análisis  en  cuestión  se  encarga  de  filtrar  los  relevantes. 
(página 30) 
 
● El  análisis  de  segmentación  permite,  pues,  realizar  una  descripción  de segmentos de 
la  muestra  con  comportamiento  u  opinión  distintos  entre  ellos.  Por su propia lógica, 
tiende  a  encontrar  grupos  muy  diferentes  entre  sí.  Ahora  bien,  cuanto  mejores  sean 
las  variables  introducidas,  tarea  que  corresponde  al  analista,  más  nítida  será  la 
distribución  de  los  distintos  grupos.  Por  tanto,  la mejor estrategia en la introducción 
de  variables  independientes  es  la  inclusión  en  caso  de duda: si se introduce una poco 
relevante,  el  propio análisis se encarga de que no aparezca; en cambio si no se incluye 
un  buen  pronosticador,  la  calidad  de  la  segmentación  se  reduce  considerablemente. 
(página 33) 
 
● La  segmentación  es  adecuada,  máxime  cuando  el  error  inicial  sería  del  40%,  por  lo 
que  el  conocimiento  de  los  segmentos  mejora  un  25%  la  predicción  de  la  variable 
dependiente. (página 37) 
 
5. Sumario a modo de conclusiones 
 
● El  análisis  de  segmentación  es  una  técnica  de  análisis  de  datos  basada  en  la 
dependencia  entre  variables,  cuya  finalidad  es  la  de  formar grupos, configurados con 
valores  de  las  variables  independientes,  que  sean muy distintos entre sí en la variable 
dependiente.  La  lógica  de  su  procedimiento  se  sustenta  en  los  siguientes  pasos:  a) 
agrupación  de  categorías  de  los  pronosticadores,  b)  selección  de  los  mejores 
pronosticadores  y  c)  sucesivas  segmentaciones,  hasta  alcanzar  unos límites definidos 
por  los  denominados  filtros,  sobre  los  grupos  formados  a  partir  de  los  pasos 
anteriores. (página 38) 
 
● Uno  de  los  algoritmos  más  útiles  para  sociólogos  es  el  basado  en  el  estadístico  x2  , 
pues  es  especialmente  indicado  para  variables  dependientes  nominales.  La  utilidad 
del  análisis  de  segmentación  es  múltiple.  Está  especialmente  diseñado  para 
propósitos  descriptivos,  exploratorios  e incluso pronosticadores. Además, con ciertas 
cautelas,  también  puede  ser  útil  para  un  previo  análisis  causal  de  las  variables. 
(página 38) 
 
 
 

También podría gustarte