Analisis Sensorial Cap 3 Medidas
Analisis Sensorial Cap 3 Medidas
Analisis Sensorial Cap 3 Medidas
I. Introducción
II. Componentes de medida: Escalas
A. Escala hedónica
B. Escalas Faciales
C. Escala del punto ideal “Just-About-Right”
D. Otras Escalas de Interés
III. Técnicas de medición seleccionadas
A. Escalas nominales
B. Escalas ordinales
C. Escalas de intervalo
D. Escalas de relación
IV. Conclusiones
I. Introducción
La definición de evaluación sensorial descrita en el Capítulo 1 enfatiza la importancia de la medición
para tratar la evaluación sensorial como una disciplina científica. La medición es fundamental para
cuantificar las respuestas a los estímulos con el fin de utilizar estadísticas descriptivas e
inferenciales. Estas estadísticas proporcionan una base racional para las decisiones sobre los
productos que se evalúan y sobre las personas que se realizaron las evaluaciones. Sin embargo, el
valor de la medición y el requisito de escalas de medición válidas no son exclusivos de la evaluación
sensorial. La física, con su impresionante lista de logros, proporciona un excelente ejemplo de lo
que se puede lograr a través de la medición.
Ekman y Sjöberg también hablaron sobre el desarrollo de la teoría y los métodos de escalamiento a
medida que avanzaban a lo largo de estos dos cursos distintos pero paralelos de teoría de pruebas
y psicofísica clásica. Clasificaron las dos líneas de desarrollo según los diferentes intereses de
investigación y la aplicación de la escala a dos tipos de estudios completamente diferentes, uno para
medir la preferencia por un producto y el otro para estudiar la psicofísica de la percepción. En los
trabajos publicados de Thurstone (1959) se encuentran ejemplos representativos de la teoría de la
escala relacionada con la medición de preferencias, y en Stevens (1957, 1960) se encuentran
ejemplos de psicofísica y teoría de la escala. Si bien esta literatura tiene más de 40 años, brinda una
excelente perspectiva de las prácticas actuales. Desafortunadamente, uno todavía encuentra el uso
de la escala basado en suposiciones erróneas o inexistentes, una falta de conocimiento de la
literatura anterior, aparte de una larga historia de uso en una compañía particular sin ninguna
evidencia de la sensibilidad o la fiabilidad de la escala. Otros buscan la escala universal como si
representara algún tipo de instrumento especial.
Eisler (1963a, b) sugirió que la discriminación era la base de los juicios de escala de categoría, y
debido a que la discriminación cambiaba con la magnitud de la diferencia de estímulo, podría
esperarse que los datos de escala de categoría se desviaran de los datos de escala de magnitud. Sin
embargo, se ha demostrado que los resultados de los dos tipos de escalas están relacionados,
aunque la relación no es lineal. La visión de Marks (1974) de esta relación no era que una escala se
derivara de la otra (una explicación), sino que tanto las escalas de categoría como de relación eran
válidas y también eran tipos diferentes de escalas. Postuló que para cualquier atributo sensorial
dado, hay dos escalas básicas subyacentes; una escala de magnitud y una escala de disimilitud.
La posición del profesional sensorial con respecto a esta controversia acerca de las escalas de
categoría versus relación debe ser pragmática y ecléctica (a menos que uno esté involucrado en la
investigación). Las escalas de categorías adecuadamente construidas permitirán al profesional
sensorial determinar si un producto es más o menos apreciado o las magnitudes de las diferencias
para atributos sensoriales específicos (por ejemplo, color, aroma). Para obtener una expresión
matemática que describa la relación entre la concentración del ingrediente y la intensidad percibida,
un procedimiento de escala de relación, como la estimación de la magnitud, podría ser una opción
adecuada. Sin embargo, esa expresión matemática tiene valor solo si tiene una aplicación práctica
para el profesional sensorial. De ahí, la selección de una escala se basará en consideraciones muy
prácticas. Los argumentos filosóficos y las afirmaciones de que ciertas escalas son más o menos
lineales cuando se comparan unas con otras deben considerarse en el contexto de las hipótesis de
investigación y no se deben abarcar sin comprender completamente la base sobre la cual se llegó a
tal conclusión. Las diferencias en los sujetos, las instrucciones, las técnicas de medición, la elección
del estímulo y el objetivo influirán en los resultados. Finalmente, se recuerda al lector que los
estudios con sistemas de estímulo simples a menudo no arrojan conclusiones similares cuando el
estímulo es un producto más complejo.
En esta discusión sobre la medición, el énfasis principal se coloca en las descripciones de varios tipos
de escalas, aplicaciones sugeridas y métodos de análisis, pero no en todos.
Significativo para los sujetos. Las palabras utilizadas para las preguntas y / o para escalar las
respuestas deben ser familiares, fáciles de entender y no ambiguas para los sujetos. Las palabras
deben relacionarse fácilmente con el producto y la tarea, y deben tener sentido para el sujeto en la
forma en que se aplican en la prueba. Las palabras que tienen un significado específico y útil para el
solicitante y / o el profesional sensorial pueden ser mucho menos significativas para los sujetos,
especialmente si no son sujetos calificados; Es decir, los consumidores típicos. Asumir que un
consumidor entenderá la terminología que es específica para los miembros del equipo del proyecto
es, en el mejor de los casos, riesgoso. En algunas situaciones, es esencial agregar una explicación a
una pregunta en particular como una ayuda para ese consumidor.
Sin complicaciones de usar. Incluso cuando las preguntas y palabras que describen la escala de la
tarea y la respuesta son entendidas y significativas, la tarea y la escala deben ser fáciles de usar. Si
no, resultará en frustración del sujeto, mayor error de medición y menos diferencias entre los
productos. Aunque una escala particular puede ser mejor desde una perspectiva teórica, puede
producir resultados menos útiles que una escala más simple que sea más fácil de usar. Otros temas
a considerar incluyen la práctica de cambiar la dirección de la escala de una pregunta a otra, cambiar
el número de categorías de escala para escalas similares o cambiar la magnitud de la escala.
Desafortunadamente, los consumidores no necesariamente leen cada instrucción y la estructura y
dirección de la escala de conmutación sin una delimitación clara causará problemas (por ejemplo,
disminución de la sensibilidad) que no se pueden corregir después de que se complete una prueba.
Diremos más sobre esto más adelante en el capítulo.
Imparcial. Es crítico que los resultados no sean un artefacto de la escala que se utilizó. Idealmente,
la escala es un instrumento “nulo” que no influye en el resultado de la prueba. Donde los productos
son percibidos como diferentes, queremos saber esto; Donde no están, queremos saber esto
también. Las escalas desequilibradas fácilmente sesgan los resultados porque disminuyen la
probabilidad esperada de respuestas en categorías que están subrepresentadas. Introducen un
sesgo para el que no se ha demostrado ninguna ventaja obvia. La explicación más típica es aprender
más sobre las respuestas negativas, ya que saber esto permite que los productos sean más
apreciados. Los sesgos de números y palabras están bien documentados en la literatura, pero uno
sigue encontrando su uso, particularmente en la medición de la calidad; por ejemplo, “mejor
calidad, buena calidad, mala calidad” o 1 es la mejor calidad y 5 la peor calidad. Estas últimas escalas
son exclusivas de una empresa, se han desarrollado años antes sin ninguna investigación o
conocimiento de la literatura de medición y han adquirido “una vida propia”, es decir, se han
utilizado durante tanto tiempo que nadie puede No los uses. Esto hace que sea muy difícil para el
profesional sensorial cambiar estas prácticas. Para más información sobre este tema, se remite al
lector a un capítulo posterior sobre problemas especiales.
Pertinente. Esto se relaciona con la validez de escala; es decir, la escala debe medir ese atributo,
característica, actitud, etc., que se pretende medir. Por ejemplo, las escalas de preferencias deben
medir las preferencias y las escalas de calidad deben medir la calidad; y no es prudente inferir uno
del otro. Cuando el sujeto o el solicitante no ven la relevancia para una escala o tarea en particular,
la credibilidad de la prueba se reduce para la recopilación de datos y la presentación final de los
resultados. En pocas palabras, si la escala no es relevante para la tarea o problema, no se moleste
en usarla. Este problema particular se extiende más allá del proceso de medición en sí. Se deriva en
parte de una falta de comprensión del proceso perceptivo y de la creencia de que los humanos
actuarán de ciertas maneras contrarias a nuestro conocimiento del comportamiento. La situación
típica surge cuando se hace una solicitud para ahorrar tiempo al hacer que los sujetos respondan
preguntas sobre las diferencias (la magnitud, la naturaleza de la diferencia, si es buena o mala
calidad, etc.). Los temas están en el sitio de la prueba, ¿por qué no hacer estas preguntas?
Desafortunadamente, el tema de las calificaciones de los sujetos no se aprecia ni el efecto halo de
una respuesta en la otra, etc.
Es sensible a las diferencias. No todas las escalas son igualmente sensibles para medir diferencias.
La longitud de la escala y el número de categorías de escala son variables importantes que tienen
un efecto en la sensibilidad de la escala. Por ejemplo, uno sigue encontrando incredulidad en que
hay diferencias en la sensibilidad de la escala basándose únicamente en el número de categorías
disponibles. Este es un problema puramente matemático sin ningún impacto de palabras o números
(escalas numéricas). En efecto, una escala de tres puntos es menos sensible que una escala de cinco
puntos (en aproximadamente un 30%), y ambas son menos sensibles que una escala de siete o
nueve puntos. Este tema se tratará con más detalle más adelante en este capítulo.
Para aquellas situaciones donde se requieren nuevas escalas o palabras para una escala, será
prudente hacer primero una pequeña prueba piloto para eliminar posibles problemas con su uso.
Así como existen diferentes tipos de métodos de prueba, también hay diferentes tipos de escalas
que proporcionan diferentes tipos de información. A efectos de aclaración, la clasificación de escalas
propuesta por Stevens (1951) se seguirá aquí. Si bien Coombs (1964) impugnó la clasificación por
ser demasiado restrictiva, sigue siendo un sistema de uso frecuente que es relativamente fácil de
seguir. Cabe señalar que Stevens presentó la idea de que una escala particular determina las
operaciones matemáticas permisibles para las respuestas (de esa escala). Si esta última restricción
sobre las matemáticas permisibles debe seguirse con precisión no se puede establecer de manera
inequívoca, en la medida en que hay escalas que no son fáciles de clasificar o que producen
respuestas consistentes con los resultados de escalas en otras categorías. No obstante, este sistema
es útil para propósitos de discusión. Los diferentes tipos de escalas se distinguen en base a las
propiedades de orden y distancia inherentes a las reglas de medición; es decir, la propiedad de los
números en función de cómo se asignan. Stevens postuló cuatro categorías de escalas:
A. Escalas nominales
En estas escalas, los números se usan para etiquetar, codificar o clasificar elementos o respuestas.
La única propiedad asignada a estos números es la de la no igualdad; es decir, las respuestas o
elementos colocados en una clase no se pueden colocar en otra clase. Se pueden usar letras u otros
símbolos en lugar de números sin ninguna pérdida de información o alteración de la manipulación
matemática permisible.
En la evaluación sensorial, los números se usan frecuentemente como etiquetas y como categorías
de clasificación; por ejemplo, los códigos numéricos de tres dígitos se utilizan para realizar un
seguimiento de los productos mientras enmascaran su verdadera identidad. Es importante que el
producto identificado por un código específico no esté etiquetado incorrectamente o agrupado con
un producto diferente. También es importante que las muchas porciones individuales de un
producto específico muestren un nivel razonable de consistencia si el código se usa para representar
un grupo de porciones de un solo tratamiento experimental.
Un ejemplo de un uso para una escala nominal se muestra en la Fig. 3.1. En esta aplicación particular,
ningún producto real está involucrado; sin embargo, los resultados identificarían las habitaciones
en las que se utilizan con mayor frecuencia los ambientadores. Esta información será útil para
identificar los tipos apropiados de fragancias y declaraciones de posicionamiento alternativas para
futuras investigaciones de productos.
Las escalas nominales también se utilizan para clasificar los datos demográficos sobre los
encuestados, como la edad, el sexo y los ingresos, así como para clasificar el comportamiento de
uso del producto (ver Fig. 2.7).
Figura 3.1 Ejemplo de un cuadro de mando que utiliza una escala nominal para obtener información sobre las
características de uso del producto.
Otra característica de las escalas nominales es la total independencia del orden entre las distintas
categorías. El orden se puede cambiar sin alterar la lógica de la pregunta o el tratamiento de los
resultados.
En general, los sujetos tienen poca o ninguna dificultad para responder a preguntas que usan escalas
nominales (esto supone que las preguntas se entienden). Esta es una ventaja obvia cuando un
problema tiene una gran cantidad de alternativas; por ejemplo, desarrollando un protocolo de
prueba que refleje mejor el modo de consumo y preparación más utilizado para el producto. O, si
uno quisiera obtener respuestas de un gran número de encuestados sin tomar una cantidad de
tiempo considerable, el uso de una escala nominal podría ser bastante apropiado.
Respuestas a preguntas abiertas como “¿Qué le gustó de este producto?” se utilizan de manera post
hoc para desarrollar una escala nominal, en contraste con un desarrollo a escala priori donde todas
las categorías de respuesta están presentes al inicio del estudio.
Una vez que se han recopilado datos abiertos, se leen todas las respuestas y se desarrollan las
categorías de las respuestas para reflejar un número mínimo de comentarios de respuestas que
aparecen de forma independiente. Luego se obtiene una cuenta de frecuencia para representar la
cantidad de veces que se hizo un comentario en particular.
Debido a que las mismas palabras pueden tener diferentes significados y diferentes palabras pueden
tener el mismo significado para los encuestados y para el experimentador, existe una gran
oportunidad para que las respuestas se asignen incorrectamente a una categoría. Dado que esto
sería una violación de la restricción para el uso de escalas nominales, el tratamiento matemático y
el valor de los datos abiertos se cuestionan seriamente. Se ha sugerido que uno o dos individuos
podrían categorizar los datos de forma independiente; sin embargo, este enfoque no alteraría los
significados de las palabras ni sería útil en situaciones donde existían desacuerdos entre los dos
clasificadores. En ocasiones, el profesional sensorial puede usar una pregunta abierta como ayuda
en la construcción de categorías para su uso en pruebas posteriores. En esta situación, la pregunta
abierta puede tener aplicación; sin embargo, no debe utilizarse como una guía directa para el
desarrollo de productos. Las preguntas abiertas no deben utilizarse como sustituto de la
información del grupo de enfoque o del panel descriptivo.
Las matemáticas permitidas para datos de escala nominal incluyen conteos de frecuencia y
distribuciones, modos (la categoría que contiene la mayoría de las respuestas), chi-cuadrado (X2) y
un coeficiente de contingencia. De los cálculos permisibles, X2 es probablemente el más útil. Permite
una comparación de las distribuciones de frecuencia para determinar si son diferentes, la
comparación de frecuencias para los datos que se pueden clasificar de dos o más formas para
determinar si las respuestas reales son diferentes de algunos valores esperados y las comparaciones
de dos o más grupos relativos a una serie de categorías. Los datos derivados del cuadro de mando
que se muestra en la figura 3.1 serían consistentes con esta categoría. Para una descripción
detallada de las diversas aplicaciones de X2 a las respuestas nominales, el lector interesado
encontrará útil la discusión de McNemar (1969).
C tendrá un valor ˂ 1.0, y dependerá del número de categorías involucradas en los cálculos. Como
señaló Mc Nemar, para una tabla de dos por dos, el máximo de C es √1/2 o 0.7071, y cuanto más
cerca esté el valor calculado de este máximo, más fuerte será el grado de asociación.
Es posible convertir los datos de escala nominal asignando rangos o porcentajes según la frecuencia.
Esta conversión permite el uso de análisis estadísticos generalmente restringidos a datos ordinales
y proporciones (por ejemplo, prueba t para proporciones). En este caso, sería prudente identificar
que la conversión de escala se realizó antes de utilizar estos análisis inferenciales.
Aunque se considera una escala de “bajo – orden” debido a los limitados cálculos permitidos, las
escalas nominales son un recurso valioso para el profesional sensorial. Son fáciles de usar por el
sujeto, requieren un tiempo de prueba limitado y, con cálculos limitados, proporcionan resultados
rápidos al solicitante. Aparte de la posibilidad de errores en la clasificación de las respuestas, la otra
limitación seria es la capacidad de los encuestados para contribuir de manera diferente a la base de
datos. Algunos temas responden a preguntas abiertas (por ejemplo, ¿qué fue lo que más le gustó
del producto?) con muchos comentarios en comparación con otros temas que dan respuestas
breves o tienen dificultades para responder. Como notó Payne (1965) hace muchos años, las
preguntas abiertas tienen valor en las primeras fases de la investigación, pero las preguntas cerradas
son más informativas y, por lo tanto, tienen propósitos más útiles, en etapas posteriores de
cualquier prueba.
B. Escalas ordinales
Las escalas ordinales utilizan números o palabras organizadas desde “alto” a “bajo”, “más” a
“menos”, etc., con respecto a algún atributo de un conjunto de productos. Las categorías en una
escala ordinal no son intercambiables. No se hacen suposiciones con respecto a la distancia entre
categorías o la magnitud del atributo representado por una categoría. Aparte de la dirección, todo
lo que se supone es que una categoría es mayor o menor que otra categoría. Las escalas ordinales
se consideran la primera o la más básica para medir las intensidades percibidas y, como tales, tienen
más en común con otras escalas de magnitud que con las escalas nominales.
La escala ordinal es uno de los tipos de clasificación más utilizadas. Es una tarea de comportamiento
relativamente fácil y se han desarrollado varios procedimientos para clasificar productos. El
procedimiento más directo es hacer que los encuestados organicen o clasifiquen un conjunto de
productos para que cada producto subsiguiente tenga más (o menos) de un atributo; por ejemplo,
clasifique los productos de más a menos dulces o de más a menos gustados. Este procedimiento
funciona bien para productos que se pueden manipular fácilmente a mano, como una serie de telas
o una serie de líquidos embotellados. Sin embargo, para productos que no están en recipientes
cerrados y especialmente alimentos y bebidas, el riesgo de derrames puede requerir alguna
modificación en el procedimiento de prueba. Por ejemplo, hacer que los sujetos enumeren los
productos por sus códigos en lugar de reorganizarlos sería un paso aceptable, como se muestra en
la Fig. 3.2.
La prueba de comparación pareada es un uso especial de la prueba de orden de rango, al igual que
la discriminación direccional (por ejemplo, qué muestra es más dulce) y las pruebas de preferencia
pareada. El capítulo 5 está dedicado exclusivamente a la prueba de discriminación y sus aplicaciones
en la evaluación sensorial. Para los fines de esta discusión, la atención se dirige a la forma binaria
de los datos derivados de estas pruebas de clasificación de dos productos. En la discusión de Guilford
(1954) sobre las pruebas pareadas, hay procedimientos para transformar datos binarios en datos de
intervalos. En la escala multidimensional, Shephard (1966) describió procedimientos para derivar
datos “parcialmente métricos” de múltiples comparaciones pareadas. Tales enfoques aprovechan
el hecho de que existe un intervalo o distancia constante entre el primer y segundo rango en una
situación de elección forzada de dos muestras. Estos últimos cálculos no son típicos del uso de la
clasificación en una prueba sensorial de laboratorio. No obstante, ofrecen oportunidades donde hay
una gran variedad de estímulos (por ejemplo, productos o declaraciones de conceptos), todos los
estímulos se comparan entre sí, los sujetos están limitados a respuestas de elección forzada y los
resultados se describen en términos de datos de intervalo. Esta metodología es más probable que
se encuentre en la investigación del consumidor cuando hay interés en determinar la preferencia
del producto bajo diferentes opciones de compra, por ejemplo.
Figura 3.2 Ejemplos de una prueba de clasificación directa en la que los encuestados pueden (A) reorganizar los
productos o (B) enumerar los códigos. En el procedimiento anterior, los productos se mueven; en este último, el sujeto
registra el pedido y no se requiere ningún movimiento del producto.
Es probable que esta última limitación haya resultado en el uso infrecuente de la clasificación en la
evaluación sensorial. Sin embargo, sería poco realista ignorar la clasificación por completo. Por
ejemplo, cuando hay una gran variedad de productos y cuando las restricciones de tiempo hacen
que no sea realista utilizar un procedimiento de comparación pareada o de puntuación. Si uno
estuviera buscando una nueva opción de fragancia y hubiera hasta cincuenta presentaciones. Con
excepción de un individuo que elimina arbitrariamente los envíos, el enfoque más razonable sería
una prueba de rango, utilizando un diseño de bloque incompleto (consulte el Capítulo 4 para una
discusión sobre los diseños de prueba en la evaluación sensorial). Cada sujeto evalúa un
subconjunto (por ejemplo, ocho de dieciséis productos) y los clasifica según el criterio apropiado. La
declaración del concepto del producto sería un criterio apropiado. De esta manera, se puede lograr
un orden de clasificación y aquellos productos que igualen o superen un valor específico estarán
sujetos a una evaluación adicional. Hemos empleado este enfoque específico con bastante éxito y,
por lo tanto, insistimos en que la clasificación no debe ser considerada como un método de prueba.
Es muy útil para seleccionar una gran variedad de productos en un subconjunto de productos más
pequeño y más manejable. En un procedimiento de “round robin” (sistema de todos contra todos)
donde se ha utilizado un bloque incompleto, solo se seleccionan los productos mejor clasificados de
cada segmento para su inclusión en las pruebas de seguimiento. Los procedimientos de clasificación
informales se utilizan para la evaluación de sobremesa para reducir el número de alternativas de
productos enviadas para las pruebas sensoriales.
El análisis de los datos de rango se puede realizar mediante varios métodos diferentes, incluidos los
apropiados para escalas nominales y, en particular, los denominados métodos no paramétricos. Los
métodos que serán útiles incluyen la prueba de rangos con signo de Wilcoxon, Mann-Whitney,
Kruskal-Wallis, análisis de varianza bidireccional de Friedman, X2 y el coeficiente de concordancia de
Kendall. En Hollander y Wolfe (1973), Daniel (1978) y O´Mahony (1986) se puede encontrar una
descripción detallada y ejemplos prácticos de las diversas pruebas. Kramer (1960, 1963) también
desarrolló un conjunto de tablas para facilitar la determinación de si había una diferencia
significativa en los rangos para un conjunto de productos; sin embargo, se identificaron algunos
errores en esas tablas y las publicaciones de Joanes (1985) y de Newell y MacFarlane (1987)
proporcionan instrucciones y análisis más precisos para los datos clasificados.
Contrariamente a esta conclusión, existe una extensa literatura sobre la escala y la teoría de la
información que respalda la escala de calificación de nueve puntos como más útil y óptima para la
transmisión de información (Garner y Hake, 1951; Bendig y Hughes, 1953; Garner, 1960; Cox, 1980).
En la Fig. 3.3 se muestran dos ejemplos de escalas ordinales, ambos representan métodos que usan
palabras, números y / o categorías para medir la intensidad. El primer ejemplo (A) representa un
tipo de híbrido que consta de cinco palabras y diez categorías numéricas. Obviamente, se da más
peso a algunas categorías (asociadas a la palabra “fuerte” son tres categorías numéricas) que a otras
(“ninguna” tiene solo una categoría numérica). El segundo ejemplo (B) representa una escala menos
complicada sin números y solo dos anclas de palabras. El uso de menos palabras está destinado a
minimizar el sesgo. Como se mencionó anteriormente en este capítulo, uno puede demostrar
fácilmente una ventaja en la sensibilidad para la escala con más categorías. Llevado al extremo, uno
Figura 3.3 Dos ejemplos de escalas de calificación de tipo ordinal que se han utilizado en la evaluación sensorial. El
primero (A) representa una escala estructurada que contiene categorías numéricas y de palabras, algunas de las cuales
han sido ponderadas. El segundo (B) es una escala menos complicada sin valores numéricos y solo dos anclas de
palabras.
podría imaginar la mayor sensibilidad a una escala con 100 o más categorías; sin embargo, la
realidad es bastante diferente (según lo informado por Bendig y Hughes y Garner and Hake, op cit).
A medida que aumenta el número de categorías de dos a aproximadamente diez, la sensibilidad
aumenta hasta alcanzar un nivel óptimo de aproximadamente nueve a diez, y luego disminuye a
medida que aumenta el número de categorías (más allá de diez). Esta “U” invertida se explica por
tener muy pocas o demasiadas categorías; cualquiera de los dos conduce a una sensibilidad reducida
y falta de diferenciación del producto.
La selección de los anclajes de palabras para las escalas de calificación suele ser demasiado
arbitraria, lo que brinda oportunidades y, especialmente, dificultades. Por oportunidades, nos
referimos al uso de palabras que son significativas y no ambiguas para los sujetos en relación con la
escala específica. Un ejemplo de palabras ambiguas sería una escala de la reacción general a un
producto con anclas de excelente a mala, de buena y mala calidad, de mejor sabor y peor sabor de
la historia, etc. Estos son términos generales de calidad, no preferencias personales, y no hacen
referencia a diferentes significados perceptivos para diferentes personas, las oportunidades de
confusión en la puntuación (y una pérdida concomitante de sensibilidad) aumentan
dramáticamente cuando se usan tales palabras. Finalmente, las medidas de la calidad del producto
pueden no ser equivalentes a diferencias de producto específicas; es decir, podría haber diferencias
de preferencia percibidas entre dos productos, aunque los juicios sobre las escalas de “calidad”
pueden no ser suficientes para producir una diferencia de puntaje significativa. Es posible tener
diferentes preferencias para productos que son perceptualmente diferentes pero de igual calidad.
El uso de la puntuación está destinado a determinar las magnitudes de las diferencias entre los
productos. Si los productos se evalúan en función de la calidad, será bastante difícil determinar de
qué manera se debe modificar un producto. Además, sería bastante arriesgado tener un panel
sensorial de diez a veinte que proporcione juicios sobre la calidad del producto, una tarea para la
cual puede no ser adecuado (Sidel et al., 1981, 1983). En el Capítulo 8 se presenta una discusión más
detallada sobre el uso de la evaluación sensorial para medir la calidad; sin embargo, nuestro interés
aquí está en el uso de anclajes de palabras que es menos probable que se malinterpreten y que no
se usen palabras que connotan calidad. Como mostraremos en la discusión sobre el análisis
descriptivo, el uso de medidas de intensidad, generalmente de baja a alta combinadas con anclajes
de palabras que se pueden demostrar a los sujetos (dados los ejemplos de productos que
representan esas medidas sensoriales), es un procedimiento muy exitoso en la sensación de que se
puede lograr una sensibilidad óptima y una variabilidad mínima sin un gran esfuerzo dedicado a la
capacitación de los sujetos. Esto no significa que haya una sola escala ordinal o que las escalas que
no siguen este patrón de desarrollo no serán útiles. Al igual que con el uso de cualquier escala, es
una cuestión de riesgo por parte del profesional sensorial que considera el problema, los productos
y la medida en que los sujetos están familiarizados con el uso de la escala.
Además de la responsabilidad de la selección y/o el desarrollo de una escala específica, debe tenerse
en cuenta que los datos de la escala ordinal pueden mostrar propiedades de intervalo. De hecho, la
misma escala en diferentes operaciones puede mostrar más o menos igualdad de intervalos entre
los puntos de escala. El grado en que la distancia entre los intervalos es igual tiene algo que ver con
el riesgo que implica el uso de diversas técnicas estadísticas para analizar los resultados. Sin
embargo, estamos de acuerdo con Guilford (1954), Labovitz (1970) y Nunnally (1978) en que la
violación del supuesto de igualdad de intervalos entre puntos en estas escalas de calificación
generalmente es lo suficientemente tolerable para tener un efecto mínimo en el uso de análisis
estadísticos paramétricos de estos datos. La literatura sobre evaluación sensorial posterior
(McBride, 1983; Land and Shepherd, 1988) proporciona un apoyo adicional para esta conclusión.
Sin embargo, se advierte al lector que tales violaciones pueden ser bastante riesgosas si las reglas
se extienden en exceso. Si bien puede ser difícil especificar qué es “en exceso”, se ofrece cierto
grado de protección si se adopta un enfoque conservador en la construcción de escala, la selección
y la interpretación de los datos. Existen procedimientos operativos (Anderson, 1970) y matemáticos
(Guilford, 1954) para producir intervalos suficientemente iguales para ser tratados como datos de
intervalos iguales. Para el profesional sensorial, se gana poco y se pierde mucho al seguir una política
innecesariamente restrictiva que clasificaría todas las escalas de calificación o categoría como
escalas ordinales, limitaría sus análisis a técnicas no paramétricas y sacrificaría la calidad interna que
contenían. Si bien recomendamos un punto de vista más flexible que el de O´Mahony (1982), esto
no debe interpretarse como que no se tienen en cuenta los requisitos de orden e intervalo
consistentes con el uso de estadísticas paramétricas. Más bien, es para permitir que el profesional
aproveche al máximo el componente de intervalo de las escalas de calificación correctamente
construidas y utilizadas.
Según Nunnally (1978), “cuando se usan escalas de calificación para obtener respuestas de intervalo
... se dice que constituyen el método de intervalos de igual apariencia”. Además, Guilford (1954)
indicó que la tarea de clasificar los estímulos en intervalos equívocos produce valores de categoría
como valores de escala de intervalo, que luego pueden tratarse estadísticamente como tales. Es
este procedimiento con sus fundamentos teóricos y matemáticos atribuibles a Thurstone el que ha
producido escalas útiles, como la escala hedónica de nueve puntos (Jones et al., 1955). Debido a su
uso generalizado, esta escala particular se discute en una sección separada de este capítulo.
El análisis de los datos ordinales y de escala de calificación se divide en dos categorías amplias:
paramétricas y no paramétricas. La aplicación de este último se describió en la sección “Un análisis
de los datos de rango”. Los métodos paramétricos son aplicables dada la adecuada igualdad de
intervalos de los datos de escala y suponiendo que los resultados son consistentes con una
distribución normal. Para los datos paramétricos, existen numerosos métodos para el análisis,
incluida la prueba t, el análisis de varianza y la correlación, así como las medidas estadísticas de
resumen típicas, como la media, la desviación estándar, etc. Estas pruebas y referencias sugeridas
se describen con más detalle en la discusión de estadísticas en el Capítulo 4.
Ninguna discusión sobre escalas ordinales estaría completa sin algunos comentarios sobre la
sensibilidad relativa de los métodos de comparación pareada versus calificación. A menudo se
afirma que la prueba de preferencia pareada es el método más sensible para medir las actitudes de
preferencia de aceptación del consumidor. Esta creencia puede ser apoyada en parte por el axioma
psicofísico que afirma que el hombre es un mejor discriminador que un juez de lo absoluto. También
se cree que presentar al consumidor ambos productos simultáneamente facilita la decisión de
elección porque el encuestado tiene acceso simultáneo a ambos productos. Sin embargo, en la
evaluación sensorial, pocas respuestas son absolutas, incluso si involucran un solo producto, porque
la memoria del producto juega un papel importante cuando no hay otro producto disponible. La
capacidad de “ir y venir” entre productos, cuando se sirve simultáneamente, ciertamente no es una
ventaja para productos que tienen fuertes características de aroma y sabor. Esta técnica maximiza
el potencial de fatiga sensorial y aumenta la probabilidad de una pérdida en la diferenciación entre
productos, que es el resultado más probable cuando las diferencias de productos son relativamente
pequeñas.
Como concluyó Seaton (1974), en una revisión de los méritos comparativos de los dos
procedimientos, los métodos de calificación y comparación fueron comparables; sin embargo, el
primero ofreció información adicional sustancial que no fue posible con el segundo, el
procedimiento comparativo. En particular, se refería a la puntuación de cada producto, que
proporciona una medida de la ubicación en la escala, una medida de la magnitud de la diferencia
entre los productos, así como la oportunidad de convertir las respuestas en rangos y proceder con
un análisis de la información comparativa utilizada en la comparación pareada directa. Además,
obtener respuestas escaladas de productos servidos de forma monádica es más típico del
comportamiento del consumidor; es decir, evaluar un producto a la vez. Estas son las medidas más
útiles que no se pueden obtener directamente con un método comparativo. Mientras que Laue et
al. (1954) llegaron a la conclusión de que los métodos comparativos directos eran más sensibles a
las pequeñas diferencias cuando los sujetos conocían las dimensiones de la diferencia, esto es muy
improbable en una prueba de consumo. Teniendo en cuenta el potencial de fatiga sensorial y la
interacción sensorial y la salida limitada de información, no vemos ninguna ventaja o evidencia
demostrable para la comparación pareada, y recomendamos el uso de escalas de calificación para
medir la preferencia de aceptación del producto. Sin embargo, puede haber situaciones como un
desafío publicitario en el que el mensaje se basa en la comparación directa, en cuyo caso el método
pareado sería apropiado. Los niños mayores de cierta edad (generalmente alrededor de los 7 u 8
años) también encuentran fácil usar una escala para indicar su reacción a un producto. Como se
discutió en el Capítulo 7, Kroll (1990) encontró que los niños usaban escalas de calificación tan
efectivamente como lo hacían con la comparación pareada. Esta ha sido también nuestra
experiencia; sin embargo, habrá situaciones en las cuales el procedimiento de comparación pareada
sería el método de elección; por ejemplo, con niños cuyas habilidades cognitivas no estaban lo
suficientemente desarrolladas para comprender el concepto de escalamiento. Estos temas se
discuten en el Capítulo 7.
C. Escalas de intervalo
Una escala de intervalo es una en la que se supone que el intervalo o la distancia entre los puntos
de la escala es igual y la escala tiene un punto cero arbitrario, por lo que no hace ningún reclamo o
exigencia sobre la magnitud “absoluta” del atributo medido. Las escalas de intervalo pueden
construirse a partir de los procedimientos de comparación pareada, rango o escala de calificación,
o por el método de bisección, distancias de sentido iguales y categorías de igual apariencia. Para
una descripción de cada uno de estos procedimientos, vea Guilford (1954).
Un ejemplo de una escala de intervalo es el calendario mensual en el que cada día constituye un
intervalo de tiempo igual. Un cero verdadero o racional no es necesario para el uso efectivo del
calendario, y el intervalo entre días es independiente de si ese intervalo se produce al principio o al
final de ese mes. Por ejemplo, el intervalo entre el tercer y quinto día del mes es el mismo que entre
el día trece y el decimoquinto. Cualquier intervalo de x días es equivalente a cualquier otro intervalo
de x días.
En la discusión anterior, tomamos nota de los intervalos de igual apariencia con algunas escalas
ordinales y la necesidad de ser cautelosos al asumir siempre que cualquier escala de calificación
ordinal es una escala de intervalos. Se han desarrollado relativamente pocas escalas de intervalo
estableciendo directamente la formulación de una escala con intervalos iguales. Las dos escalas de
intervalo con las que la mayoría de los profesionales sensoriales deberían estar familiarizados son
la escala hedónica de nueve puntos y la escala de calificación gráfica. La escala hedónica se
considerará más adelante en este capítulo.
La escala de calificación gráfica se desarrolló a partir del trabajo de Anderson (1970, 1974),
utilizando un procedimiento descrito como medición funcional. En este procedimiento, los sujetos
están expuestos a los estímulos que medirán en las sesiones previas a la prueba y se les proporciona
práctica con anclajes de final de estímulo, es decir, como ejemplos de extremos de escala. Estos dos
pasos, cuando se combinan con una escala de línea, dan como resultado un comportamiento de
respuesta que puede establecerse matemáticamente como intervalo igual. En el análisis descriptivo,
el uso de una escala de líneas ha demostrado ser muy efectivo (Stone et al., 1974; Stone y Sidel,
1998), y su uso en el análisis descriptivo se analizará más ampliamente en el Capítulo 6. Análisis de
cientos de pruebas el uso de este tipo de escala ha dejado en claro la naturaleza de intervalo igual
de la escala. Con sujetos no entrenados, Lawless (1989) y Lawless y Malone (1986 a, b) encontraron
que las escalas de línea están en paridad aproximada con otras escalas estándar utilizadas en la
evaluación sensorial. Dado que el mejor uso de la escala requiere la experiencia de los sujetos en el
uso de la escala, es de esperar que sea más sensible cuando la utilicen sujetos con experiencia. Un
ejemplo de una escala de línea se muestra en la Fig. 3.4. Una ventaja distintiva de la escala de línea
es la ausencia de cualquier valor numérico asociado con la respuesta más el uso limitado de las
palabras para minimizar el sesgo de las palabras. Al medir la distancia desde el extremo izquierdo
de la línea hasta la línea vertical, se obtiene un valor numérico para fines computacionales.
Figura 3.4 Un ejemplo de una escala de línea - escala de calificación gráfica. El sujeto coloca una línea vertical a través de
la línea horizontal en el lugar que mejor refleja la intensidad de esa característica. Normalmente, los dos anclajes
reflejan un continuo de intensidad débil a fuerte.
D. Escalas de relación
Los datos de escala de relación muestran las mismas propiedades que los datos de escala de
intervalo y, además, existe una relación constante entre puntos y un cero absoluto. Stevens (1951,
1957) describió cuatro procedimientos operativos para desarrollar escalas psicofísicas con
propiedades de relación. Estos procedimientos son la estimación de la magnitud, la producción de
la magnitud, la estimación de la relación y la producción de la relación. De los cuatro, la estimación
de la magnitud se utiliza con mayor frecuencia para desarrollar datos de escala de relación. Esto se
debe principalmente a problemas organizativos, es decir, a la facilidad relativa con la que el
experimentador puede organizar la prueba y la ausencia de un cuadro de mandos elaborado.
Además, se requieren cantidades mínimas de producto en comparación con los métodos de
producción de magnitud y producción de relación. En un experimento de estimación de magnitud,
el encuestado asigna un valor numérico (no menos de cero ni una fracción) a cada estímulo. Este
valor numérico debe representar la intensidad percibida para ese estímulo o atributos más
específicos (p. Ej., Sonoridad, brillo, dulzor, fuerza del olor, etc.). Al presentar a los sujetos una serie
de diferentes concentraciones de estímulo, utilizando cualquiera de los procedimientos de escala
de relación descritos anteriormente junto con un método específico para tratar las respuestas
obtenidas, los investigadores encontraron que las relaciones de estímulo iguales produjeron
relaciones de respuesta iguales. Stevens (1957) llamó a esto la “ley psicofísica” y la expresó
matemáticamente como
ψ = Κsn
donde ψ es la respuesta media geométrica a un estímulo, k una constante, “s” la concentración del
estímulo, y “n” el exponente de la función, equivalente a la pendiente de la recta. Engen (1971) y
otros se refieren a esta ecuación como la ley de poder o la Ley de poder de Steven. Cuando los datos
de los experimentos de escala de relación se representan en las coordenadas log-log, se obtiene una
relación lineal entre la concentración del estímulo y la intensidad percibida. A partir de estos
antecedentes, Stevens (1957) llegó a la conclusión de que las escalas distintas de la relación estaban
sesgadas y no deberían utilizarse para medir continuos protéticos. Por continuos protéticos, nos
referimos a estímulos que son aditivos; por ejemplo, sonoridad y brillo. Los continuos metatéticos
son aquellos estímulos que implican sustitución o cambio; por ejemplo, la ubicación entre dos
estímulos. Estos conceptos se relacionan con la escala y la teoría de la escala; Stevens y Galanter
(1957) proporcionan una discusión sobre el tema.
El análisis de los datos generalmente se realiza al normalizar primero las respuestas obtenidas para
eliminar la variación inter e intra-sujeto. El procedimiento de normalización utilizado con mayor
frecuencia requiere la transformación inicial de los valores brutos de estímulo y respuesta a
registros, donde los promedios de los logaritmos para cada sujeto en cada muestra son equivalentes
a una media geométrica. Las transformaciones de registro comprimen el rango de valores de datos
y se podría inferir que se espera una asimetría extremadamente positiva. Para evitar esta crítica,
Powers et al. (1981) describieron procedimientos de normalización que no requieren la
transformación del registro. En cualquier caso, el concepto de normalización es consistente con la
visión sostenida por Stevens (1951, 1957) de que la variabilidad representa un error de medición y,
como tal, debe eliminarse del análisis. Afortunadamente, no todos los investigadores sostienen esta
opinión, y muchos optan por utilizar medidas de varianza para establecer niveles de confianza para
las respuestas obtenidas. Este es un punto extremadamente importante que no debe pasarse por
alto. Los productos varían al igual que los sujetos, y nuestra razón para utilizar un panel de sujetos
y evaluar un conjunto de productos está destinada a ayudar a cuantificar las respuestas a las
variables de interés y a comprender mejor y explicar la variabilidad que puede ser inherente a la
prueba o no a la prueba de variables
El análisis de varianza (AOV) y otros análisis estadísticos descritos para las escalas nominal, ordinal
e intervalo pueden aplicarse a los datos de escala de relación. Sin embargo, las respuestas obtenidas
utilizando un procedimiento de estimación de magnitud presentan problemas prácticos cuando se
utilizan modelos como el AOV para determinar la significación estadística. Las respuestas de
magnitud bruta generalmente están sesgadas positivamente, lo que puede traducirse en medidas
de varianza muy grandes a medida que aumentan las puntuaciones de intensidad media. En el
ejemplo informado por Engen (1971, ver pág. 76), la concentración más alta recibió puntajes brutos
que oscilaron entre 7,5 y 150, con una media de 45,95 y una SD de 38,66. La muestra de
concentración más baja tuvo puntajes brutos que oscilaron entre 0,5 y 75, con una media de 6.68 y
un SD de 13,6. Este tipo de situación es susceptible a violaciones significativas de los supuestos de
homogeneidad y distribución en los que se basan los modelos de AOV. Además, las grandes
desviaciones estándar que son posibles con los valores medios altos pueden dar lugar a grandes
términos de error, lo que aumenta la probabilidad de errores de Tipo 2.
Para eliminar los efectos de la variabilidad inter e intra-sujeto, los datos pueden normalizarse antes
de utilizar el AOV. Esto resultará automáticamente en interacciones no significativas entre sujetos y
productos, una medida que podría ser crítica para tomar una decisión sobre qué formulación del
producto merece más atención. Por lo tanto, la normalización antes del uso de un AOV debilitará el
análisis de los datos; sin embargo, sin él, se podría perder alguna información crítica. Al debilitarnos,
nos referimos a que las interacciones mencionadas se perderán, al igual que la información que nos
informa sobre los productos, tal como lo perciben los sujetos. Por supuesto, este dilema puede
evitarse utilizando cualquier otro método de puntuación. Los métodos de escala de relación pueden
ser adecuados para determinar la forma de una relación entre la magnitud percibida y la del
estímulo (que se puede predecir); sin embargo, no son adecuados para medir diferencias entre
productos que varían según las diferentes modalidades sensoriales y atributos. Discusión adicional
sobre la psicofísica y la escala en la evaluación sensorial se encuentra en Frijters (1988), Land and
Shephard (1988), y Lawless y Heymann (1999).
Un desarrollo reciente es la Escala de Magnitud Etiquetada (LMS) descrita por Green et al. (1993).
La escala LMS se considera un híbrido, que tiene características tanto de una escala de categoría
etiquetada como de una escala de relación. Las categorías etiquetadas no se espacian
automáticamente en intervalos iguales, lo que contrasta con cómo se construye una escala de
categorías tradicional. Cada categoría está etiquetada y el espaciado para las categorías individuales
se determina a partir de los datos de escala de relación recopilados previamente. Los anclajes finales
utilizan afirmaciones extremas como “el más fuerte imaginable” y “nada detectable”. En el Capítulo
7, discutiremos este tipo de escala con más detalle.
A. Escala hedónica
De todas las escalas y métodos de prueba, la escala hedónica de nueve puntos ocupa un nicho único
en términos de su aplicabilidad general a la medición de la referencia de aceptación del producto.
La escala fue desarrollada y se describe en detalle por Jones et al. (1955) y por Peryam y Peregrino
(1957). Como parte de un esfuerzo mayor para evaluar la aceptabilidad de los alimentos militares,
estos investigadores estudiaron varias escalas diferentes de diferentes longitudes y número de
categorías, así como la selección de las palabras más apropiadas utilizadas como ancla para cada
categoría. Esta investigación arrojó una escala con nueve puntos o categorías y nueve afirmaciones.
Como se muestra en la Fig. 3.5, la escala hedónica es fácil de describir y, como resultó, es igualmente
fácil de usar. Creemos que esta última característica es una de las principales razones de su utilidad
general en la evaluación de gustos y aversiones de productos para todo tipo de alimentos, bebidas,
cosméticos, productos de papel, etc., y se utiliza a nivel mundial (cuando se traduce).
Figura 3.5 Un ejemplo de la escala hedónica de nueve puntos. La tarea del sujeto es rodear con un círculo el término que
mejor represente su actitud sobre el producto. También podrían usarse cajas adyacentes a los términos. Las respuestas
se convierten a valores numéricos para fines computacionales: como extremadamente, 9; aversión extremadamente, 1.
La escala se desarrolló para evaluar la aceptabilidad de varios cientos de alimentos (Peryam et al.,
1960) y, desde entonces, se ha vuelto a confirmar mediante estudios adicionales de alimentos
servidos al ejército (Meiselman et al., 1974). Estas investigaciones demostraron la confiabilidad y la
validez de la escala en un grado que ha sido especialmente satisfactorio. De particular valor ha sido
la estabilidad de las respuestas y la medida en que dichos datos se pueden usar como un punto de
referencia sensorial para cualquier categoría de producto en particular. Un producto puede tener
una puntuación media y una desviación estándar de 6.47 ± 1.20. Las pruebas con una variedad de
productos competitivos generalmente producirán un ordenamiento de los productos con valores
medios dentro de este rango que son bastante estables; es decir, independiente del tamaño del
panel y de la región del país. No hay duda de que para algunos productos un subconjunto de la
población de consumidores puede alterar el pedido; Sin embargo, la utilidad del índice de referencia
no se pierde. Este grado de estabilidad es especialmente importante para las empresas que buscan
desarrollar una base de datos para sus propios productos, así como tener un medio para evaluar
rápidamente los cambios de formulación y / o realizar un seguimiento de la competencia. Además,
saber que una categoría de producto en particular tiene un puntaje promedio de 6.02 ± 1.50
proporciona un marco de referencia sobre qué puntajes podrían ser posibles. Esto es especialmente
útil si la administración tiene la expectativa de que el producto debe recibir una puntuación > 7,5.
O, alternativamente, las directrices de marketing pueden requerir una puntuación de producto
particular, por ejemplo, 7,0 para que el proyecto continúe. En este último caso, la base de datos
sensorial podría usarse como un sistema de advertencia de que el estándar de acción podría no
cumplirse. Si bien el resultado de la prueba de aceptación sensorial no está diseñado para usarse en
este tipo de situación, sin embargo, no es sorprendente saber que a menudo es la única información
de aceptación disponible. La utilidad del método con los empleados se describe con más detalle en
el Capítulo 7. El análisis estadístico paramétrico, como el AOV, de datos de escala hedónica de nueve
puntos puede proporcionar información útil sobre las diferencias de productos, y no se debe asumir
que los datos de esta escala violar el supuesto de normalidad (en contra de O´Mahoney, 1982; Vie
et al., 1991). La Figura 3.6 muestra los resultados de un estudio de aceptación en el que 222
consumidores evaluaron doce productos utilizando la escala hedónica de nueve puntos. La forma
sigmoidea de la curva indica que las puntuaciones se distribuyen normalmente. En muchas otras
pruebas que involucraron a miles de consumidores, el método ha demostrado ser efectivo para
ordenar las preferencias y la escala se acerca tanto como uno quisiera a una escala de intervalos
iguales.
Donde hay interés en convertir datos de escala hedónica a rangos o datos de preferencia
emparejados, esto también se logra fácilmente. Solo es necesario contar el número de sujetos que
puntúan un producto más alto que el otro y analizar el resultado utilizando un p=1/2 o distribución
binomial, como se explica en el Capítulo 7.
Esfuerzos periódicos para modificar la escala eliminando el punto medio (La categoría de “ni me
gusta, ni me disgusta”) o algunas otras categorías (“me gusta moderadamente” y “me disgusta
moderadamente” han sido sugeridas) generalmente han demostrado ser infructuosas o sin valor
práctico, incluso cuando los niños son sujetos de prueba (Kroll, 1990). ). Un comentario frecuente
ha sido que hay una evitación del punto medio; sin embargo, no se ha realizado ningún estudio
sistemático que demuestre la existencia de tal sesgo o que resulte en una pérdida de importancia
entre los productos. Argumentos similares sobre las categorías moderadas han sido igualmente
infructuosos. Otra preocupación para algunos profesionales sensoriales es la bipolaridad de la escala
desde el punto de vista del experimentador y su tratamiento matemáticamente como
unidireccional. Si los consumidores lo consideran bipolar no se puede determinar fácilmente ni
necesariamente debería ser así. Empíricamente, los consumidores responden de maneras que dejan
claro que lo están utilizando de una manera que uno puede describir como intervalo igual. Si bien
es razonable esperar que los sujetos experimenten dificultades con las escalas bipolares
(generalmente una mayor variabilidad debido a la evitación del punto neutro o medio de dicha
escala), no hay evidencia adecuada de este problema según nuestra experiencia. El problema
computacional parece ser igualmente trivial; Los números utilizados son de menor importancia que
el significado o la falta de significado en la diferencia en las puntuaciones.
Figura 3.6 Resultados de doce productos, cada uno fue evaluado por 222 consumidores utilizando una escala hedónica
de nueve puntos. Tenga en cuenta que el eje Y es la fracción de la población de consumidores en porcentaje
acumulativo y el eje X es la porción de la escala de 2.0 a 7.5 en 0.5 unidades.
Los esfuerzos para demostrar que la estimación de la magnitud es una escala más útil para medir la
aceptación de productos, también han demostrado ser menos exitosos. El primer estudio
comparativo de Moskowitz y Sidel (1971) concluyó que la estimación de la magnitud no era un
método de prueba superior, al igual que la investigación más reciente de Pearce et al. (1986) y
Pangborn et al. (1989). Los autores de este último estudio llegaron a la conclusión de que la
estimación de la magnitud puede ser inapropiada para el escalamiento del gusto. McDaniel y Sawyer
(1981) proporcionaron una conclusión contrastante; sin embargo, su estudio tuvo fallas de diseño
que dificultan concluir mucho sobre la pregunta. En conclusión, parece que la escala hedónica de
nueve puntos es una escala única, que proporciona resultados que son confiables y válidos. Los
esfuerzos para reemplazar o mejorar directamente esta escala no han tenido éxito y deben seguir
utilizándose con confianza. En los últimos años, las investigaciones de Schutz y Cardello (Cardello y
Schutz, 1996; Schutz y Cardello, 2001) sobre las extensiones a la escala han demostrado ser muy
prometedoras y se analizarán con mayor detalle en el Capítulo 7.
B. Escalas faciales
Estas escalas fueron destinadas principalmente a los niños y las personas con habilidades limitadas
de lectura y / o comprensión. Se pueden describir como una serie de dibujos lineales de expresiones
faciales ordenadas en una secuencia desde una sonrisa a un ceño fruncido, como se muestra en la
figura 3.7, o pueden representar un personaje de dibujos animados popular. La expresión facial
puede ir acompañada de una frase descriptiva y puede tener cinco, siete o nueve categorías. Para
fines computacionales, estas expresiones faciales se convierten en sus contrapartes numéricas y se
tratan estadísticamente, como en cualquier otra escala de calificación. Se dispone de poca
información básica sobre los orígenes y el desarrollo de la escala facial. Una guía de prueba sensorial
preparada por Ellis (1966) proporcionó un ejemplo de una escala facial similar a la que se muestra
en la figura 3.7. Fue identificado por el autor como habiendo sido utilizado con éxito; sin embargo,
no se proporcionaron detalles.
Figura 3.7 Dos ejemplos de escalas faciales que se pueden encontrar en la literatura y que parecen
haberse utilizado para medir las respuestas de los niños a los productos.
La escala facial es el tipo de escala que se usa con frecuencia y se espera que tenga un mérito
considerable; sin embargo, creará más problemas de los que resolverá. Los niños muy pequeños (de
6 años o menos) pueden distraerse con las imágenes, e incluso pueden sentirse molestos por el
aspecto desagradable de la cara ceñuda. Las escalas pueden agregar variables visuales y
conceptuales indeseables y posiblemente complejas a la situación de prueba. Hacer coincidir un
producto con una cara que representa la actitud del encuestado es una tarea cognitiva compleja
para un niño y, de hecho, puede ser más complicada que otros procedimientos de escala más típicos.
Por ejemplo, en un estudio de condimentos para usar con medicamentos para niños, se observó
que los niños solían usar la parte de la escala de sonrisa feliz porque pensaban que deberían sentirse
mejor después de tomar el medicamento. Esta información se derivó de las entrevistas posteriores
a la prueba requeridas por la falta de diferenciación de los productos y el deseo de los investigadores
de reformular los productos. Como resultado, fue necesario no reformular el producto sino
desarrollar una escala que no estaba sujeta a una mala interpretación por parte de los niños.
No hay duda de que las pruebas de los niños son un reto. La capacidad de leer y comprender las
instrucciones de la prueba no es uniforme entre los niños de la misma edad. Esto no significa
necesariamente que no se puedan usar escalas típicas; más bien, sugiere que algunos cambios
pueden ser necesarios en el protocolo de la prueba y especialmente con las instrucciones orales
dadas al momento de la prueba. Es interesante que la escala facial se proponga para su uso con
personas con habilidades limitadas de lectura y comprensión cuando uno de los requisitos básicos
de su uso es la capacidad de interpretar la reacción a un producto representado por una cara. No
hay duda de que con instrucciones algunos niños pueden aprender la tarea. Sin embargo, esto
anularía la ventaja principal y reivindicada de la escala, la facilidad con que puede ser utilizado por
el niño. Finalmente, si uno debe entrenar a un individuo para usar una escala, sería más razonable
trabajar con una escala que no requiera transformaciones. En nuestra experiencia de trabajar con
niños de 8 años o más, obtenemos información de aceptación confiable utilizando la escala hedónica
de nueve puntos, siempre que todos los niños puedan leer y, lo más importante, puedan entender
el significado de las palabras. No debería ser una sorpresa que muchos adultos tampoco entiendan
el significado de todas las afirmaciones. Sin embargo, esto se supera a través de una orientación
adecuada de tal manera que los niños (y los adultos) desarrollen un entendimiento de la dirección
de la escala y cuál será su tarea. Alternativamente, si existen dudas sobre el uso de
experimentadores individuales o la capacidad de los sujetos para seguir instrucciones, entonces se
recomienda que se use alguna versión del modelo de preferencia emparejado. Como se señaló en
otra parte (vea el Capítulo 7), esta es una tarea muy básica y se requieren habilidades mínimas de
lectura o comprensión.
Si bien existe una considerable información anecdótica sobre el uso de escalas faciales, parece que
se ha realizado poca investigación con ellas (o se ha publicado poco). En su estudio con niños, Kroll
(1990) no encontró ninguna ventaja para las escalas faciales sobre otras escalas de categorías. Hasta
que no haya más evidencia positiva disponible, no recomendamos el uso de escalas faciales. Los
profesionales sensoriales deberían considerar la modificación de las instrucciones de prueba y el
uso de técnicas de medición más típicas. El capítulo 7 contiene una discusión adicional sobre los
niños como temas.
La escala de punto ideal o Just-About-Right (JAR) es una de las más frecuentes en las pruebas de
consumo a gran escala. Estas escalas bipolares, como se muestra en la figura 3.8, tienen tres o cinco
categorías (las tres categorías suelen ser el modo preferido), generalmente ancladas con
afirmaciones de demasiado, muy poco o casi correctas para cada atributo de producto.
No recomendamos este tipo de escala para las pruebas de evaluación sensorial. Las escalas de los
frascos se defienden como una herramienta de diagnóstico para las pruebas de los consumidores,
pero son un sustituto ineficaz de los experimentos diseñados (por ejemplo, DOE) o de buenos datos
descriptivos sensoriales. La confianza en estas escalas suele ser una indicación de recursos limitados
o conocimiento limitado sobre métodos descriptivos sensoriales, o ambos. Estas escalas combinan
(o más correctamente, confunden) la intensidad y la preferencia de los atributos en una sola
respuesta, y son altamente susceptibles a errores interpretativos y / o semánticos porque se le da
un nombre al atributo del producto que se va a medir. Este riesgo particular es común a cualquier
escala que use anclajes de palabras; Sin embargo, los consumidores son especialmente vulnerables.
Incluso si el consumidor no entiende la palabra descriptiva particular, todavía se obtiene una
respuesta. Como resultado, hay una preponderancia de juicios colocados en la categoría media de
la escala. Investigadores emprendedores han procedido de esta experiencia para formular estas
escalas con cinco o incluso siete categorías. La dificultad surge cuando se trata de anclar cada
categoría: dejar espacios en blanco generalmente hace que los consumidores eviten las categorías
sin etiqueta.
Figura 3.8 Dos ejemplos de escalas de justo a la derecha. Ambos tipos de escalas no se colocarían en el
mismo cuadro de mandos. Se presentan aquí con fines ilustrativos.
El análisis de los datos de estas escalas también presenta numerosos problemas. Con frecuencia,
solo se informa el porcentaje de respuesta en cada categoría sin ninguna regla para determinar qué
diferencia entre los porcentajes se considera significativa. Aunque no abogamos por el uso de estas
escalas, los datos de ellas se pueden tratar de la siguiente manera:
1. Opción A
Se pueden intentar otros análisis de muestra única; sin embargo, requieren supuestos sobre la
frecuencia estimada de respuesta en cada categoría (por ejemplo, X2). No hemos encontrado ningún
criterio aceptable en el que basar dichas frecuencias estimadas o esperadas.
3. Opción C
Este análisis se basa en el uso en serie de las pruebas de Stuart-Maxwell y McNemar, según lo
descrito por Fleiss (1981). La prueba es para productos combinados en los que hay más de dos
categorías de escala. La prueba de Stuart-Maxwell se usa para determinar si existe una diferencia
significativa en la distribución de las respuestas de los productos. Cuando se obtiene una diferencia
significativa, la matriz de datos se colapsa en una serie de matrices y la prueba de McNemar se usa
para determinar categorías de escala individuales para las cuales las diferencias son significativas.
La Tabla 3.1 contiene la clasificación adecuada de los datos de 100 consumidores que evaluaron dos
productos utilizando la escala de tres categorías, que se ajusta a la derecha. Para construir esta
tabla, fue necesario determinar el número de respuestas demasiado dulces, no lo suficientemente
dulces y casi correctas asignadas al producto A cuando el producto B se calificó como demasiado
dulce, no lo suficientemente dulce y casi correcto. Obviamente, esta clasificación de las respuestas
debe planificarse con anticipación para minimizar el manejo repetitivo de la base de datos original.
La estadística de Stuart-Maxwell, según lo descrito por Fleiss (1981) para una clasificación de tres
categorías, es la siguiente:
a Las entradas son las respuestas a ambos productos para cada tema. Por ejemplo, de los treinta y dos sujetos que indicaron
que el producto A era demasiado dulce, veinte indicaron que el producto B era demasiado dulce, siete dijeron que no era
lo suficientemente dulce y cinco dijeron que era casi lo correcto. De los cuarenta sujetos que dijeron que el producto A no
era lo suficientemente dulce, diez dijeron que B era demasiado dulce, veinte dijeron que B no era lo suficientemente dulce
y diez dijeron que B estaba en lo cierto.
Donde:
Debido a que se ha encontrado que las distribuciones son diferentes, es necesario determinar
aquellas categorías o combinaciones de categorías que son significativamente diferentes. Fleiss nos
advierte correctamente que se necesita un control para minimizar las posibilidades de declarar
incorrectamente que una diferencia es significativa cuando se aplican varias pruebas a los mismos
datos. El control sugerido es usar el valor de tabla de X 2 con k - 1 grados de libertad (donde k es el
número de categorías de escala). Usando la prueba de McNemar donde:
El valor crítico de X2 con dos grados de libertad es de 5.99. Dado que el valor obtenido de X 2 de
McNemar es mayor que el valor de la tabla, podemos concluir que el producto B tiene respuestas
significativamente más “demasiado dulces” que el producto A. Recientemente, se aplicó un método
adicional para el análisis a las respuestas de los recipientes, llamado RTUP. Análisis, adaptado de la
investigación mediática. Los objetivos principales se establecen para incluir la optimización de una
línea de productos, ya sean colores, sabores, etc., para identificar las combinaciones que tendrán el
mayor atractivo y el valor incremental de agregar a una línea de productos (ver Cohen, 1993).
Además de estas tres técnicas de escalado, existe otra familia de escalas que es de interés para el
profesional sensorial. En particular, nos referimos a escalas tales como diferencial semántico,
medidas de adecuación y escalas de Likert o sumativas. Estas escalas son utilizadas principalmente
por la investigación de mercado para medir el comportamiento del consumidor en relación con la
imagen del producto, los problemas sociales, los sentimientos, las creencias y las actitudes. Tienen
un impacto en la evaluación sensorial cuando los resultados se utilizan para dirigir los esfuerzos de
formulación del producto o cuando los resultados se comparan con los de una prueba sensorial. Sin
embargo, cuando se combina con los datos de análisis sensoriales apropiados, las relaciones entre
los dos tipos de información tienen beneficios importantes para una empresa. Los profesionales
sensoriales deben estar familiarizados con ellos y su relación con las actividades de pruebas
sensoriales. No son un sustituto de los datos sensoriales; sin embargo, amplían la base de
información y conducen a decisiones comerciales de productos más informados.
Figura 3.9 Ejemplos de posibles escalas diferenciales semánticas. Tenga en cuenta que la selección de pares de palabras
y el tipo de escala son responsabilidad del experimentador.
Las escalas diferenciales semánticas se pueden caracterizar como una serie de escalas bipolares con
hasta treinta escalas ancladas en los extremos con pares de palabras que son antónimos. Las escalas
a menudo se denominan sumativas porque las puntuaciones se pueden sumar entre escalas. En la
Fig. 3.9 se muestran ejemplos de algunos formatos alternativos para esta escala, y como puede
verse, existen numerosas variaciones. Como observó Hughes (1974), hay cinco temas básicos que
se abordan en la preparación de escalas diferenciales semánticas: categorías equilibradas o no
equilibradas, tipos de categorías (numéricas, gráficas y verbales), número de categorías, elección
forzada o no, y selección de pares de palabras. En cada caso, el experimentador tiene una opción
para establecer qué formato de escala particular se utilizará. Si bien esto puede considerarse
ventajoso, también asigna algún riesgo al experimentador. Por ejemplo, si los pares de palabras son
inapropiados o son mal interpretados por los sujetos o el experimentador, esto introducirá
problemas en la interpretación de los resultados.
Las escalas de Likert también son utilizadas regularmente por la investigación de mercado, y al igual
que las escalas diferenciales semánticas pueden tomar diferentes formas. Básicamente, la medición
es una de acuerdo (o desacuerdo) con una declaración particular, como se muestra en los ejemplos
de la Fig. 3.10.
No hay duda de que estas escalas proporcionan información útil sobre los productos, ya sea durante
el desarrollo del concepto, al evaluar el impacto potencial de la publicidad o al vincular las imágenes
y la información sensorial. Tendremos más que decir sobre esto en el Capítulo 6. Más discusión
sobre estas técnicas se puede encontrar en Hughes (1974) y Nunnally (1978).
IV. Conclusiones
En este capítulo, describimos los cuatro tipos básicos de técnicas de medición; nominal, ordinal,
intervalo y ratio. Identificamos las propiedades de cada tipo de escala junto con ejemplos de cómo
se aplican a la evaluación sensorial de los productos. No hay duda de que estas técnicas de medición
son una parte necesaria de la evaluación sensorial. Es útil, en este punto, si damos alguna
consideración a la pregunta de si una de estas escalas es la mejor. Aunque tener una sola escala
puede parecer lo más útil, la evidencia actual respalda una posición que es exactamente la opuesta.
Para cualquier problema en particular, más de una escala puede ser apropiada, al igual que más de
un método de prueba puede ser aplicable.
Figura 3.10 Ejemplo de escala Likert; La tarea del sujeto es marcar la escala en ese punto que refleje el grado de
acuerdo.
También se enumeraron los métodos sugeridos para el análisis de acuerdo con la técnica de
medición específica. Los detalles adicionales sobre estos procedimientos se encontrarán en el
Capítulo 4 y en los tres capítulos sobre métodos de pruebas sensoriales (Capítulos 5-7). Esos
capítulos aclararán la relación entre el objetivo de la prueba, el diseño experimental y el análisis, el
método de prueba y la técnica de medición para lograr una información confiable y válida del
producto.