Domjan 6

Programas de Reforzamiento y
Conducta de Elección
Domjan Cap. 6
Profesora: Carolina Mora

Programas de reforzamiento
En la vida real, no siempre que damos
una respuesta aparecerá el reforzador.
El programa de reforzamiento
determina cuándo la ocurrencia de la
respuesta va a ir seguida de un
reforzador.
n1, n2, n3...

Programa de reforzamiento continuo:
Cada respuesta correcta es reforzada. Ej: tocar el interruptor de la luz,
oprimir el botón del control del televisor.
Ref Ref RR Ref

Ref
RR Ref RR Ref
Programa de reforzamiento parcial o intermitente:
No todas las respuestas correctas son reforzadas.

Programas de RAZÓN:
El reforzador se otorga en función del número de respuestas.
Razón Fija:
El número de respuestas necesarias para obtener un reforzador
es siempre el mismo.
Ej: RF5 = Cada 5 respuestas, me dan un premio. El programa de

RF1 es un programa de reforzamiento continuo.
Produce pausas post-reforzamiento.
Razón Variable:
El número de respuestas necesarias para obtener un reforzador
va variando.
Ej: RV5 = Cada 5 respuestas en promedio, me dan un premio.

Programas de intervalo
El reforzador se otorga en función del tiempo que ha

transcurrido desde el último reforzador (pero todavía hay que
responder al menos 1 vez para obtener el reforzador
Programas de intervalo
El reforzador se entrega en función del tiempo que ha transcurrido desde el
último reforzador (pero todavía hay que responder al menos 1 vez para obtener
el reforzador)
Intervalo fijo
El tiempo que pasa entre dos reforzamientos es siempre el mismo. Por ejemplo:
IF5: cada cinco segundos, el reforzador está disponible (cada 5 segundos, si
respondo me dan un premio
Produce pausas post-reforzamiento y aceleración pre-reforzamiento (patrón
“festoneado”
Intervalo variable
El tiempo que pasa entre dos reforzadores va variando. Por ejemplo IV5: cada 5
segundos en promedio, el reforzador está disponible
Programas de Intervalo y
disponibilidad limitada
Disponibilidad limitada:
Restricción con respecto al tiempo que permanece disponible un reforzador.
Para que la respuesta sea reforzada debe ocurrir antes de que termine el
período de disponibilidad limitada
Ejemplos:
• Acudir al restaurante (conducta operante) sólo es reforzado con la obtención
de comida, durante un período de tiempo específico.
• La conducta operante de ir a una cita médica, sólo es reforzada con la

atención del médico durante ciertos días a ciertas horas en las que el
médico atiende
Programas de Reforzamiento
Cuál Produce más respuestas?
Los programas que más respuestas producen son los de razón

(porque en los de intervalo, el reforzador se obtiene por esperar al
momento idóneo, no por dar un número determinado de respuestas)
RV
IV
Tasa de respuesta
RF
IF
Tiempo
Programas de Reforzamiento
Cuál Produce más respuestas?
Los programas fijos producen menos respuesta que los variables porque
son más predecibles. Además son más fáciles de extinguir
De modo que los programas más efectivos para crear respuestas son los
de razón variable (ej: las máquinas traga monedas por eso son tan
“adictivas” y peligrosas)
Reforzamiento de los TER
(tiempo entre respuestas)
Además de las respuestas independientes, también podemos reforzar
la tasa de respuesta (la velocidad a la que se dan las respuestas).
Ejemplo: quiero que un animal dé, como mínimo, 12 respuestas por

minuto
Entonces, le doy reforzador sólo si produce una respuesta en los 5

segundos siguientes a la anterior respuesta. Si responde cada 5
segundos o menos, tiene una tasa de 12 respuestas por minuto, lo que
yo quería. Si tarda más de 5 segundos en responder, no es reforzado
aunque responda. Eso hará que se vuelva más rápido en el futuro
Programas Concurrentes
Los experimentos en los que solo se mide una respuesta, ignoran

la riqueza y complejidad de la conducta. Constantemente la gente
debe elegir entre dos o más programas simples de reforzamiento
que están disponibles al mismo tiempo.
Por ejemplo, en la vida cotidiana, una persona podría tener que

elegir entre salir o quedarse en casa. Si decide salir, puede optar
por comer, ir al cine, ir a un parque, visitar a un amigo, etc. Si se
queda en casa, puede optar por bañarse, ver TV, cocinar, dormir,
etc.
Medidas de la Conducta de Elección
En los programas concurrentes se deja elegir a un animal entre dos
programas. La elección de un individuo en un programa concurrente se
refleja en la distribución de su conducta. Una técnica común es calcular la
Tasa Relativa de Respuesta
Programa A Programa B
IV 60 IV 60
Para calcular la Tasa relativa de CI

Respuestas en la tecla izquierda, se
utiliza la siguiente formula
(C I  C D )
Medidas de la Conducta de Elección
IV 60 IV 60
Si la paloma picotea con la misma frecuencia las dos teclas

de respuesta. La razón será 0,5
Al responder con igual frecuencia a cada lado de un

programa concurrente, la paloma obtendrá reforzadores con
la misma frecuencia en cada lado
rI
(r I  r D )
Ley de igualación de Herrnstein
IV 60 IV 60
En un programa concurrente IV 60 segundos e IV 60 segundos, tanto la

tasa relativa de respuestas, como la tasa relativa de reforzamiento son de
0,5. de este modo la Tasa Relativa de Respuesta es igual a la Tasa
Relativa de Reforzamiento
CI rI C I rI
 También se expresa así 
CI  CD rI  rD C D rD
Herrnstein se preguntó si se observaría también esta igualdad si las dos
alternativas de respuesta no se refuerzan con el mismo programa?
Ley de igualación de Herrnstein
Una paloma responderá más en el programa que más reforzadores le

proporciona
Si te dejan escoger entre pasar una tarde en el cine o paseando con un amigo,
escogerás probablemente la actividad más reforzante.
La ley de igualación ha tenido un gran impacto en la forma en que pensamos. El

hecho de que una conducta ocurra con mucha o poco frecuencia no sólo
depende de su propio programa de reforzamiento, sino también de las tasas de
reforzamiento de las actividades alternativas que el individuo puede realizar
Subigualación, sobreigualación y
sesgo de respuesta
Aunque la ley de igualación ha disfrutado de mucho éxito durante los
últimos 40 años, las tasas relativas de respuesta , no siempre igualan con
exactitud las tasas relativas de reforzamiento
Recordemos que:
CI rI C I rI
 También se expresa así 
CI  CD rI  rD C D rD
La mayor parte de los casos en que la conducta de elección no se ajusta
perfectamente a la relación de igualdad, puede adecuarse mediante los
parámetros p y s
CI  p ( rI ) s
CD rD
Subigualación, sobreigualación y
sesgo de respuesta
S es la sensibilidad de la conducta de
CI  p ( rI ) s elección a la tasa de reforzamiento (cuánto
CD rD me afecta la tasa de reforzamiento de este
programa).
Subigualación: el animal tiene una tasa de

respuesta menor que la tasa de
reforzamiento. Es como si los reforzadores
P es el sesgo o preferencia por uno de obtenidos no produjeran mucho efecto en su
los programas. Incluso aunque elección. El parámetro de sensibilidad es
proporcione la misma tasa de s<1
reforzamiento.
Sobreigualación: el animal responde más
Ir al gimnasio podría ser más reforzante de lo que correspondería en función de la
que ver tv, porque produce un beneficio tasa de respuesta. La sensibilidad s>1
a largo plazo, pero como la respuesta es
costosa, puede que prefiramos Influyen tanto la calidad como la cantidad del
quedarnos en casa (sesgo de respuesta) reforzador
Igualación y maximización de las
tasas de respuesta
Descripción Ejemplo
Maximización Se elige la mejor Los organismos siempre eligen la
molecular alternativa en ese alternativa de respuesta que tenga la
momento mayor probabilidad de ser reforzada
Maximización Se hace que algo sea Los organismos distribuyen sus
molar tan bueno como sea respuestas entre varias alternativas de
posible modo que se maximice la cantidad de
reforzamiento que obtiene a largo plazo
Mejoramiento Se pretende que la Los organismos cambian de una
situación sea mejor de alternativa de respuesta a otra para
lo que ha sido en el mejorar la tasa de reforzamiento que
pasado reciente reciben
Programas Encadenados
Concurrentes
Muchas decisiones
humanas complejas,
limitan sus opciones una
vez que se hizo una
elección. Debo ir a la
universidad y graduarme
de ingeniería o tener un
trabajo de tiempo
completo. Es difícil
cambiar entre estas
alternativas
Este tipo de programa implica dos etapas:

El eslabón de elección: donde se permite que el participante elija entre dos
programas alternativos emitiendo una de dos respuestas
Eslabón terminal. Una vez que el participante hace una elección se queda con
esta, hasta que concluye el eslabón terminal
Autocontrol
En la vida, las elecciones importantes implican un beneficio pequeño a
corto plazo contra un beneficio mayor pero más demorado. Se dice que
la gente carece de autocontrol si elige recompensas pequeñas a corto
plazo en lugar de esperar por un beneficio mayor
Estudios sobre el Autocontrol
Los investigadores pusieron a prueba la
conducta de elección en dos condiciones
diferentes.
Procedimiento de elección directa, ambas

recompensas (la pequeña e inmediata y la
grande y demorada) estaban disponibles tan
pronto como las palomas picoteaban. En
esas condiciones, los animales carecían de
autocontrol y predominantemente elegían la
recompensa pequeña e inmediata
En el procedimiento encadenado
concurrente, solían elegir la recompensa
grande y demorada. Las preferencias
cambian a favor de la recompensa grande y
demorada a medida que se exige que los
participantes esperen más tiempo por
cualquiera de las recompensas
Reducción del valor y explicaciones
del Autocontrol
Usted preferiría 1.000.000 de Bs.F hoy o el año próximo. Para casi toda la
gente la respuesta es obvia, 1.000.000 de Bs.F hoy serían de mucho mayor
valor que dentro de un año
Esto ilustra un principio matemático conocido como la función del descuento.

El valor del reforzador se reduce cuando hay que esperar para obtenerlo
V M
(1  KD )
V= valor del reforzador

M= magnitud de la recompensa
D = demora
K = tasa de descuento (cuánto se devalúa el reforzador por cada unidad de
tiempo que nos separa de él) indica el grado de “impulsividad”
Reducción del valor y explicaciones
del Autocontrol
Puede enseñarse el autocontrol?
Entrenar a las personas con recompensas demoradas parece tener

efecto generalizados para incrementar su tolerancia por las
recompensas demoradas

Domjan 6

Cargado por

Información del documentohacer clic para expandir la información del documento

Copyright:

Formatos disponibles

Domjan 6

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Domjan 6

Cargado por

Copyright:

Formatos disponibles

Programas de Reforzamiento y

Profesora: Carolina Mora

n1, n2, n3...

Ref Ref RR Ref

Programa de reforzamiento parcial o intermitente:

No todas las respuestas correctas son reforzadas.

Ej: RF5 = Cada 5 respuestas, me dan un premio. El programa de

Produce pausas post-reforzamiento.

Ej: RV5 = Cada 5 respuestas en promedio, me dan un premio.

El reforzador se otorga en función del tiempo que ha

• La conducta operante de ir a una cita médica, sólo es reforzada con la

Cuál Produce más respuestas?

Los programas que más respuestas producen son los de razón

Cuál Produce más respuestas?

Ejemplo: quiero que un animal dé, como mínimo, 12 respuestas por

Entonces, le doy reforzador sólo si produce una respuesta en los 5

Los experimentos en los que solo se mide una respuesta, ignoran

Por ejemplo, en la vida cotidiana, una persona podría tener que

Para calcular la Tasa relativa de CI

Si la paloma picotea con la misma frecuencia las dos teclas

Al responder con igual frecuencia a cada lado de un

En un programa concurrente IV 60 segundos e IV 60 segundos, tanto la

Una paloma responderá más en el programa que más reforzadores le

La ley de igualación ha tenido un gran impacto en la forma en que pensamos. El

Subigualación: el animal tiene una tasa de

Este tipo de programa implica dos etapas:

Procedimiento de elección directa, ambas

Esto ilustra un principio matemático conocido como la función del descuento.

V= valor del reforzador

Entrenar a las personas con recompensas demoradas parece tener

También podría gustarte