100% encontró este documento útil (1 voto)
63 vistas27 páginas

Domjan 6

Descargar como pptx, pdf o txt
Descargar como pptx, pdf o txt
Descargar como pptx, pdf o txt
Está en la página 1/ 27

Programas de Reforzamiento y

Conducta de Elección

Domjan Cap. 6

Profesora: Carolina Mora


Programas de reforzamiento
En la vida real, no siempre que damos
una respuesta aparecerá el reforzador.

El programa de reforzamiento
determina cuándo la ocurrencia de la
respuesta va a ir seguida de un
reforzador.

n1, n2, n3...


Programas de reforzamiento
Programa de reforzamiento continuo:
Cada respuesta correcta es reforzada. Ej: tocar el interruptor de la luz,
oprimir el botón del control del televisor.

Ref Ref RR Ref


Ref
RR Ref RR Ref

Programa de reforzamiento parcial o intermitente:

No todas las respuestas correctas son reforzadas.


Programas de reforzamiento
Programas de RAZÓN:
El reforzador se otorga en función del número de respuestas.

Razón Fija:
El número de respuestas necesarias para obtener un reforzador
es siempre el mismo.

Ej: RF5 = Cada 5 respuestas, me dan un premio. El programa de


RF1 es un programa de reforzamiento continuo.

Produce pausas post-reforzamiento.

Razón Variable:
El número de respuestas necesarias para obtener un reforzador
va variando.

Ej: RV5 = Cada 5 respuestas en promedio, me dan un premio.


Programas de reforzamiento
Programas de reforzamiento
Programas de intervalo

El reforzador se otorga en función del tiempo que ha


transcurrido desde el último reforzador (pero todavía hay que
responder al menos 1 vez para obtener el reforzador
Programas de reforzamiento
Programas de intervalo
El reforzador se entrega en función del tiempo que ha transcurrido desde el
último reforzador (pero todavía hay que responder al menos 1 vez para obtener
el reforzador)

Intervalo fijo
El tiempo que pasa entre dos reforzamientos es siempre el mismo. Por ejemplo:
IF5: cada cinco segundos, el reforzador está disponible (cada 5 segundos, si
respondo me dan un premio
Produce pausas post-reforzamiento y aceleración pre-reforzamiento (patrón
“festoneado”

Intervalo variable
El tiempo que pasa entre dos reforzadores va variando. Por ejemplo IV5: cada 5
segundos en promedio, el reforzador está disponible
Programas de reforzamiento
Programas de Intervalo y
disponibilidad limitada

Disponibilidad limitada:
Restricción con respecto al tiempo que permanece disponible un reforzador.
Para que la respuesta sea reforzada debe ocurrir antes de que termine el
período de disponibilidad limitada

Ejemplos:
• Acudir al restaurante (conducta operante) sólo es reforzado con la obtención
de comida, durante un período de tiempo específico.

• La conducta operante de ir a una cita médica, sólo es reforzada con la


atención del médico durante ciertos días a ciertas horas en las que el
médico atiende
Programas de Reforzamiento

Cuál Produce más respuestas?

Los programas que más respuestas producen son los de razón


(porque en los de intervalo, el reforzador se obtiene por esperar al
momento idóneo, no por dar un número determinado de respuestas)
Programas de reforzamiento

RV

IV
Tasa de respuesta

RF

IF

Tiempo
Programas de Reforzamiento

Cuál Produce más respuestas?

Los programas fijos producen menos respuesta que los variables porque
son más predecibles. Además son más fáciles de extinguir

De modo que los programas más efectivos para crear respuestas son los
de razón variable (ej: las máquinas traga monedas por eso son tan
“adictivas” y peligrosas)
Reforzamiento de los TER
(tiempo entre respuestas)
Además de las respuestas independientes, también podemos reforzar
la tasa de respuesta (la velocidad a la que se dan las respuestas).

Ejemplo: quiero que un animal dé, como mínimo, 12 respuestas por


minuto

Entonces, le doy reforzador sólo si produce una respuesta en los 5


segundos siguientes a la anterior respuesta. Si responde cada 5
segundos o menos, tiene una tasa de 12 respuestas por minuto, lo que
yo quería. Si tarda más de 5 segundos en responder, no es reforzado
aunque responda. Eso hará que se vuelva más rápido en el futuro
Programas Concurrentes

Los experimentos en los que solo se mide una respuesta, ignoran


la riqueza y complejidad de la conducta. Constantemente la gente
debe elegir entre dos o más programas simples de reforzamiento
que están disponibles al mismo tiempo.

Por ejemplo, en la vida cotidiana, una persona podría tener que


elegir entre salir o quedarse en casa. Si decide salir, puede optar
por comer, ir al cine, ir a un parque, visitar a un amigo, etc. Si se
queda en casa, puede optar por bañarse, ver TV, cocinar, dormir,
etc.
Medidas de la Conducta de Elección
En los programas concurrentes se deja elegir a un animal entre dos
programas. La elección de un individuo en un programa concurrente se
refleja en la distribución de su conducta. Una técnica común es calcular la
Tasa Relativa de Respuesta

Programa A Programa B
IV 60 IV 60

Para calcular la Tasa relativa de CI


Respuestas en la tecla izquierda, se
utiliza la siguiente formula
(C I  C D )
Medidas de la Conducta de Elección
Programa A Programa B
IV 60 IV 60

Si la paloma picotea con la misma frecuencia las dos teclas


de respuesta. La razón será 0,5

Al responder con igual frecuencia a cada lado de un


programa concurrente, la paloma obtendrá reforzadores con
la misma frecuencia en cada lado

rI
(r I  r D )
Ley de igualación de Herrnstein
Programa A Programa B
IV 60 IV 60

En un programa concurrente IV 60 segundos e IV 60 segundos, tanto la


tasa relativa de respuestas, como la tasa relativa de reforzamiento son de
0,5. de este modo la Tasa Relativa de Respuesta es igual a la Tasa
Relativa de Reforzamiento

CI rI C I rI
 También se expresa así 
CI  CD rI  rD C D rD
Herrnstein se preguntó si se observaría también esta igualdad si las dos
alternativas de respuesta no se refuerzan con el mismo programa?
Ley de igualación de Herrnstein

Una paloma responderá más en el programa que más reforzadores le


proporciona

Si te dejan escoger entre pasar una tarde en el cine o paseando con un amigo,
escogerás probablemente la actividad más reforzante.

La ley de igualación ha tenido un gran impacto en la forma en que pensamos. El


hecho de que una conducta ocurra con mucha o poco frecuencia no sólo
depende de su propio programa de reforzamiento, sino también de las tasas de
reforzamiento de las actividades alternativas que el individuo puede realizar
Subigualación, sobreigualación y
sesgo de respuesta
Aunque la ley de igualación ha disfrutado de mucho éxito durante los
últimos 40 años, las tasas relativas de respuesta , no siempre igualan con
exactitud las tasas relativas de reforzamiento

Recordemos que:

CI rI C I rI
 También se expresa así 
CI  CD rI  rD C D rD
La mayor parte de los casos en que la conducta de elección no se ajusta
perfectamente a la relación de igualdad, puede adecuarse mediante los
parámetros p y s

CI  p ( rI ) s
CD rD
Subigualación, sobreigualación y
sesgo de respuesta
S es la sensibilidad de la conducta de
CI  p ( rI ) s elección a la tasa de reforzamiento (cuánto
CD rD me afecta la tasa de reforzamiento de este
programa).

Subigualación: el animal tiene una tasa de


respuesta menor que la tasa de
reforzamiento. Es como si los reforzadores
P es el sesgo o preferencia por uno de obtenidos no produjeran mucho efecto en su
los programas. Incluso aunque elección. El parámetro de sensibilidad es
proporcione la misma tasa de s<1
reforzamiento.
Sobreigualación: el animal responde más
Ir al gimnasio podría ser más reforzante de lo que correspondería en función de la
que ver tv, porque produce un beneficio tasa de respuesta. La sensibilidad s>1
a largo plazo, pero como la respuesta es
costosa, puede que prefiramos Influyen tanto la calidad como la cantidad del
quedarnos en casa (sesgo de respuesta) reforzador
Igualación y maximización de las
tasas de respuesta

Descripción Ejemplo
Maximización Se elige la mejor Los organismos siempre eligen la
molecular alternativa en ese alternativa de respuesta que tenga la
momento mayor probabilidad de ser reforzada
Maximización Se hace que algo sea Los organismos distribuyen sus
molar tan bueno como sea respuestas entre varias alternativas de
posible modo que se maximice la cantidad de
reforzamiento que obtiene a largo plazo
Mejoramiento Se pretende que la Los organismos cambian de una
situación sea mejor de alternativa de respuesta a otra para
lo que ha sido en el mejorar la tasa de reforzamiento que
pasado reciente reciben
Programas Encadenados
Concurrentes
Muchas decisiones
humanas complejas,
limitan sus opciones una
vez que se hizo una
elección. Debo ir a la
universidad y graduarme
de ingeniería o tener un
trabajo de tiempo
completo. Es difícil
cambiar entre estas
alternativas

Este tipo de programa implica dos etapas:


El eslabón de elección: donde se permite que el participante elija entre dos
programas alternativos emitiendo una de dos respuestas
Eslabón terminal. Una vez que el participante hace una elección se queda con
esta, hasta que concluye el eslabón terminal
Autocontrol
En la vida, las elecciones importantes implican un beneficio pequeño a
corto plazo contra un beneficio mayor pero más demorado. Se dice que
la gente carece de autocontrol si elige recompensas pequeñas a corto
plazo en lugar de esperar por un beneficio mayor
Estudios sobre el Autocontrol
Los investigadores pusieron a prueba la
conducta de elección en dos condiciones
diferentes.

Procedimiento de elección directa, ambas


recompensas (la pequeña e inmediata y la
grande y demorada) estaban disponibles tan
pronto como las palomas picoteaban. En
esas condiciones, los animales carecían de
autocontrol y predominantemente elegían la
recompensa pequeña e inmediata

En el procedimiento encadenado
concurrente, solían elegir la recompensa
grande y demorada. Las preferencias
cambian a favor de la recompensa grande y
demorada a medida que se exige que los
participantes esperen más tiempo por
cualquiera de las recompensas
Reducción del valor y explicaciones
del Autocontrol
Usted preferiría 1.000.000 de Bs.F hoy o el año próximo. Para casi toda la
gente la respuesta es obvia, 1.000.000 de Bs.F hoy serían de mucho mayor
valor que dentro de un año

Esto ilustra un principio matemático conocido como la función del descuento.


El valor del reforzador se reduce cuando hay que esperar para obtenerlo

V M
(1  KD )

V= valor del reforzador


M= magnitud de la recompensa
D = demora
K = tasa de descuento (cuánto se devalúa el reforzador por cada unidad de
tiempo que nos separa de él) indica el grado de “impulsividad”
Reducción del valor y explicaciones
del Autocontrol
Puede enseñarse el autocontrol?

Entrenar a las personas con recompensas demoradas parece tener


efecto generalizados para incrementar su tolerancia por las
recompensas demoradas

También podría gustarte