Esquemas Llanos

Psicología del Aprendizaje 2015-16 Llanos Merín
TEMA 2: CONDICIONAMIENTO CLÁSICO, FUNDAMENTOS
COMIENZOS DEL ESTUDIO DEL CC Y

NATURALEZA DE LA ASOCIACIÓN
Comienzos del estudio del Naturaleza de la

Condicionamiento Clásico asociación
Pavlov (Rusia, S. XIX)  aplicó el método CONCEPTOS BÁSICOS DE Asociación estímulo- Asociación estímulo-
científico al estudio de los reflejos. CONDICIONAMIENTO CLÁSICO: respuesta (E-R). estímulo (E-E).
Experimento  estudió el  Reflejos condicionados: lo que
funcionamiento del sistema digestivo de anteriormente Pavlov denominó reflejos
los perros y descubrió que no sólo psíquicos. Postura defendida en EEUU por Postura defendida por Pavlov.
segregaban jugos gástricos con la comida  Estímulo neutro (EN): el sonido en un influencia de Thorndike. Considera que lo que el perro
en la boca, sino también ante la visión de principio, pues no provoca ninguna Se consideró que el animal asocia es el EC con el EI
la comida o de la persona que les daba respuesta aparte de la de orientación. aprende una asociación entre el (metrónomo con la comida), y
de comer, y a estas últimas secreciones  Estímulo condicional (EC): El EN EC y la RI, siendo la RC elicitada que la RC sería elicitada por
las denominó “secreciones psíquicas” (sonido) que después de su presentación directamente por el EC. medio de la representación del EI
por ser resultado de un reflejo químico. junto con el EI provocará una respuesta
por el EC (el sonido representa la
Utilizó como respuesta la saliva particular (en este caso salivación). La
comida).
producida por el perro ante los distintos respuesta provocada por EC se llama
estímulos. Pasos que se siguieron: respuesta condicional (RC).
 Presentación del sonido de un  Estímulo incondicional (EI): estímulo
metrónomo en solitario (estímulo que provoca una respuesta particular sin
neutro): no producía ninguna respuesta. necesidad de entrenamiento previo (la
 Presentación del sonido seguido de la comida provoca salivación). La respuesta
introducción de comida en la boca del provocada por el EI se llama respuesta
animal: la comida provoca salivación. incondicional (RI).
 Tras varios ensayos de  Para poner a prueba que aprendizaje se estaba dando se utilizó la
emparejamiento sonido-comida el perro devaluación del EI: disminuir el valor del EI una vez que ya se ha
salivaba también ante el sonido. conseguido el CC, presentándolo en solitario numerosas veces. Esto
demostró que en la primera fase del aprendizaje de CC la asociación es E-E.
SITUACIONES
EXPERIMENTALES
Condicionamiento Condicionamiento Seguimiento del Aprendizaje de

del miedo del parpadeo signo aversión al sabor
Watson y Rayner: los patrones de Skinner: experimento con ratas. El reflejo palpebral consiste en Seguimiento del signo o Presenta algunas
reacción emocional de la infancia Relacionó una luz (EC) con una descarga el parpadeo que se produce automoldeamiento. El primer características
solo eran miedo, ira y amor, que (EI) y midió la respuesta de miedo que cuando, por ejemplo, se acerca
experimento de este tipo lo especiales: puede
mediante CC se incrementaban. consistía en paralización. Para medir la un objeto o un soplo de aire realizaron Brown y Jenkins llegar a adquirirse una
Experimento: condicionamiento paralización de la rata se ha desarrollado repentinamente a los ojos. con palomas. En él, el sujeto fuerte aversión al
del miedo en un niño de 9 meses. la técnica respuesta emocional Este reflejo tiene lugar en se aproxima y toma contacto sabor con un solo
Los experimentadores midieron la condicionada (REC) o supresión distintas especies y su con el estímulo que señala la emparejamiento
respuesta de miedo mediante la condicionada. Para calcular en qué condicionamiento se produce disponibilidad del EI sabor-malestar;
conducta de retirada ante el medida el EC suprime la conducta se al presentar, por ejemplo, un (normalmente comida). Esta pueden transcurrir
estímulo. Hicieron sonar una barra utiliza la razón de supresión. tono (EC) antes del soplo de respuesta solo se produce si horas antes de que el
de acero detrás del niño lo que le A medida que el EC va tomando valor aire a los ojos (EI). Tras varios se empareja EC-EI. Es EI siga al EC y
produjo sobresalto y llanto. En la predictivo (el animal aprende que el EC emparejamientos EC-EI el necesario que el EC tenga una producirse
fase de condicionamiento se le va seguido de la descarga), la rata irá sujeto parpadeará ante el EC localización precisa para que aprendizaje. Ambas
presentó una rata blanca, y cuando paralizándose en su presencia, por lo presentado en solitario. se produzca el seguimiento, características son
el niño estaba tocándola se hacía que la escala es inversa: un mayor nivel
(experimento con conejos). pudiendo estar alejado del EI. adaptativas.
sonar la barra, lo que hacía que el de condicionamiento (=mayor nivel de
niño se alejara de la rata. Tras paralización) es indicado por un nivel
varios emparejamientos, el niño más bajo de razón de supresión. El nivel
había desarrollado miedo a la rata. máximo de condicionamiento es 0.
Además, generalizó ese miedo a
otros estímulos parecidos (ej.: Razón de supresión=
conejo blanco).
CONDICIONAMIENTO PAVLOVIANO EXCITATORIO: Se produce cuando se presenta un EC seguido de un EI. Este emparejamiento produce una RC ante la
presentación en solitario del EC porque se ha aprendido que predice la aparición del EI. Los EI pueden ser apetitivos (ej.: comida) o aversivos (ej.: descarga).
Procedimientos típicos de CPE en función del intervalo entre estímulos (entre el

comienzo del EC y el comienzo del EI dentro de un ensayo).
Condicionamiento Condicionamiento Condicionamiento Condicionamiento

de demora de huella simultáneo hacia atrás
Procedimiento de condicionamiento El EI se presenta un tiempo después de El EC y el EI se presentan El EI se presenta antes del EC en todos
clásico en el que el EC está presente al que haya terminado el EC. Ese tiempo simultáneamente en cada ensayo de los ensayos. Como después del EC
menos hasta que aparece el EI, y en ese entre el final del EC y el inicio del EI se condicionamiento y tienen la misma viene un intervalo entre ensayos en el
momento puede continuar o terminar. llama intervalo de huella (empeora el duración  el EC no predice el EI y la que no se presenta el EI el sujeto trata
Es el más frecuente y el que obtiene un aprendizaje a medida que aumenta el RC obtenida es más escasa.
mejor aprendizaje. el EC como señal de “no EI”.
intervalo).
 Ensayo de prueba: sirve para medir el grado de No todas las respuestas obtenidas son resultado de la
condicionamiento y consiste en presentar el EC sin el EI y asociación EC-EI: respuestas pseudocondicionamiento
así asegurarnos que la respuesta que estamos midiendo es (aquellas que se producen como consecuencia de
la RC. Es esencial en los condicionamientos simultáneos y procesos distintos al condicionamiento) y sensibilización
hacia atrás. (proceso de aprendizaje no asociativo, que se produce
Medición de Procedimientos cuando la presentación en solitario de un estímulo
 Registro de la magnitud de la RC: cantidad de la
las RC de control produce cada vez más respuesta).
conducta que se está dando. En la REC se registra la
cantidad de supresión de la conducta.  control aleatorio: procedimiento de control. Hay
 Medición de la probabilidad de una RC registrando la cuatro tipos: EC en presencia del EI (EC-EI); EC solo (EC-no
frecuencia con la que ocurre ante el EC. EI); EI solo (no EC-EI), no presentar EC ni EI (no EC-no EI).
 Medición de la latencia de la RC (rapidez con la que Para ser ideal debe tener el mismo nº de ensayos del EC y
aparece cuando se presenta el EC). del EI que el procedimiento experimental.
CONDICIONAMIENTO PAVLOVIANO INHIBITORIO: Se aprende cuando NO se va a presentar un EI. El EC indica la ausencia del EC. Puede emplearse para EI
aversivos (ej.: un EC nos indica la ausencia de descarga) o apetitivos (ej.: un EC que nos indique la ausencia de comida).
Procedimientos típicos de CPI: para que se desarrolle inhibición condicionada es

necesario un contexto excitatorio previo.
Procedimiento estándar de Inhibición Desemparejamiento Casos de inhibición

inhibición condicionada diferencial explícito en los que el EC va
seguido del EI
Presentación de dos tipos de ensayos Se presentan ensayos de un EC+ seguido Presentación del EC y del EI
entremezclados aleatoriamente, uno del EI entremezclados con ensayos de separados por un periodo de tiempo  Inhibición de demora: si se utiliza
para condicionamiento excitatorio y otro un EC- sin ir seguido del EI. Los sujetos muy amplio. Es un caso concreto de un condicionamiento de demora y el
para condicionamiento inhibitorio. En el aprenden a discriminar ambos inhibición condicionada por EC es de larga duración el animal se
primero un EC+ es emparejado con un EI estímulos, presentan la RC ante el EC+ contingencia o correlación negativa, comporta como si la parte inicial del
y por otro lado el EC+ se presenta junto pero no ante el EC-. en el que es menos probable que el EC marcase un periodo de ausencia
con un EC- formando un estímulo EI se presente tras el EC. del EI.
compuesto EC+EC- que no va seguido de  condicionamiento de huella:
EI. Los sujetos aprenden a responder cuando el intervalo de huella es de
ante el EC+ cuando se presenta solo, y a gran tamaño da lugar a un
no responder ante el EC+EC-. El EC- se ha condicionamiento inhibitorio.
convertido en señal de ausencia del EI.  Sistema de respuestas bidireccionales: formados por  condicionamiento hacia atrás:
respuestas que pueden variar en direcciones opuestas establece el EC como señal de
respecto a una línea base de ejecución normal. usencia del EI.
 Prueba de estímulo compuesto o sumación:
MEDICIÓN DE LA INHIBICIÓN presentación conjunta del estímulo inhibitorio junto con
CONDICIONADA el excitatorio. Si el EC es inhibitorio deberá reducir la RC
que se da ante el excitatorio.
 Prueba del retraso en la adquisición: si un estímulo se
ha convertido en inhibitorio, necesitará más ensayos
para conseguir el mismo grado de excitación que un EN.
EXTINCIÓN: procedimiento en el que ya no se presenta el EI tras el EC, y tras repetidas ocasiones de presentar solo el EC tiene como resultado la disminución
o incluso desaparición de la RC. Se denomina extinción tanto el procedimiento como el resultado obtenido.
Los siguientes fenómenos demuestran que durante la extinción no se elimina la

asociación EC-EI, si no que se establece otra asociación entre EC y la ausencia de EI.
Desinhibición Recuperación Renovación de la Restablecimiento de la

espontánea RC excitación condicionada
Consiste en la presentación de un nuevo Se da si dejamos pasar un tiempo sin Surgió del estudio del papel del Ocurre si el EI se presenta en
estímulo junto con el EC durante la fase contacto con el EC y el EI tras la fase de contexto en la extinción. La solitario tras la extinción. Esto
de extinción. Si al perro, en la fase de extinción y presentamos después el EC renovación de la RC se da en hace que vuelva a darse la RC ante
extinción se le presenta la luz (que tiene nuevamente. La RC se recupera cualquier contexto que sea distinto al el EC en una prueba posterior.
ya condicionada la comida) y un sonido, espontáneamente, aunque sea a menor que tuvo lugar la extinción. Parece
el perro vuelve a salivar. Esto demuestra nivel. que el contexto actúa como una clave
que la RC se recupera en presencia de que ayuda a eliminar la ambigüedad
un estímulo novedoso sin necesidad del del significado de un EC.
nuevo entrenamiento. Así mismo, si queremos restaurar la
ejecución propia de la extinción
tendremos que introducir claves
contextuales que reactiven la
memoria de la extinción.
TEMA 3: MECANISMOS ASOCIATIVOS Y TEORÍAS DEL CC
Características de los
estímulos
Intensidad Novedad: los estímulos novedosos provocan reacciones más

intensas que aquellos a los que ya estamos habituados. El efecto
de la ausencia de novedad es el de preexposición y puede ser:
Un EI o un EC intensos tienen como consecuencia una aceleración
del aprendizaje de un procedimiento de condicionamiento y una
mayor expresión de la RC. Relacionado con este concepto está el Preexposición al EC o “inhibición latente”: Preexposición al EI: cuando el EI se presenta
de saliencia  un estímulo saliente es aquél que es más Cuando el EC aparece repetidamente en varias veces sin asociación previa con el EC,
perceptible o significativo que otros para ese organismo. ausencia del EI, esto retrasa la adquisición de la deja de ser novedoso, lo que dificulta el
 EC saliente: aquél que capta fácilmente la atención, lo que lo asociación EC-EI posterior, dificultando el aprendizaje posterior. Al igual que en la
hace propicio para ser utilizado en un procedimiento de condicionamiento. inhibición latente, el estímulo deja de predecir
condicionamiento.  Semejanza con el efecto de habituación: en consecuencias importantes, por lo que dejamos
 EI saliente: los EIs, debido a su significación biológica, son ambos, la falta de novedad hace que se preste de prestarle atención.
salientes por naturaleza, pero no siempre van a ser igual menos atención a aquellos estímulos que no  Perspectiva de la interferencia asociativa: si
significativos según el momento (un EI como la comida será más predicen ninguna consecuencia relevante, por lo el EC o el EI son expuestos previamente, la
saliente para un animal en ayuno que para otro que acaba de que no provocan ninguna RC. capacidad asociativa de dichos estímulos
comer).  Diferencia con el efecto de habituación: la disminuirá de cara a emparejarse con estímulos
Intensificar un estímulo puede aumentar la saliencia del mismo, habituación es una disminución de la respuesta, nuevos. En este caso, el recuerdo de lo ocurrido
favoreciendo que el animal le preste más atención. Si utilizamos mientras que la inhibición latente supone un en la fase de preexposición interfiere sobre la
dos EI simultáneamente obtenemos un condicionamiento más retraso en el aprendizaje posterior. asociación EC-EI.
fuerte ante el EC. A partir de cierta intensidad o saliencia no hay
variación en el condicionamiento ni en la RC.
Ej.: Amplitud de una RC

(milímetros del
movimiento del
miembro) en grupos con
distintas intensidades de
EI (descarga; 1, 2, 3 y 4
miliamperios.
estímulos
Naturaleza: tipos y relevancia

de los estímulos
Relevancia de los
Tipos de estímulo
estímulos
El tipo de estímulo utilizado va a determinar el condicionamiento La relevancia de un EC se mide según su pertinencia con respecto al EI. El
y la RC que va a tener lugar. condicionamiento es mejor si el EC y el EI guardan una relación en un contexto
 El condicionamiento y la RC no serán los mismos si utilizamos natural. Así, en un contexto real, los animales pueden enfermar o sentir malestar
un EI apetitivo, como la comida (RC=salivación), o uno aversivo cuando comen alimentos en mal estado, de ahí que el condicionamiento entre un
como una fuente de dolo (condicionamiento de miedo). sabor (EC) y un malestar (EI) genere una RC de aversión mayor. De la misma
 La modalidad sensorial del EC también determina en gran forma, es más fácil que un animal sufra daño físico (en el condicionamiento, el
medida la forma de la RC, a pesar de ser en inicio un estímulo provocado por una descarga  EI) provocado por un daño externo, por ejemplo,
neutro con función de anticipar el EI. Distintos ECs producen un depredador, que relaciona con ciertos estímulos visuales o auditivos (ECs).
distintos tipos de RCs. Experimento: a un grupo de ratas se les  Ningún EC es más efectivo en general, sólo con aquel EI con el que por
presentaba como EC un tono sonoro y a otros una luz, ambos seguidos cuestiones ambientales se combina mejor.
de comida. La forma de la RC varió según el EC: ante el tono las ratas  La explicación teórica para estos ejemplos de relevancia o pertenencia de EC
movían la cabeza mientras que ante la luz mostraban conductas como
con el EI, se centra en que el EC provoca la activación de ciertos sistemas de
ponerse de pie.
conductas. El sistema de conducta que se activa depende del estado emocional
 También es importante la capacidad sensorial del animal, ya
del animal y la naturaleza del EI (ante un EI de comida, el EC activa conductas de
que no todos procesan los estímulos de la misma forma.
búsqueda; ante un EI de descarga, el EC activa conductas defensivas).
Características como la luz, color o posición, para algunos es más
fácil de procesar que para otros.
estímulos
Naturaleza: la fuerza biológica. Carácter biológico atribuible a la mayoría de EI, pero no de EC, ya que tienen la
capacidad de elicitar ciertas respuestas por sí solos (Ej.: un EI como comida elicita respuestas de búsqueda como Contigüidad
aproximación, ingesta o salivación). Según Pavlov, para que el condicionamiento tuviera lugar el EC tenía que tener temporal entre
menos fuerza biológica que el EI. Sin embargo, el condicionamiento puede darse en los siguientes casos: estímulos
Estímulos con distinta fuerza Condicionamiento de dos Condicionamiento de dos  Intervalo EC-EI: la RC es más débil
biológica: condicionamiento estímulos con fuerza biológica: estímulos sin fuerza biológica: cuando el intervalo EC-EI es mayor.
de segundo orden contracondicionamiento precondicionamiento sensorial También afecta a la forma de la RC:
cuando el intervalo EC-EI es corto se
Un EC inicialmente neutro, que ha dan más conductas de orientación
Pavlov afirmaba inicialmente que un Si queremos que se establezca una
sido expuesto a un condicionamiento hacia el EC, mientras que si es largo
estímulo que ya tiene fuerza biológica no asociación entre dos estímulos neutros,
con un EI, puede a su vez hacer de EI las conductas más probables son
puede servir como EC para un nuevo por ejemplo, un tono (EC1) y una luz (EC2),
para un nuevo condicionamiento, ya hacia el EI.
condicionamiento (si una rata había el problema que aparece es que no
que ha adquirido una fuerza biológica  Intervalo entre ensayos (IEE): el
asociado ya una luz con una descarga, no tenemos una RC medible. Para ello, se
que no tenía antes. Este efecto se condicionamiento es mejor, y por
podía asociar la misma luz con comida). establece un emparejamiento del EC1 con
denomina condicionamiento de tanto también la expresión de la RC,
El fenómeno de contracondicionamiento un EI en la segunda fase, lo que da lugar a
segundo orden. Se trata de un cuando los ensayos EC-EI están
muestra que esta idea es errónea: es un una RC. Si el aprendizaje EC1-EC2 tuvo
condicionamiento de orden superior, distanciados entre sí.
procedimiento que se utiliza para variar lugar en la primera fase, el EC2 provocará
lo que quiere decir que puede tener Las mejores condiciones para un
o invertir la respuesta condicionada una respuesta similar a la mostrada en la
distintos niveles. El aprendizaje más condicionamiento se dan con
anterior utilizando un EI distinto al segunda fase. Este procedimiento se
básico, EC-EI, corresponde a un intervalos EC-EI cortos y aislados en
utilizado previamente. denomina precondicionamiento sensorial.
condicionamiento de primer orden. el tiempo (amplio IEE).
TEMA 3: MECANISMOS ASOCIATIVOS Y TEORÍS DEL CC
CONTINGENCIA: concepto que se utiliza para medir el grado en que una clave o estímulo, el EC, es un buen predictor de la aparición de otro, el EI. Las
posibles alternativas de emparejamiento entre EC-EI son 4 y se resumen en una tabla de contingencia.
Tipos de contingencia. P1= probabilidad de que se dé el EI después del EC; P0= probabilidad de que se dé el EI después de la NO
aparición del EC; ∆P= índice resultante del cálculo de la contingencia, puede estar entre 1 y -1.
Contingencia Contingencia Contingencia

positiva nula negativa
Si la aparición del EC es un buen predictor del EI, el Si la probabilidad de que el EI aparezca en presencia Indica que el EC es un gran predictor de ausencia
EI debe ocurrir con más probabilidad cuando el EC o en ausencia del EC es la misma, la contingencia del EI, pero no de su presencia. Esto implica que el
ha sido presentado previamente que en ausencia de tiene un valor numérico de 0. Esto implica, en teoría, EI es menos probable en presencia del EC, lo que
este. En este caso se da un condicionamiento una ausencia total de condicionamiento. hace que éste último sirva como predictor de la NO
excitatorio. P(EI|EC) = P(EI|noEC), es decir, P1=P0 aparición del EI.
P(EI|EC) > P(EI|noEC), es decir, P1 > P0 ∆P=0 P (EI|EC) < P(EI|noEC), es decir, P1<P0
∆P>0  Aunque en teoría debería darse una falta de ∆P<0
 En el caso de que el EI solo ocurra en presencia condicionamiento, en la práctica tiene lugar el efecto Cuando la contingencia es negativa el
del EC y nunca en su ausencia, la contingencia será de irrelevancia aprendida: el sujeto aprende que no condicionamiento es inhibitorio.
perfecta: ∆P=1 (∆P= P(EI|EC) – P(EI|noEC) = 1-0=1). hay relación entre EC y EI lo que retrasa un posterior
aprendizaje de dicha relación.
 a: número de ensayos en los que habiendo aparecido el EC después aparece el EI. Sí EC-Sí EI.
Tabla de Contingencias  b: número de ensayos en los que habiendo aparecido el EC después no aparece el EI. Sí EC- No EI.
 c: número de ensayos en los que no habiendo aparecido el EC, después sí aparece el EI. No EC- Sí EI.
EI NO EI
 d: número de ensayos en los que ninguno de los dos estímulos aparece. No EC-No EI.
EC a b  La probabilidad de que se dé el EI después del EC (P1) se calcula teniendo en cuenta las veces que el
NO EC c d CI aparece después de que lo haga el EC en función de todas las veces, en total, que ha aparecido el EC:
P1= P(EI|EC) = a/(a+b).
 La probabilidad de que el EI tenga lugar tras la NO aparición del EC se calcula: P0= P(EI|noEC) = c/(c+d).
 El índice resultante de este cálculo de contingencia (∆P) = P1-P2.
FENÓMENOS DE COMPETICIÓN DE CLAVES: en estos fenómenos se da una competición entre los distintos ECs presentes para
ser el mejor predictor del EI. Así, puede ocurrir que se dé una contingencia perfecta EC-EI y aun así la RC no tenga lugar.
Ensombrecimiento Bloqueo
En este experimento son dos los ECs presentes de forma simultánea. Por El bloqueo es un efecto que consta de dos fases de entrenamiento. La
ejemplo, una luz (EC1) y un sonido (EC2), que queremos condicionar con una aparición conjunta de dos ECs igualmente contingentes con el EI determina
descarga posterior (EI) para provocar una respuesta de miedo. Aunque la la RC frente a cada uno de ellos. Inicialmente se asocia EC1-EI y cuando éste
contingencia entre EC1 y EI y entre EC2 y EI es perfecta, ambos ECs van a está completamente condicionado se añade el segundo EC2. La poca fuerza
competir para ser un mejor predictor del EI. Por eso, al aparecer juntos, EC2 de la RC ante el EC2 en la fase de prueba muestra que el aprendizaje previo
ensombrece a EC1, teniendo como consecuencia una menos RC frente al del EC1 bloquea el desarrollo de la RC ante el EC2 añadido en la segunda
EC1 con respecto a ese mismo EC en un grupo de control en el que no ha fase.
tenido lugar el Ensombrecimiento.
Fase 1 Fase 2 Prueba Resultado
Entrenamiento Prueba Resultado Experimental EC1-EI (EC1+EC2)-EI ¿EC2? Poca RC
Gr. Experimental (EC1+EC2)-EI ¿EC1? Poca RC Control EC1/EI (EC1+EC2)-EI ¿EC2? RC media
Gr. Control EC1-EI ¿EC1? Mucha RC
Hay que controlar que los grupos experimental y de control sean lo más
 este efecto puede revertirse si se lleva a cabo una recuperación del parecidos metodológicamente hablando, por ello se presentan los estímulos
Ensombrecimiento. Para ello, tras el Ensombrecimiento, debemos mostrarle el mismo número de veces en ambos grupos, pero en el caso del grupo
al sujeto que ahora el estímulo ensombrecido ya no es un buen predictor del control se presentan explícitamente desemparejados el EC1 y el EI para que
EI, con lo que conseguimos que la RC frente al EC ensombrecido aumente. no se cree la asociación.
 Si invertimos las fases de entrenamiento en un diseño de bloque, da lugar
Fase 1 Fase 2 Prueba Resultado al bloqueo hacia atrás.
Experimental (EC1+EC2)-EI EC2-no EI ¿EC1? Mucha RC
Control (EC1+EC2)-EI --- ¿EC1? Poca RC Fase 1 Fase 2 Prueba Resultado
Experimental (EC1+EC2)-EI EC1-EI ¿EC2? Poca RC
Control (EC1+EC2)-EI EC1/EI ¿EC2? RC media
TEORÍAS DEL APRENDIZAJE: MODELO RESCORLA-WAGNER. La principal característica de este modelo es que asume que en un ensayo de condicionamiento el
aprendizaje sólo tiene lugar si el EI es sorprendente. Sugiere que la fuerza asociativa entre un EC y un EI aumenta en cada ensayo, hasta que el EC predice
completamente el EI y éste deja de ser sorprendente, punto en el cual dicha fuerza alcanza su máximo posible.
Fórmula principal del modelo Rescorla-Wagner y otros fenómenos del aprendizaje:
Bloqueo, extinción e inhibición condicionada

∆Vn = αβ (λ-Vn-1)
en el modelo Rescorla-Wagner
 ∆V es el incremento de la fuerza asociativa, n el ensayo del que la estamos  Bloqueo: En la primera fase del condicionamiento, en la asociación entre EC1 y
calculando. Puede oscilar entre valores de -1 a 1. EI, dicho EC adquiere un valor positivo a medida que transcurren los ensayos hasta
 α y β se refiere a la saliencia del EC y el EI respectivamente, es decir, cómo llegar a la asíntota del aprendizaje. Durante la segunda fase de entrenamiento, los
de significativos son. Numéricamente, se puede expresar entre un mínimo de 0 ensayos continúan, pero se añade el EC2 al EC1, ambos seguidos del EI. Como e
y un máximo de 1. El EI por lo general es muy significativo para el sujeto (por EC2 no se ha presentado con anterioridad, no tiene fuerza asociativa aun y su valor
ejemplo, comida) y por eso se le puede adjudicar un 1 para los cálculos; al EC inicial V es 0. Es decir, las fórmulas son las mismas, pero en el cálculo referente a
suele tomar un valor de 0,5 al no ser tan relevante. ese segundo EC que se acaba de introducir, Vn-1 será igual a 0 porque al ser nuevo
 λ (lambda) es la magnitud del EI. Si llega a la perfección, es decir, que no hay fuerza asociativa alguna en el ensayo anterior. El modelo explica esto por la
siempre detrás del EC se presente el EI, estaría a su máximo nivel, que se ausencia de sorpresa, ya que el EI ya era predicho por el EC1 de forma eficaz y, por
denomina asíntota. Sus valores oscilan entre 0 y 1. Sin embargo, para los lo tanto, el EC2 no es necesario para anticipar el EI.
cálculos es más sencillo utilizar una escala de 0 a 100.  Extinción: en este caso, como no hay EI alguno, λ es 0. La fórmula del
 Vn-1 es la fuerza asociativa en el ensayo anterior al que estamos calculando. incremento nos va a dar un resultado negativo, es decir, tenemos que restarle a la
Indica el aprendizaje previo sobre la relación EC-EI llevado a cabo hasta ese fuerza asociativa que teníamos en el ensayo anterior, y como consecuencia
momento. Sus valores oscilan entre 0 y 1. En el primer ensayo es 0, en el obtendremos un valor negativo y en la gráfica se va a ver una caída. Cuánto más se
segundo ensayo es la V (fuerza asociativa neta) del primero y así sucesivamente. sabe en el ensayo anterior, más rápida es la extinción. En modelo afirma que este
Una vez que tenemos el incremento de la fuerza asociativa (∆V), para saber en fenómeno consiste en un desaprendizaje, lo cual no es correcto porque no se
qué nivel de fuerza asociativa se está en un ensayo concreto se calcula la fuerza ajusta a lo que se conoce como extinción.
asociativa neta con la siguiente fórmula: V= Vn-1 + ∆V.  Inhibición condicionada: en este fenómeno, un EC predice la ausencia de la
Conclusión: el incremento de la fuerza asociativa en un determinado aparición posterior de un EI. Durante la fase de entrenamiento un EC1 es
aprendizaje (∆Vn) es directamente proporcional a la saliencia de ambos emparejado con un EI hasta llegar a la asíntota de aprendizaje (V=1). En la segunda
estímulos (α y β) y depende de la diferencia entre el máximo de aprendizaje fase, ese mismo EC1 se empareja con el EC que va a convertirse en inhibitorio
adquirible (λ) y la fuerza de la asociación hasta el ensayo anterior (Vn-1). (EC2) siendo ambos seguidos de la ausencia del EI. Como consecuencia, la fuerza
asociativa del EC1 irá decreciendo hasta llegar a 0.
TEORÍAS DEL APRENDIZAJE:

MODELO RESCORLA-WAGNER
Problemas del modelo y ejemplo de cómo utilizar las fórmulas:
Problemas del modelo Ejemplo
 La extinción de la inhibición condicionada: este modelo afirma que si se Cómo calcular la fuerza asociativa, bloqueo y extinción con los siguientes datos:
presenta repetidamente un inhibidor condicionado sin ir acompañado del EI (λ=0) la α = 0,5 (EC)
inhibición se extinguirá. Según este modelo, el EC anteriormente inhibidor se irá β = 1 (EI)
convirtiendo en excitatorio poco a poco. Pero esto ocurre en realidad. Las λ = 100 (máxima fuerza asociativa EC-EI)
investigaciones muestran que no presentar el EI tras un EC inhibitorio puede  Fuerza asociativa EC-EI (¡OJO! Nos estamos refiriendo a la fuerza asociativa
aumentar sus propiedades inhibitorias. Es posible que el error del modelo esté en neta (V), no a la acumulación; por lo que antes hay que calcular el incremento de
considerar la excitación y la inhibición como procesos opuestos y de signo contrario. la fuerza asociativa para aplicar la fórmula V= Vn-1 + ∆V).
 Extinción de la excitación condicionada: este modelo considera la extinción ∆Vn = αβ (λ-Vn-1)  calculamos este dato y después aplicamos la fórmula de V.
como un desaprendizaje, pero no es una explicación correcta. Fenómenos como la ∆V₁ = 0,5x1(100-0) = 50
V= Vn-1 + ∆V = 50+25 = 75
recuperación espontánea, renovación o la reinstauración muestran que la extinción ∆V₂ = 0,5x1 (100-50) = 25
no es un desaprendizaje sino un aprendizaje distinto. ∆V₃ = 0,5x1 (100-75) = 12,5  V₃ = 75+12,5 = 87,5
 La inhibición latente (preexposición al EC): para este modelo, como el EI no ∆V₄ = 0,5x1 (100-87,5) = 6,75  V₄ = 87,5+6,75 = 94
aparece ni es esperado durante la fase de preexposición al EC, no hay asociación EC-  Bloqueo: añadimos un segundo EC, que al ser nuevo no tiene fuerza asociativa
EI y el valor de V no varía, siempre es 0, por lo que no debería afectar al aprendizaje anterior, por lo que Vn-1 = 0.
en la fase de condicionamiento. Sin embargo, los datos muestran que el aprendizaje ∆V₅(EC1) = 0,5 (100-94) = 3  V₅ = 94+3 = 97
a dicho condicionamiento se ve retrasado por la previa exposición al EC. ∆V₅(EC2) = 0,5 (100-94) = 3  V₅ = 0+3 = 3
 Bloqueo: hay veces en las que se produce el efecto contrario al bloqueo, es decir,  Extinción: no se presenta EI, por lo que λ = 0. El resultado será negativo pues
aumenta la RC ante e EC2 presentado en conjunto con el EC1. A este fenómeno se le muestra un decremento de la fuerza asociativa.
denomina contrabloqueo o aumentación y no puede ser explicado por el modelo ∆V₄ = 0,5x1 (0-87,5) = -43,7 V₄= 87,5–43,7 = 43,8
Rescorla-Wagner, según el cual la aparición del EC2 no produce sorpresa ninguna en
los ensayos compuestos ya que el EI era predicho con efectividad por el EC1.
OTRAS TEORÍAS DEL

APRENDIZAJE
Hipótesis del comparador Modelos atencionales Modelo SOP (Wagner)
Según esta hipótesis la RC no solo depende de la Wagner sostiene que un estímulo

Teoría de Teoría de sorprendente tiene mejor procesamiento en
asociación EC-EI, sino también del resto de
Mackinstosh Pearce-Hall nuestra MCP (memoria a corto plazo) y por lo
asociaciones que puedan establecerse entre las
claves del contexto y el EI. El sujeto en un ensayo tanto mayor probabilidad de mantenerse en
de condicionamiento aprende que: el EC y el EI nuestra MLP (memoria a largo plazo). Dentro
están asociados, y que las claves contextuales y Este modelo sostiene que los de nuestro sistema de procesamiento de la
Esta teoría afirma que, en un
el EI también lo están. animales ignoran los estímulos información, un estímulo nos resulta
contexto de aprendizaje, no
 Si la fuerza asociativa EC-EI es mayor que predictores redundantes. Tiene sorprendente si no está ya presente en
debemos malgastar recursos
aquella que presenta la asociación entre las como base la idea de que la nuestra MCP.
prestando atención a estímulos
claves contextuales y la EI; la RC tendrá lugar atención que se presta a un EC Este modelo representa el condicionamiento
que conocemos bien, pero, sin
(contingencia positiva). depende de lo efectivo que sea utilizando nodos y redes neuronales. Wagner
embargo, sí debemos prestar
 Si la asociación EC-EI es más débil que la dicho EC prediciendo el EI. Cuanto asume que el condicionamiento da lugar a
atención a aquellos que todavía no
asociación entre las claves del contexto y el EI mejor predictor sea, mayor una asociación entre la representación
controlamos con seguridad. Así,
no se mostrará la RC esperada ante el EC. Ocurre atención le prestaremos. También (denominada nodo) del EC y la del EI. Las
prestaremos cada vez menos
porque el animal percibe como mayor la depende dicha atención del resto asociaciones entre nodos se conocen como
atención a un EC en la medida en
probabilidad del EI en presencia del contexto y de los ECs: si nuestro EC no es conexiones. Los nodos del EC y el EI se activan
que con cada ensayo se convierta
no del EC (contingencia negativa). mejor predictor del EI que los cuando los estímulos reales lo hacen, y ocurre
en mejor predictor del EI.
 Hay, por tanto, tres tipos de asociaciones: EC- demás ECs, le prestaremos menos a dos niveles distintos de intensidad:
EI (asociación directa); EC-claves del contexto y o ninguna atención.  A1: estado en el que el nivel de activación
claves del contexto-EI (asociaciones indirectas). es alto y la atención que se presta al estímulo
 Destaca que en esta hipótesis no existen las también lo es. El nodo solo puede mantenerse
asociaciones inhibitorias y que la comparación en A1 un breve intervalo de tiempo.
entre las asociaciones excitatorios determina la  A2: menor nivel de activación; atención
manifestación de la RC, pero no el aprendizaje. más periférica y menos focalizada.
Psicología del Aprendizaje 2015/16 Llanos Merín
TEMA 4: PRINCIPIOS BÁSICOS DEL CONDICIONAMIENTO OPERANTE
ANTECEDENTES
HISTÓRICOS
Thorndike y la Ley del El análisis experimental del

Efecto comportamiento de Skinner
Los trabajos de Thorndike son el comienzo del estudio científico del Skinner desarrolla la idea de que los reflejos podrían ser estudiados como
condicionamiento instrumental, al que denominó aprendizaje por ensayo y error. conductas más que como un reflejo del sistema nervioso o de la mente: distingue
Para este autor, el aprendizaje ocurre porque se fortalecen las conexiones que se entre el condicionamiento de los reflejos de Pavlov y el tipo de aprendizaje
forman entre los estímulos y las respuestas cuando dan lugar a un estado de propuesto por Thorndike, lo que le llevó a formular que la conducta se regula
satisfacción para el animal. Denominó a esto conexionismo. tanto por el condicionamiento de los reflejos o condicionamiento respondiente
 Experimento: metía a gatos en diferentes “caja problema”, una especie de jaulas como por el operante.
de las que podían salir al activar algún tipo de resorte desde el interior, y al salir el  Empleo de los términos condicionamiento operante y condicionamiento
investigador les daba una cierta cantidad de comida. En los primeros intentos instrumental: el termino operante refleja la capacidad del sujeto para operar
tardaban un tiempo considerable y exploraban la caja hasta dar por casualidad con sobre su ambiente, mientras que el termino instrumental tiene en cuenta el
el mecanismo de apertura. Según transcurría los ensayos y repetían la tarea, el hecho de que la conducta del sujeto es el instrumento para obtener el
tiempo que tardaban en accionar el mecanismo y en salir de la caja era menor. reforzador.
Este tiempo que pasaba desde que comenzaba el ensayo hasta que el sujeto salía  Procedimientos de operante libre: Skinner utilizó experimentos en los que el
de la caja, llamado latencia de escape, era la medida que Thorndike utilizó para la sujeto podía ejecutar una respuesta repetidamente sin la intervención del
evaluación de la ejecución del aprendizaje. Estableció que la entrega de comida experimentador. En ellos, la respuesta puede ocurrir en cualquier momento y de
fortalecía la conexión entre la situación y la respuesta. forma repetida mientras el sujeto siga en la caja de condicionamiento. La variable
 Ley del efecto: de las muchas respuestas dadas en la misma situación, las que dependiente medida en este caso es la tasa de respuesta, o número de
vayan acompañadas o inmediatamente seguidas de satisfacción para el animal, en respuestas por unidad de tiempo.
igualdad de condiciones, se conectarán más firmemente con la situación; de
manera que cuando vuelva a presentarse, volverán a darse con gran probabilidad.
DEFINICIÓN DE CO: proceso que da lugar a que la probabilidad de una respuesta se vea modificada por sus consecuencias, es decir, por los efectos que tiene el
ambiente sobre ella. Si el resultado del comportamiento es beneficioso para el animal la conducta se fortalecerá, siendo más probable que se emita de nuevo en
circunstancias parecidas. Si el resultado es perjudicial, ducha conducta tenderá a desaparecer del repertorio del sujeto.
La descripción de la conducta operante requiere habitualmente de tres términos y sus interrelaciones funcionales. Éstos son:
El estímulo discriminativo La respuesta El reforzador
Las claves contextuales en el CO reciben el nombre de La respuesta operante se define por los Un reforzador es cualquier suceso o evento que al hacerse
estímulos discriminativos (Eds) y señalan la ocasión para efectos que provoca en el ambiente. Cuando contingente con una respuesta cambia la probabilidad de
que, si la conducta se presenta, sea seguida por una una respuesta produce el mismo efecto que aparición de esa respuesta en el futuro. Por tanto, se define
consecuencia. Es decir, un estímulo en principio neutro, otra, estaremos hablando de la misma en función de los efectos que tiene sobre la conducta.
puede indicar si el reforzador está disponible y, por tanto, operante porque producen los mismos efectos  Reforzamiento condicionado: la conducta humana
indica al sujeto cuándo ha de responder. Esto implica sobre el ambiente. Por tanto, la operante se muchas veces no es controlada por reforzadores primarios
reforzar una respuesta en una situación, pero no en otra. define por su función, no por su forma. (ej.: comida), sino que depende de la historia de
 Cuando un Ed va seguido de una respuesta cuya Cuando hablamos de la conducta, ésta puede reforzamiento (Ej.: elogios, críticas o juicios sobre nuestro
consecuencia es apetitiva, ésta se ve reforzada y la adoptar distintas formas (topografía) teniendo comportamiento pueden fortalecer o debilitar la conducta).
probabilidad de que ocurra aumente si dicho estímulo la misma función. Hablamos de clases de Este tipo de eventos adquieren sus efectos debido a las
está presente posteriormente. respuesta cuando nos estamos refiriendo a experiencias que la gente ha tenido con ellos a lo largo de
 Cuando una respuesta operante no es seguida de una cualquier forma de ejecutar una conducta con sus vidas. El reforzamiento condicionado o reforzamiento
consecuencia reforzante, el estímulo que precede la una función similar. Ej.: si queremos conseguir secundario se refiere a un estímulo o evento que
respuesta se conoce como estímulo delta (E∆), y en su comida, podemos hacerlo nosotros mismos o originalmente no es reforzante, pero que puede adquirir
presencia la probabilidad de emitir la operante disminuye. pedirle a otro que lo haga. Ambas sería la capacidad de reforzamiento mediante la asociación repetida
 El término control por el estímulo se refiere a cómo los misma clase de respuesta porque cumplen la con otro que previamente era reforzante. Es decir, la
estímulos que preceden una conducta pueden controlar la misma función, pero tienen una topografía o conducta se fortalece debido a sucesos que tienen un efecto
ocurrencia de ésta, lo cual no quiere decir que el Ed forma diferente. que depende de la historia de reforzamiento del sujeto.
provoque la respuesta.
Entre estos tres términos se establece una contingencia que se define como: en presencia de un
estímulo discriminativo, el reforzador se presentará si, y sólo si, la respuesta operante sucede.
ACLARACIONES ENTRE
CONCEPTOS
Reforzador- Respuesta discreta- Topografía- Instancia de respuesta Interacciones clásicas

reforzamiento operante libre función y clase de respuesta y operantes en el
control de la conducta
El evento sería el reforzador, y  Experimentos de ensayo  Topografía: punto de vista  Instancia de respuesta: En el CO, para poder reforzar o
el procedimiento o proceso el discreto: la variable estructural de una conducta, la forma unidad mínima de conducta castigar una conducta es necesario
reforzamiento. El dependiente es la latencia de de la respuesta, sus propiedades o que se refiere a la ocurrencia que dicha conducta ocurra con
reforzamiento produce respuesta. El ensayo comienza características físicas, entendida particular y específica de una cierta probabilidad. Cuando esta
incrementos en la conducta, y cuando el sujeto es dispuesto en como una secuencia de movimientos respuesta teniendo en cuenta probabilidad es muy baja hay
los reforzadores son los el aparato y éste puede que ocurren en el tiempo. Desde el además su topografía. ciertas soluciones para no tener
eventos que hacen que el únicamente emitir, y el punto de vista del CO las  Clase de respuesta: todas que esperar a que se dé por
reforzamiento produzca esos investigador registrar, una consecuencias de una respuesta las formas en las que la casualidad, lo que llevaría mucho
efectos. Cuando el respuesta en cada ensayo. pueden modificar su topografía o ejecución de la respuesta tiempo. Una de ellas es el
procedimiento disminuye la  Procedimientos de operante forma. Ej.: para empujar una puerta puede llevar a una función automoldeamiento: hacer primero
conducta, se denomina castigo libre: la variable dependiente podemos hacerlo con la mano o con el
similar. un procedimiento de CC que
y los eventos utilizados cuando para medir el aprendizaje es la pie, el resultado es el mismo, pero si
se presenta la conducta son de tasa de respuesta, y los sujetos estamos en público será menos probable empareje un estímulo neutro (luz)
naturaleza aversiva. Hay que que lo hagamos con el pie. con algo apetitivo (comida), con lo
pueden emitir la respuesta de
distinguir así entre forma constante y  Función: es la relación de la que la luz pasará tras varios
consecuencia apetitiva repetidamente sin que el respuesta con los estímulos ensayos a ser un EC. Una vez que la
(reforzador) y consecuencia investigador tenga que antecedentes y las consecuencias de luz provoca la RC, podemos
aversiva (castigo). la misma. Dos respuestas con la someterla a control operante
manipular al sujeto de ninguna
misma forma pueden tener función haciendo que solo aparezca la
forma entre ensayo y ensayo.
diferente, y dos respuestas con comida cuando la paloma la
distinta topografía tener la misma picotea, pasando de ser un EC a un
función. En el ejemplo anterior la Ed que correlaciona con la comida
función sería abrir la puerta. cuando el animal presiona la tecla
(respeta operante).
PROCEDIMIENTOS BÁSICOS DEL

CONDICIONAMIENTO OPERANTE
APETITIVO AVERSIVO Contingencia: relación de dependencia funcional entre dos

componentes de un condicionamiento, que se establece
CONTINGENCIA Refuerzo positivo: Castigo positivo:
cuando uno de los componentes correlaciona con el otro. En
POSITIVA La conducta provoca consecuencias La conducta provoca consecuencias
CO, hablamos de contingencia positiva cuando una respuesta
positivas. negativas.
La conducta La conducta es seguida de una consecuencia, y de contingencia negativa
CONTINGENCIA Entrenamiento de omisión o castigo Entrenamiento de escapa y evitación o cuando una respuesta elimina o previene la aparición de una
NEGATIVA negativo: reforzamiento negativo: consecuencia. Dependiendo del tipo de contingencia y de la
La conducta provoca la omisión de La conducta provoca la omisión de algo naturaleza apetitiva o aversiva de la consecuencia, se
algo bueno. malo. establecen los 4 procedimientos fundamentales de CO que
La conducta La conducta aparecen en la tabla.
 Reforzamiento positivo (entrenamiento de recompensa): tiene lugar en el momento en que una consecuencia apetitiva
se presenta de forma contingente a una respuesta, lo que provoca un aumento de la fuerza de la respuesta: su intensidad,
su frecuencia de aparición, etc. De esta forma, cuando el sujeto emite la conducta, se presenta un evento apetitivo. Si la
respuesta que queremos medir no está presente en el repertorio natural del animal, como presionar una palanca, se pude
Procedimientos destinados a emplear el moldeamiento o método de aproximaciones sucesivas: reforzar respuestas o conductas que se vayan
aumentar conductas aproximando a la respuesta final que queremos medir, y dejar de reforzarlas (extinguirlas) según vamos consiguiendo
respuestas más cercanas a nuestro objetivo.
 Escape y evitación (reforzamiento negativo): en el procedimiento de escape eliminamos o detenemos un evento
aversivo como resultado de una respuesta operante, por lo que la respuesta aumenta; en el procedimiento de evitación la
respuesta impide que se presente el evento de naturaleza aversiva. En laboratorio, es normal que estos dos
procedimientos se presenten de forma conjunta, aprendiéndose primero una respuesta de escape y luego de evitación.
 Castigo o castigo positivo: se aplica una consecuencia aversiva de forma contingente a la respuesta o conducta, y tiene
como resultado la disminución de la misma. La consecuencia aversiva se presenta cuando el sujeto emite la respuesta
operante, y no se presenta si no la emite. Para poder castigar una respuesta antes ha tenido que ser reforzada. Así, el castigo
Procedimientos destinados a consiste en la disminución de una respuesta previamente reforzada debido a la imposición de una contingencia de tipo
disminuir conductas aversivo sobre dicha respuesta.
 Entrenamiento de omisión o castigo negativo: tiene como resultado una disminución en la fuerza de la respuesta porque
se elimina o previene la aparición de una consecuencia apetitiva de forma contingente a la respuesta. Si el sujeto emite la
respuesta operante, la consecuencia será la no presentación de un evento apetitivo.
LA EXTINCIÓN EN EL
REFORZAMIENTO POSITIVO
Fenómenos que muestran

Fenómeno de que la extinción no es
extinción
desaprendizaje
La extinción en el CO es el procedimiento mediante el cual una respuesta que previamente se La extinción es un procedimiento en el que una respuesta
reforzaba, se deja de reforzar. anteriormente reforzada ya no produce reforzamiento,
Estallido de extinción: efecto de la extinción sobre la conducta que consiste en un aumento de la pero la posibilidad de emitir la respuesta sigue
tasa de respuesta los primeros ensayos en los que dejamos de presentar el reforzador que antes se disponible. Consiste en un nuevo aprendizaje por lo que
presentaba. Posteriormente la respuesta comienza a disminuir de forma gradual. no implica ni desaprendizaje ni olvido, como muestran
 Aumento de la variabilidad de la respuesta: efecto que ocurre al comienzo del procedimiento de los siguientes fenómenos:
extinción. Tiene una posible explicación adaptativa: la variación conductual aumenta las probabilidades Recuperación espontánea: fenómeno en el que se
de entrar de nuevo en contacto con el reforzador o con otras posibles fuentes de reforzamiento. observa cierta recuperación de la respuesta cuando
 Como consecuencia de la extinción es habitual encontrarse con un estado emocional que se suele dejamos pasar cierto tiempo sin que el sujeto sea
denominar frustración y que da lugar a que surjan respuestas emocionales incondicionadas, como la expuesto a sesiones de extinción.
agresión en humanos.  Renovación: consiste en la recuperación de la
 Resistencia a la extinción: las respuestas operantes que han sido reforzadas en pocas ocasiones se respuesta extinguida en un contexto diferente al que se
extinguen de forma lenta, pero cuando una respuesta ha sido reforzada en múltiples ocasiones llevó a cabo el procedimiento de extinción.
muestra menor resistencia a la extinción, sobre todo cuando en la fase de adquisición se ha utilizado  Restauración: se da cuando se vuelve a situar los
un programa de reforzamiento continuo (efecto de sobreentrenamiento en la extinción). La resistencia sujetos en el contexto original de la extinción.
a la extinción aumenta de forma importante cuando se utiliza un programa de reforzamiento parcial o  Restablecimiento: en este caso, después de extinguir
intermitente (efecto del reforzamiento parcial). la respuesta, el sujeto es expuesto de forma no
 Otras variables que influyen en la persistencia de la respuesta durante la extinción son la magnitud contingente al reforzador, lo que hace que la respuesta
del reforzador y la inmediatez de la recompensa. Cuando la magnitud de la recompensa durante la vuelva a aparecer sin que ésta dé lugar a reforzamiento.
adquisición es alta y se administra de forma continua, la resistencia a la extinción disminuye. Ocurre lo
contrario cuando las recompensas grandes se administran intermitentemente, como consecuencia del
efecto del reforzamiento parcial. Por otro lado, cuando la demora en la presentación del reforzador es
baja, la resistencia a la extinción es mayor.
FENÓMENOS DEL
La conducta La deriva instintiva y el concepto Los cambios en la cantidad y

supersticiosa de relevancia o pertinencia calidad de la recompensa
 Experimento de superstición (Skinner): ponía palomas en  Deriva instintiva: Tendencia de

cajas independientes y les daba comida cada 15 segundos El contraste conductual es un fenómeno, relacionado con la
algunos animales a mostrar motivación, que se basa en el hecho de que la efectividad de un
independientemente de lo que hicieran. Lo que observó es que respuestas instintivas que compiten
los animales actuaban como si su comportamiento controlara reforzador para controlar la conducta puede verse modificada
con la respuesta requerida cuando por la experiencia previa con el mismo reforzador cuando éste
la entrega del reforzador cuando no era así. Skinner explicó son entrenados mediante
este comportamiento mediante la idea del reforzamiento es de una magnitud o calidad diferente. Si aumente o disminuye
procedimientos de condicionamiento el reforzador, en relación a lo que percibíamos antes, tiene
accidental o adventicio, es decir, si una respuesta ocurre operante. consecuencias en nuestra conducta y emociones.
cuando se entrega el reforzador, esa conducta se ve reforzada.  Pertinencia o relevancia: se
 Experimento de Staddon y Simmelhag: encontraron que las  Contraste conductual positivo: se refiere al hecho de que los
refiere a que algunas respuestas se sujetos responden más a un reforzador favorable si
respuestas emitidas por los animales se podían agrupar en dos relacionarían de modo natural con el
categorías a las que llamaron conductas de ínterin y previamente han recibido un peor premio que si no han tenido
reforzador como consecuencia de la esta experiencia anterior.
terminales. Las conductas de ínterin eran aquellas actividades historia evolutiva del animal, por lo
del animal que tenían lugar en el medio del intervalo, cuando  Contraste conductual negativo: Se refiere al hecho de que
que serán más fáciles de condicionar los sujetos responden menos a un reforzador desfavorable si
faltaba bastante tiempo para la aparición del reforzador. Las que otras dependiendo del
conductas terminales eran aquellas que ocurrían al final del han recibido previamente un mejor premio que si no han tenido
reforzador que usemos. esta experiencia previa.
intervalo y próximas en el tiempo a la aparición del reforzador.
Argumentaron que no es el reforzamiento lo que origina un Grupo Fase 1 Fase 2 Resultado
aumento en la frecuencia de las conductas de ínterin, sino que
Grupo A (Pequeño- Recompensa Recompensa Misma
éstas son respuestas que un sujeto emite de forma innata pequeño) pequeña pequeña respuesta
cuando la probabilidad de reforzamiento es baja. Grupo B (Pequeño- Recompensa Recompensa Aumento de
 Herrstein. Diferenció entre: supersticiones idiosincráticas, grande) pequeña grande respuesta
que son aquellas motivadas por la experiencia propia anterior Grupo C (Grande- Recompensa Recompensa Misma
con situaciones de reforzamiento, y supersticiones sociales que grande) grande Grande respuesta
Grupo D (Grande- Recompensa Recompensa Disminución
las personas han mantenido a lo largo del tiempo.
pequeño) grande pequeña de respuesta
FENÓMENOS DEL
La controlabilidad de las Los efectos de la demora del

La devaluación del
consecuencias aversivas y el reforzamiento: el procedimiento
reforzador
efecto de indefensión aprendida de marcado
 Indefensión aprendida: cuando los animales son sometidos a  La demora del reforzamiento ocurre cuando existe un  Devaluación del reforzador:
situaciones en las que tienen poco o ningún control desarrollan periodo de tiempo entre la respuesta que da lugar al Procedimiento que consiste en
una reacción emocional en la que manifiestan un comportamiento reforzador y la entrega posterior del mismo. Puede disminuir asociar al reforzador que se está
pasivo ante dichas circunstancias o circunstancias parecidas. o aumentar la conducta, o incluso modificarla respecto al utilizando un estímulo o evento de
 Experimento: Para determinar el efecto de la indefensión aprendida reforzamiento no demorado. Hay que obtener una línea base naturaleza contraria.
Seligman y colaboradores realizaron un diseño triádico que se muestra de respuesta estable a partir de la cual poder observar los El efecto resultante de este
en la tabla. Se sometió a tres grupos de perros a diferentes situaciones efectos de la presentación demorada del reforzador. Cuando procedimiento es una disminución
experimentales con dos fases (fase de preexposición al entrenamiento la línea base es estable y se impone una demora,
escape/evitación y fase de aprendizaje). El grupo acoplado, el único que de la respuesta operante que ha
normalmente ésta da lugar a una reducción de la respuesta. sido reforzada con el reforzador
había recibido descargas inescapables durante la preexposición,
 Procedimiento de marcado: Es una forma de evitar los devaluado, aunque esta respuesta
mostraba un aprendizaje escape/evitación mucho más lento, ya que la
efectos de la demora en la entrega del reforzador. Este nunca haya sido contingente al
fase 1 había generado en los animales la expectativa de que su conducta
no tenía ningún efecto sobre las consecuencias aversivas. procedimiento consiste en marcar la respuesta haciendo que estímulo aversivo.
 Inmunización: proceso que se desarrolla cuando un sujeto ésta pueda diferenciarse de otros eventos que ocurren
tiene una primera experiencia con descargas escapables que durante el periodo de demora.
bloquea el desarrollo de la indefensión aprendida cuando se
presentan descargas inescapables en una fase posterior.
Grupo Fase de Fase de Resultado
preexposición aprendizaje conductual
escape/evitación
Escape Descargas Señal-descarga Aprendizaje
controlables rápido
Acoplado Descargas Señal-descarga Aprendizaje
incontrolables lento
Control Sin descargas Señal-descarga Aprendizaje
rápido
TEMA 5: PROGRAMAS Y TEORÍAS DEL REFORZAMIENTO
PROGRAMAS BÁSICOS DE REFORZAMIENTO: son la forma en que se programan los reforzadores en contingencia con la emisión de una respuesta
operante. Cada uno de ellos especifica una regla que determina las condiciones en las que una respuesta puede ser reforzada.
Programas de reforzamiento continuo: en ellos, Programas de reforzamiento intermitente o parcial:

cada respuesta correcta es reforzada (Ej.: sólo se refuerzan algunas respuestas que emite el
interruptor de la luz). sujeto, no todas. Producen un aprendizaje más
duradero y son más difíciles de extinguir.
Programas de razón: el reforzador Programas de intervalo: la respuesta se

depende sólo del número de respuestas refuerza sólo si ocurre cuando ha transcurrido
efectuadas por el sujeto. Es decir, se un cierto periodo de tiempo. Es decir, debe
debe emitir un número concreto de pasar un determinado tiempo desde la
respuestas antes de que la última de consecución del reforzador anterior antes de
ellas sea reforzada. que la respuesta sea reforzada de nuevo.
Programa de razón fija (RF): el Programa de razón variable (RV): Programa de intervalo fijo (IF): son Programa de intervalo variable
número de respuestas requerido requiere un número de respuestas aquellos que reforzarán la primera (IV): son aquellos donde varía la
para que se administre el que varía de una ocasión a la respuesta que ocurra una vez haya cantidad de tiempo a transcurrir
reforzador es siempre el mismo. Se siguiente, de manera irregular, transcurrido un tiempo siempre entre un reforzador y el
abrevia RF seguido del número de alrededor de un número promedio igual desde que se dispensó el siguientes antes de que la
respuestas requeridas (Ej.: RF-50). de respuestas por cada reforzador. último reforzador. Es decir, el respuesta sea reforzada, dando
El programa RF-1 sería un Ej.: en un programa RV-100 se intervalo de tiempo es constante. lugar a un valor promedio de
reforzamiento continuo, puesto que conseguirá el reforzador si en intervalo entre reforzadores. Es
sería reforzada cada respuesta. promedio se han emitido 100 decir, el periodo de tiempo varía
respuestas, pudiendo ser en unas de una recompensa a otra.
ocasiones más y en otras menos (el
valor medio es 100).
PROGRAMAS BÁSICOS DE REFORZAMIENTO  REGISTRO ACUMULATIVO. Cada una de los 4 programas básicos produce una ejecución conductual característica
que se puede observar en la forma en la que se distribuyen las respuestas, por medio de un registrador acumulativo. Este tipo de registro permite medir tanto el
número de respuestas como el número de pausas, el tiempo transcurrido entre ellas (TER: tiempo entre respuestas) o el tiempo total sin responder, siendo el
resultado una curva acumulativa continua que refleja las tasas de respuesta. Veamos el registro acumulativo de cada uno de los 4 programas:
Programa de razón fija (RF): Programa de razón variable (RV): Programa de intervalo fijo (IF): Programa de intervalo variable (IV):
 Tasas elevadas de respuesta, que se  Tasas de respuesta muy altas y  El intervalo de tiempo establecido  Ejecución con una tasa de
mantienen desde la primera respuesta constantes. solo indica cuándo está disponible el respuesta constante y estable, sin
después de haber obtenido el reforzador  Las pausas post-reforzamiento son reforzador, no cuándo se entrega. pausas (Ej.: la pesca).
hasta la siguiente respuesta reforzada. mucho menos probables que en los  Se caracteriza por una pausa post-  Tanto en los programas de IV como
Esta ejecución alta y estable ocurre programas RF, ya que el programa reforzamiento más o menos en los de IF el reforzador está
cuando la razón es relativamente impide que el sujeto adquiera una prolongada en función de la duración disponible hasta que se realice la
pequeña. impresión exacta del número de del intervalo, y por una progresiva respuesta, sin importar el tiempo que
 Cuando la razón es mayor (RF-50), se respuestas requeridas para obtener el aceleración posterior de la tasa de esto lleve. Sin embargo, hay ocasiones
observa una pausa post-reforzamiento reforzador (Ej.: máquinas respuesta en cada uno de los en las que se restringe el tiempo que
que se sigue de la transición casi tragaperras). intervalos, de manera que la tasa está disponible el reforzador, es decir,
instantánea de una tasa alta de respuesta mayor de respuesta se produce cerca se estipula un tiempo límite para
posterior (carrera de razón). del final del intervalo. Esta pauta de conseguirlo: esta clase de restricción
 Tensión de la razón: si se aumenta conducta se conoce como festoneado se llama duración limitada.
demasiado el valor de la razón, las pausas (Ej.: pautas de estudio en exámenes).
son más largas o, en casos extremos, el  La ejecución en un programa IF
sujeto puede dejar de responder. refleja la precisión del sujeto para
contar el tiempo.
PROGRAMAS DE RAZÓN VS PROGRAMAS DE

INTERVALO  FUNCIONES DE RETROALIMENTACIÓN.
Programas de razón vs Funciones de

programas de intervalo retroalimentación
 Semejanzas: los programas de RF e IF producen pausas post-reforzamiento  Funciones de retroalimentación: Son descripciones de las posibles relaciones
y tasas altas de respuesta tras la pausa; los programas de RV e IV mantienen existentes entre aspectos ambientales relacionados con la ocurrencia del
tasas estables de respuesta y no presentan pausas. reforzador (por ejemplo, su frecuencia de ocurrencia) y aspectos de ejecución
Diferencias: conductual (como puede ser, por ejemplo, la frecuencia de ocurrencia de la
 Cuando se igualan las tasas y patrones de reforzamiento, la tasa de respuesta). Por lo general en los programas de razón se encuentran funciones
respuesta suele ser mayor en los programas de razón que en los de intervalo. lineales, mientras que en los programas de intervalo se encuentran funciones
 En los programas de intervalo, la tasa de respuesta no influye directamente hiperbólicas. Las funciones de retroalimentación se corresponden con una
sobre la frecuencia de administración de los reforzadores (la tasa de explicación molar de las relaciones del ambiente con la conducta.
reforzamiento), mientras que la tasa de reforzamiento varía de manera directa
con los cambios en la tasa de respuesta en los programas de razón. En los programas de razón, la tasa de
 Posibles explicaciones a estas diferencias (Baum): reforzamiento que obtiene el sujeto es
1. Explicación molecular: los programas de intervalo (particularmente IV) proporcional a la tasa de respuesta
tienden a reforzar TER largos, porque el mero paso del tiempo lleva a un realizada. Cuando más rápido se
incremento en la probabilidad de reforzamiento. Dado que los programas IV se responda (menor requisito de razón),
generan TER largos, éstos se reforzarán y llegarán a predominar, reduciendo mayor tasa de reforzamiento. Como
así la tasa de respuesta. En los programas de razón (particularmente RV) es resultado se obtiene una función lineal.
más probable que el reforzador actúe sobre TER cortos, dada la tendencia de En los programas de intervalo, cuanto
los sujetos a responder en ráfagas. más corto es el programa, mayor
2. Explicación molar: en los programas de RV existe una correlación directa margen para que pequeños incrementos
entre la tasa de respuesta y la tasa de reforzamiento, por lo que la tasa de en tasas bajas de respuesta produzcan
respuesta tenderá a aumentar para maximizar la tasa de reforzamiento. En los incrementos importantes en la tasa de
programas IV, sin embargo, no existe ninguna relación entre la tasa de reforzamiento. Las funciones se aplanan
respuesta y la tasa de reforzamiento: por mucho que se incremente la primera a partir de una tasa de respuesta,
no variará la segunda. porque la tasa máxima de reforzamiento
viene establecida por el programa
TEORÍA Y PROGRAMAS DE REFORZAMIENTO

DIFERENCIAL DE LOS TIEMPOS ENTRE RESPUESTAS (TER).
Teoría del reforzamiento Programas de reforzamiento

diferencia de los TER diferencial de los TER
La teoría del reforzamiento diferencial de los TER se basa en que Este tipo de programas se diseñaron para probar que el reforzamiento diferencial de
los reforzadores no sólo refuerzan ejecutar una determinada los TER es posible, para lo que se refuerzan específicamente TER cortos y TER largos.
respuesta, sino que también refuerzan el hacerlo a un Se requiere que el sujeto responda a una tasa particular para obtener el reforzador. El
determinado ritmo, con un determinado espaciamiento entre reforzamiento de una determinada respuesta vendrá determinado en función del
respuestas. En todos los programas de CO se refuerzan tiempo transcurrido entre dicha respuesta y la respuesta anterior. El diseño básico de
específicamente TER de una duración determinada. estos programas es elegir un tiempo determinado y reforzar únicamente los TER que
 En los programas de razón los tiempos entre respuesta largos sean más largos o más cortos que ese tiempo.
posponen el reforzamiento. De hecho, cuanto más rápido  Reforzamiento Diferencial de tasas Bajas de respuesta (RDB): se refuerza una
complete el sujeto el requerimiento de la razón, más rápido respuesta sólo si ocurre después de que haya transcurrido cierta cantidad de tiempo
recibirá el reforzador. Por tanto, un programa de razón favorece desde la respuesta anterior. Así, el sujeto tiene que refrenar su respuesta hasta que
tiempos entre respuestas cortos y por consiguiente una tasa de ha pasado un cierto periodo de tiempo y, si no se consigue, se reinicia nuevamente el
respuestas alta. intervalo de tiempo especificado por el programa. Se refuerzan los TER largos.
 En los programas de intervalo la probabilidad de recompensa Ej.: estos programas se pueden encontrar en la coordinación de los pasos de baile o de
aumenta con tiempos entre respuestas más largos y esto implica los instrumentos musicales, donde cualquier aceleración en la conducta lleva a un
tasas de respuestas más bajas. resultado no reforzado (sino castigado).
 Reforzamiento Diferencial de tasas Altas de respuesta (RDA): se refuerza una
respuesta sólo si ocurre antes de que haya transcurrido cierta cantidad de tiempo
tras la respuesta precedente. Se refuerzan los TER cortos. Este procedimiento
fomenta, por tanto, tasas altas de respuesta.
Ej.: contestar un cuestionario con tiempo límite para cada pregunta, de manera que si
no se respondiese a una pregunta en el tiempo especificado se saltaría a la siguiente,
forzándose a responder antes de que venza el tiempo estipulado.
PROGRAMAS COMPUESTOS DE REFORZAMIENTO  PROGRAMAS ALTERNANTES Y SECUENCIALES. Los programas compuestos resultan de la aplicación de dos o
más programas básicos de reforzamiento y pueden dividirse en dos bloques: aquellos donde la presentación de los programas componentes es secuencial y
aquellos donde los componentes se presentan de forma simultánea. En primer lugar, veremos los programas secuenciales.
Programas compuestos secuenciales de reforzamiento: Hace referencia a la

Sin Ed Con Ed presentación en sucesión de al menos dos programas básicos de
reforzamiento, destacando los programas mixto, múltiple, tándem y
Alternantes Mixto Múltiple
encadenado, cuya diferencia radica en cómo se pasa de uno a otro de los
Secuenciales Tándem Encadenado
programas componentes (de forma alternante o estrictamente secuencial) y
si existe señal discriminativa para los mismos.
Programa mixto: se presentan dos o más programas básicos alternándose al azar. El cambio de un programa a otro de los
programas es independiente de la conducta del sujeto, ya que depende de la duración de un tiempo establecido con anterioridad
por el experimentador. Ej.: si cada componente dura 10 minutos, durante los 10 primeros puede estar funcionando un programa IF-
60 y en los 10 minutos siguientes va a funcionar el segundo programa, por ejemplo, RF-50 y al terminar su tiempo, volverá a
Programas empezar el programa IF-60 (así sucesivamente).
alternantes Programa múltiple: es igual que el mixto con la diferencia de que cada componente se señala con una clave discriminativa distinta
(luz, sonido…) y el sujeto es informado en todo momento de en qué parte del programa se encuentra. Si un Ed indica que las
respuestas pueden ser reforzadas de acuerdo a reforzamiento positivo, y un Ed diferente señala la imposibilidad de reforzamiento,
nos encontramos ante un programa donde se establece una discriminación entre n Ed positivo y un Ed negativo (E∆). El aprendizaje
consiste en emitir la respuesta en presencia del E+ y omitirla en presencia del E-.
Programa tándem: consta de al menos dos programas simples que se presentan siempre en el mismo orden. Los sujetos
experimentales deben completar el primer programa para poder iniciar el segundo, al final del cual consiguen la administración del
reforzador. En este programa, al contrario que en los anteriores, solo es posible conseguir el reforzador si se cumplen en sucesión
Programas todos los programas componentes. Completar uno de ellos sólo da lugar a la posibilidad de realizar el siguiente.
secuenciales
Programa encadenado: es igual que el tándem, pero en este caso cada uno de los programas simples está señalado de manera
diferente. Habitualmente la terminación del primer programa se acompaña del encendido de una luz o la presentación de un
sonido, que permanece en funcionamiento durante el segundo programa hasta el momento de la consecución del reforzador.
PROGRAMAS COMPUESTOS DE REFORZAMIENTO

 PROGRAMAS SIMULTÁNEOS
Programas Programas
concurrentes combinados
Son los más importantes y conocidos. Se caracterizan por disponer Consisten en combinaciones de un programa de razón y otro de intervalo, y
simultáneamente de al menos dos programas básicos de reforzamiento. En los existen al menos tres tipos:
programas concurrentes se puede cambiar de un programa a otro sin que  Programa alternativo: se refuerza una respuesta cada vez que se cumple con
normalmente haya sido necesario haber completado un tiempo o un número de el requisito del programa de razón o el de intervalo, existiendo así dos formas
respuestas en cada uno de los programas. Los sujetos experimentales, como de conseguir el reforzamiento.
consecuencia, deben elegir entre responder a uno u otro de los programas que  Programa conjunto: se refuerza una respuesta cada vez que se cumple al
componen el programa concurrente. De esta forma, los programas concurrentes mismo tiempo con el requisito de razón y del intervalo.
estudian los mecanismos de la conducta de elección (para ello, se mide el  Programa entrelazado: la respuesta que se refuerza viene determinado por
número de respuestas en cada uno de los componentes del programa y se dos programas, pero la disposición de uno de ellos se altera por el desarrollo del
calcula la proporción en que se distribuyen las respuestas en cada uno de ellos). otro. Una posibilidad es que cierta suma de respuestas y de tiempo debe darse
antes de que la respuesta sea reforzada.
RESUMEN: CLASIFICACIÓN GENERAL DE LOS PROGRAMAS COMPUESTOS.

MIXTO
SECUENCIALES
PROGRAMAS MÚLTIPLE
COMPUESTOS
SECUENCIALES TÁNDEM
ALTERNANTES
PROGRAMAS ENCADENADO
COMPUESTOS
PROGRAMAS CONCURRENTES
COMPUESTOS
SIMULTÁNEOS COMBINADOS  ALTERNATIVO, CONJUNTIVO Y ENTRELAZADO.
CONCUTA DE
ELECCIÓN
Estudio y medida de la La ley de igualación

conducta de elección (Herrnstein)
La conducta de elección se ha estudiado:  Esta teoría formula que la tasa relativa de respuesta relativa entre dos
 Tradicionalmente, utilizando un procedimiento de premios concurrentes: alternativas concurrentes (disponibles al mismo tiempo) es igual a la tasa (o
- Se daba a elegir entre dos actividades diferentes. frecuencia) relativa de reforzamiento en cada una de ellas. Dicho de otro modo:
- Se medía el tiempo que el animal empleaba en cada una de las opciones. si tenemos dos posibilidades de respuesta, cada una con un programa de
- Se inferían las preferencias relativas de los sujetos, en base a los resultados que reforzamiento diferente, hay que elegir cómo responder a ellas. Por tanto, voy a
se obtenían. repartir mi tiempo y esfuerzo en proporción a lo que pueda conseguir de cada
- Este tipo de procedimiento no es adecuado porque se están comparando entre una de ellas: esto implica que, si de uno de los programas podemos sacar más
sí actividades que requieren dos respuestas distintas. reforzamiento que del otro, lógicamente, nos dedicaremos más a él.
 Actualmente, se utilizan los programas concurrentes: en ellos, se aplican dos  Matemáticamente, esto se representa con la siguiente fórmula:
programas de reforzamiento a la vez y el sujeto debe elegir entre las distintas
alternativas, que requieren una respuesta operante idéntica. La conducta de
elección se refleja en la distribución de las respuestas en las dos opciones
alternativas, de forma que el sujeto distribuirá sus respuestas entre las dos Ra/Rb = tasas relativas de respuesta en las alternativas a y b respectivamente.
opciones en función del programa de reforzamiento de cada una de ellas. Fa/Fb = tasas relativas de reforzamiento en las alternativas a y b.
 La medida de la conducta de elección se realiza mediante la tasa relativa de
respuesta en cada una de las alternativas (se puede realizar del mismo modo con  Si en la alternativa a se ofrece una mayor frecuencia de reforzamiento que en la
la tasa relativa de reforzamiento). b también se dará un mayor número de respuestas en esta alternativa y viceversa.
 Si los reforzadores se distribuyen por igual en las dos alternativas, las
Ra = tasa relativa de respuesta en la alternativa a. respuestas también se distribuirán al 50% entre las dos alternativas.
Rb = tasa relativa de respuesta en la alternativa b.  Existen también otros parámetros del reforzador que se pueden igualar
(frecuencia, magnitud, demora…).
La razón será R=0,5  Si el sujeto elige igualmente entre las dos opciones.  Maximización: comportamiento adaptativo que implica elegir en exclusiva la
La razón será R>0,5  si la tasa de respuesta en a es mayor que en b. alternativa más favorable, para ahorrar tiempo y esfuerzo (entre dos programas
La razón será R<0,5  si la tasa de respuesta en b es mayor que en a. de razón diferentes, siempre se elige la alternativa que tiene la razón más baja).
CONCUTA DE ELECCIÓN  LEY

GENERALIZADA DE LA IGUALACIÓN
Sesgos en el estudio de la Ley generalizada de

igualación la igualación (Baum)
 Cuando se tiene que elegir entre dos alternativas de respuesta, se suele  Baum amplió la ley de igualación para corregir los sesgos e incorporar las
producir un comportamiento de alternancia, caracterizado por el cambio desviaciones por sobreigualación e ingraigualación, de forma que la fórmula
intermitente de una alternativa de respuesta a otra sin que guarde relación quedó de la siguiente forma:
con los reforzadores asociados a cada una de dichas alternativas. Para evitar
esta influencia no deseable en los laboratorios de psicología del aprendizaje,
donde se pretende estudiar el comportamiento de elección guiado
simplemente por las consecuencias del reforzamiento en las diferentes K = sesgo de respuesta. Si no existe sesgo k=0, si hay sesgo k>1 o k<1
alternativas, se ha recurrido a un procedimiento denominado demora por el dependiendo del sesgo del que se trate.
cambio (DPC). Este procedimiento consiste en introducir un periodo S = sensibilidad a las tasas relativas de reforzamiento.
temporal breve (2 o 3 segundos), después de la primera respuesta a una de
las alternativas, antes de que pueda entrar en funcionamiento el programa Si s y k fueran 1, la fórmula se reduciría a la de Herrnstein (no hay influencia de
de reforzamiento asociado a dicha alternativa. Si los sujetos persisten en su sesgos). Hay veces en las que el animal no actúa conforme a la ley de igualación
comportamiento de alternancia, y se ha introducido la contingencia de DPC, y le dedica más o menos respuestas a una alternativa (siempre la MÁS
no podrían obtener ningún reforzador en ninguna de las alternativas de VENTAJOSA) de las que la ley formula: fenómenos de infraigualación y
respuesta. La consecuencia normal en estos casos es que los sujetos sobreigualación.
abandonen su comportamiento de alternancia.  Igualación perfecta: s=1.
 Otros de los sesgos más frecuentes en los experimentos de elección  Infraigualación: s<1. Cuando el animal responde menos de lo previsto por la
realizados en laboratorio son: la disposición espacial de las alternativas de igualación en el programa más ventajoso (sensibilidad reducida a las tasas
respuesta, el color y la iluminación de dichas alternativas o la fuerza relativas de reforzamiento).
requerida para responder en cada una de ellas. En un programa concurrente  Sobreigualación: s>1. Cuando la mejor alternativa es valorada por encima
de reforzamiento se requiere que las alternativas de respuesta difieran de lo que predice la igualación (responden más) (mayor sensibilidad a la tasa
exclusivamente en las características de reforzamiento. relativa de reforzamiento).
CONCUTA DE
ELECCIÓN
¿Cómo realizamos los cálculos?: Deducir las

tasas relativas de respuesta y reforzamiento y
cuándo hay infraigualación o sobreigualación.
 Cuando el programa concurrente está compuesto exclusivamente por programas de razón. En este caso, lo que ocurre es que al elegir la opción más ventajosa la otra
se descarta del todo (maximización). Por ejemplo, imaginemos que tenemos 2 palancas, la palanca A con un programa de RF5 y la otra, la B, con un programa de RF10. Si
damos, por ejemplo, 20 respuestas: en la palanca A obtendría 4 reforzadores (un reforzador cada 5 respuestas), mientras que en la B obtendríamos solamente 2
reforzadores (un reforzador cada 10 respuestas). Así, sin con el mismo número de respuestas voy a obtener más recompensa en la palanca A, paso totalmente de la B (no
me interesa gastar tiempo o energía en ella). Por tanto, la tasa relativa de respuesta y/o reforzamiento sería 1 para la palanca A y 0 para la palanca B.
 En el caso de programas concurrentes formados por programas de intervalo, el sujeto dará un mayor número de respuesta a la opción más ventajosa, en función de
los reforzadores que puede conseguir, pero no obvia por completo la otra opción. Imaginemos la palanca A con un programa IF5, y la palanca B con un programa IF10: lo
primero que tenemos que hacer es deducir qué opción es la más ventajosa, en este caso sería la A (obtendríamos 6 reforzadores  uno cada 5 min), mientras que en la
palanca B solo obtendríamos 3 reforzadores (1 cada 10 min). Así, la tasa de reforzamiento se calcula dividiendo los reforzadores que consigo en cada opción sobre el total
de reforzadores (9 para este caso). Por lo tanto:
Fa = 6/9= 0,66; Ra= 0,66 (la tasa de respuesta es igual que la de reforzamiento, de acuerdo a la ley de igualación) y Fb= 3/9=0,33; Ra=0,33. En caso de que en el problema
no nos diesen el tiempo total, podemos poner el que queramos pues el resultado será siempre el mismo. En este ejemplo, por tanto, nos dedicaríamos en un 66% a la
palanca A que es la más ventajosa, y en un 33% a la palanca B.
 Para saber si existe sobreigualación o infraigualación. Para el ejemplo anterior de IF, tenemos un Fa=0,66, si por ejemplo nos dicen que la Ra de un animal en A es
0,75 estaremos ante una sobreigualación (el animal responde más de lo esperado); si nos dicen que la Ra es de 0,50 sería infraigualación (el animal responde menos de lo
esperado). OJO: para hacernos picar, pueden darnos los datos de la opción menos ventajosa (esto no nos sirve, SIEMPRE necesitamos los de la más ventajosa). Así, si nos
diesen los datos Fb=0,40 y Rb=0,50 lo primero que tenemos que hacer es apuntarnos los datos de A: como el tope 1, sería Fa=0,60 y Ra=0,50. Visto de la siguiente
manera es más claro:
Palanca B:
Fb=0’40
Rb=0’50
TEORÍAS DE LA LEY DE
IGUALACIÓN
Aproximación Aproximación Mejoramiento

molecular molar
 Los sujetos eligen cualquier alternativa de respuesta  Los sujetos distribuyen sus respuestas entre  La teoría del mejoramiento puede considerarse una
con mejores probabilidades de obtener un reforzamiento las diferentes alternativas con el fin de síntesis entre las aproximaciones molecular y molar.
en ese momento (probabilidad momentánea). maximizar la cantidad de reforzamiento total.  Esta teoría asume que los sujetos cambian de una
 Afirma que el cambio de una alternativa de respuesta a  Los animales distribuyen sus respuestas de alternativa a otra para mejorar la tasa local de
otra se realiza en el momento en que la probabilidad acuerdo a un cálculo global de las tasas reforzamiento. Así, eligen la alternativa que en cada
momentánea de reforzamiento sea mayor en la otra relativas de reforzamiento entre las dos momento presenta mejor tasa local de reforzamiento (nº
alternativa. alternativas de respuesta, eligiendo más la que de respuestas o reforzadores/tiempo dedicado a
 Explica bastante bien la distribución de respuestas en proporciona una mayor tasa de reforzamiento. responder).
programas concurrentes de intervalo, donde los animales  Esta teoría se formuló para explicar la  Intrínseco a la teoría del mejoramiento es la igualación
podrían responder de muchas maneras, pero lo hacen de elección en programas concurrentes de razón. temporal:
forma muy aproximada a como predice la teoría.  Dificultades: no puede explicar la conducta - Al elegir la alternativa que proporciona un mejor
de elección en los programas RV-IV; dificultad reforzamiento: darán una mayor tasa de respuesta,
para explicar por qué los animales prefieren obtendrán una mayor tasa de reforzamiento y
reforzadores variables a fijos, aunque se permanecerán más tiempo en esa alternativa.
ofrezca igual tasa de reforzamiento. - Responderán menor a la alternativa menos favorable, se
obtendrán menos reforzadores, pero también
permanecerán menos tiempo en esa alternativa.
 Por lo tanto, las tasas locales de respuesta y de
reforzamiento serán iguales en las diferentes alternativas
de respuesta
IMPULSIVIDAD Y AUTOCONTROL: PROGRAMAS CONCURRENTES ENCADENADOS. Procedimiento de reforzamiento complejo, en el que se permite
al participante elegir cuál de varios programas simples de reforzamiento funcionará. Una vez realizada la elección, las alternativas rechazadas no
estarán disponibles durante algún tiempo. Constan de, al menos, dos fases.
 1ª fase: eslabón de elección. El sujeto elige entre dos opciones de

respuesta idénticas.
 2ª fase: eslabón terminal. Programa de reforzamiento.
 Características: la oportunidad de obtener el reforzamiento se da sólo en el
eslabón terminal; estos programas implican una elección con compromiso
(una vez realizada una elección, el sujeto está comprometido con esa elección
hasta el final del eslabón terminal); la consecuencia de responder en el
eslabón inicial es un estímulo asociado con el eslabón terminal que se
convierte en reforzador condicionado; los sujetos igualan la tasa relativa de
respuesta con la tasa relativa de reforzamiento en los eslabones terminales;
también igualan la tasa relativa de respuesta en el eslabón inicial con la tasa
relativa de reforzamiento en el eslabón terminal.
 El autocontrol se trata de elegir una recompensa grande pero demorada sobre

una recompensa pequeña e inmediata (impulsividad).
 Los procedimientos usados en los estudios de autocontrol han sido:
1. Procedimiento de elección directa (programa concurrente simple): se prefiere
la recompensa pequeña inmediata. No se muestra autocontrol. La inmediatez del
reforzador influye más en la elección del sujeto que la magnitud del mismo.
2. Programa concurrente encadenado: si se impone un tiempo de demora
suficiente antes del componente terminal se muestra autocontrol, es decir, se
prefiere la recompensa grande demorada.
 Si se impone una demora constante a la entrega de ambas recompensas, es
más probable que los sujetos muestren autocontrol y prefieran la recompensa
grande demorada. Esto es porque demorar un poco la entrega del reforzador
pequeño hace que su fuerza se debilite y se prefiere esperar a uno de mayor
magnitud. El valor de un reforzador se reduce en función del tiempo que se tiene
que esperar para obtenerlo (Rachlin y Green).
TEORÍAS E-E TOLMAN.
TEORÍA DE LA PRIVACIÓN DE RESPUESTA
TEORÍAS DEL APRENDIZAJE INSTRUMENTAL

 TEORÍAS ASOCIACIONISTAS
Teorías E-R Teorías E-E
 Thorndike: su aportación fue la formulación de la Ley del efecto. Postula que la  Tolman: para Tolman los reforzadores no actúan directamente sobre la
asociación entre la situación ambiental (E) y la respuesta (R) depende de la propia asociación E-R, sino que la conducta está mediada por eventos internos como las
consecuencia de la acción, por tanto, el papel del reforzador es crear la asociación expectativas de recompensa.
E-R. Si la consecuencia es positiva para el sujeto, la respuesta tenderá a repetirse, Distinguió entre aprendizaje y ejecución. El reforzador no es necesario para el
pero si no lo es, tenderá a desaparecer. aprendizaje, pero sí para la ejecución.
 Guthier: la función del reforzador es facilitar la formación de una asociación
entre E-R. Fue el primero en diferenciar entre actos y movimientos.
 Hull: la consecución del reforzador refuerza la formación de una asociación E-R
debido a una reducción del impulso (necesidad biológica), al tiempo que incita a la
acción (incentivo). La ejecución conductual va a depender de la fuerza del hábito,
del nivel del impulso y del valor del incentivo.
TEORÍAS DEL APRENDIZAJE INSTRUMENTAL

 TEORÍAS DE SELECCIÓN DE RESPUESTAS
Teoría de la probabilidad Teoría de la privación

diferencial (Premarck) de respuesta
 Premarck: “Dadas dos respuestas en un procedimiento de condicionamiento  La restricción de la respuesta reforzadora es el factor crítico para el
instrumental, la respuesta más probable reforzará a la menos probable y la reforzamiento instrumental.
respuesta menos probable no reforzará a la más probable”.  Los programas de reforzamiento incrementarán la ocurrencia de una respuesta
 Principio de Premarck: el efecto del reforzamiento se basa en la probabilidad operante por encima de su línea base, si y solo si dichos programas privan al
diferencial de 2 actividades y tiene un gran poder predictivo: individuo de realizar la respuesta reforzadora.
- Primero se observa la probabilidad o preferencia de dos actividades cuando el  Para que una actividad pueda funcionar como reforzador hay que restringir la
sujeto no está limitado (establecimiento de la línea base). realización de dicha actividad en relación con su punto de bienestar (línea base),
- Segundo se establece una relación de reforzamiento en la que la actividad pero no es necesario que tenga que ser la más preferida.
preferida (A) se limita, y debe ocurrir solo de forma contingente con la realización  Predice que la tasa de respuesta y la tasa de reforzamiento deben relacionarse
de la actividad menos preferida (B) (Actividad preferida: reforzador/ actividad en forma de U invertida en vez de forma lineal: a medida que disminuye la
menos preferida: instrumental). frecuencia de reforzamiento, la tasa de respuesta instrumental aumenta (porque
- Resultado: la actividad reforzada ocurre a menor probabilidad que en el beneficio de obtener el reforzador compensa el hecho de responder más) pero
condiciones de libre acceso y la actividad instrumental aumenta su probabilidad de si posteriormente aumenta el requisito del programa y baja más la frecuencia de
ocurrencia. reforzamiento, el coste de responder no compensa, por tanto, disminuyen las
- Ej.: podrás ver la tele (A), cuando hayas recogido los platos (B). respuestas.
TEMA 6: CONTROL DE LA CONDUCTA POR EL ESTÍMULO
Control Los estímulos de control en el CC son: los estímulos

Pavloviano incondicionados (EI) para las respuestas reflejas (RI) y los
CONTROL POR EL ESTÍMULO: hace referencia a la explicación de estímulos condicionados (EC) para las respuestas elicitadas (RC).
un comportamiento por la aparición de algún evento anterior
Los eventos de control en la conducta operante son los estímulos
(causa). Este evento causal funciona como un estímulo de
discriminativos (Eds):
control sobre la conducta.
 Estímulos discriminativos positivos (Ed+ o E+): aquellos que
mantienen una contingencia positiva con el reforzamiento de la
Control conducta, mediante el entrenamiento de recompensa o el de
Operante escape/evitación. Aumentan la probabilidad de que se produzca
la conducta.
 Estímulos discriminativos negativos o estímulos delta (E- o
E∆): aquellos que son contingentes con el castigo, con el
enteramiento de omisión o con la extinción de la conducta.
Disminuyen la probabilidad de que se produzca la conducta.
 Un mismo Ed puede modificar la probabilidad de emisión de varias conductas, es decir, no son exclusivos. De la misma
forma, una conducta puede estar bajo el control de diferentes Eds.
 La presencia de un Ed no modifica la probabilidad de cualquier operante, solo de aquellas con las que ha mantenido
Característiacas de los alguna relación de contingencia con su reforzamiento, castigo o extinción.
estímulos discriminativos.  La presencia de un Ed no implica la aparición de un reforzador o estímulo aversivo por sí mismo, indica que existe una alta
o baja probabilidad de que tras emitir la conducta ésta sea reforzada o castigada.
 Si una conducta está bajo el control de un Ed+, debe de haberse condicionado también uno o más Ed- para esa misma
conducta, y a la inversa. (Ej.: decir papá  E+: padre; E-: resto de personas).
 Igual que el control de un EC puede extinguirse, el control de un discriminativo también si la conducta deja de ser
contingente con la consecuencia.
 Perspectiva funcional: un estímulo puede ser cualquier evento siempre y cuando su presencia produzca alguna reacción en
el sujeto, es decir, que su presencia produzca la emisión de una conducta.
Perspectivas sobre los  Perspectiva estructural o topográfica: basada en las propiedades físicas del estímulo. Un estímulo puede ser exteroceptivo
estímulos si proviene del medio externo, o interoceptivo si proviene del medio interno (latido del corazón). Los estímulos propioceptivos
son aquellos generados por la posición y el movimiento del cuerpo. Por último, los relacionales son aquellos que dependen de
la conexión que mantienen entre sí dos o más elementos. Según esta perspectiva los estímulos están compuestos por rasgos o
propiedades: todos los estímulos comparten algún rasgo y se diferencian de los demás en algún otro.
GENERALIZACIÓN Y
DISCRIMINACIÓN
Generalización Discriminación
Cuando un estímulo adquiere cierto control sobre la conducta (EI, EC o Ed) todos No siempre lo adaptativo es responder de la misma forma ante estímulos
los rasgos que lo componen adquieren cierto grado de control, unos más que diferentes (generalizar), ya que en ocasiones pequeñas diferencias entre
otros. Esto implica que cualquier estímulo que comparta alguno de esos rasgos, estímulos pueden tener consecuencias completamente diferentes. La
aunque no se haya tenido experiencia previa con él, también puede ejercer discriminación consiste en responder de manera diferente ante estímulos
cierto control sobre esa conducta del sujeto, y cuántas más o menos propiedades diferentes, y esta capacidad requiere entrenamiento. A este entrenamiento se le
compartan, el control será más o menos parecido al que ejerce el estímulo denomina condicionamiento discriminativo o reforzamiento diferencial, y al
original que se ha condicionado. Este fenómeno se denomina generalización del comportamiento resultante conducta discriminativa o respuesta diferencial.
estímulo y sus características son:  Hay dos tipos de entrenamiento discriminativo: por control pavloviano y por
 Es una respuesta similar a dos o más estímulos semejantes, pero diferentes control operante.
del estímulo original.
 Es una capacidad innata.
 Tiene valor adaptativo: nos permite comportarnos de manera efectiva ante
estímulos nuevos.
 El control por el estímulo es un continuo en cuyos extremos se encuentran la generalización y la discriminación, en posiciones
opuestas. Esto significa que cuando un sujeto está demostrando una alta generalización también podría etiquetarse como una baja
discriminación, y la inversa.
 La generalización no es más adaptativa que la discriminación, ni al contrario. Que una cosa u otra sea más adaptativa que la otra
va a depender de las exigencias del ambiente.
 La generalización y la discriminación se pueden producir con todos los estímulos que ejercen control sobre la conducta, incluido
los estímulos discriminativos.
LOS GRADIENTES DE GENERALIZACIÓN: es la representación gráfica de la relación sistemática entre la semejanza de los estímulos
generalizados con el estímulo original y la cantidad de control que ejercen sobre la conducta.
Métodos de medición del Tipos de gradientes de

control por el estímulo generalización
El control que un estímulo no entrenado (estímulo de prueba o generalizado) ejerce sobre una Características de los gradientes de generalización:
conducta es directamente proporcional a su semejanza con el estímulo que adquirió ese control  Sirven para medir el control por el estímulo.
durante un proceso de condicionamiento (E+ o E- original o criterio). Esta relación se puede  Cuanto más acusado sea el gradiente de respuesta, mayor
comprobar a través de varios métodos: discriminación.
 Estímulo único: consiste en entrenar a varios grupos de sujetos para que un estímulo  Cuanto más plana es la pendiente, más generalización.
adquiera cierto control (convirtiéndolo en E+ o E-) y después exponer a cada grupo a un estímulo  Gradientes excitatorios: la exposición a estímulos generalizados
de prueba diferente, en cuanto a su parecido con el estímulo original. Comparando la respuesta semejantes a discriminativos positivos o ECs excitatorios generan
de los grupos ante el estímulo de prueba, se observa que cuanto mayor es el parecido de éste gradientes con forma de U invertid, en los que la mayor cantidad de
con el estímulo original mayor es la fuerza de la respuesta. Ventajas: evitan la posible influencia respuestas se observa en los valores cercanos al E+ original y van
en la R por la experiencia con varios E de prueba; Inconvenientes: son más costosos. decreciendo según se alejan de él.
 Estímulos múltiples: el estímulo criterio se presenta junto a otros diferentes, uno cada vez y  Gradientes inhibitorios: son el resultado a la exposición a
en extinción. Se mide la fuerza de la respuesta ante las combinaciones entre el estímulo original estímulos de prueba semejantes a estímulos discriminativos
y los estímulos de prueba en cada sujeto. Ventajas: cada sujeto experimenta todas las positivos o a ECs inhibitorios. El gradiente tiene forma de U y suele
combinaciones de estímulos original-prueba; Inconvenientes: el orden en que son presentados ser menos inclinado. En ellos, el número de respuestas registrado va
puede alterar la fuerza de la respuesta ante los otros estímulos. aumentando a medida que el estímulo de prueba presentado se
 Generalización mantenida: se alternan ensayos reforzados con el estímulo criterio con el diferencia más del E- original.
estímulo de prueba en extinción. El sujeto tiene experiencia con todos los estímulos de prueba
generalizados varias veces y en orden aleatorio. Ventajas: los sujetos experimentan todas las
combinaciones estímulo original-prueba; Inconvenientes: al alternar ensayos reforzados del E+
con ensayos en extinción de los E de prueba favorece la discriminación y el gradiente presenta
una menor generalización.
Método Entrenamiento Prueba

Estímulo único EC-EI E1/E2/E3/…
Estímulos múltiples EC-EI EC+E1, EC+E2, EC+E3…
Generalización mantenida EC-EI, E1, EC-EI, E2, EC-EI…
CONTROL CONDICIONAL. Ocurre cuando el control que ejercen ciertos estímulos sobre nuestra conducta está matizado, o depende de la
presencia de otros eventos. El control condicional implica la adición de un nuevo término a la contingencia mínima.
Modulación (control Discriminación condicional

condicional pavloviano) (control condicional operante)
 Los pioneros del estudio del control condicional en el CC fueron Rescorla y  Las discriminaciones condicionales se definen como aquellas situaciones de
Holland. Empezaron a estudiarlo casi simultáneamente, por lo que hay cierta control operante en las que la función del Ed (como positivos o negativos)
duplicidad de términos para referirse al estímulo de control condicional. Rescorla depende de la presencia de otro evento, denominado estímulo condicional. En
lo denominó “facilitador” y Holland “establecedor de la ocasión”. michas ocasiones a los estímulos condicionales se les llama muestras y a los
 En una situación de modulación la contingencia que mantienen el EC y el EI estímulos discriminativos comparaciones.
depende de la aparición de un estímulo anterior. Ej.: si tras una luz, la aparición  La contingencia operante en este tipo de situaciones aumenta de tres (Eds-
de un sonido va seguida de comida, pero en ausencia de la luz el mismo sonido no respuesta-consecuencia) a cuatro términos (Eds-R-C-E. Condicional). Ej.: en el
va seguido de comida, la luz terminará modulando la función del sonido como EC siguiente ejemplo, la presencia del estímulo condicional 1 convierte al Ed1 en un
excitatorio apetitivo. discriminativo positivo para la conducta R, y al Ed2 en un discriminativo negativo para la
Luz-sonido(EC)  Comida (EI) // no luz-sonido(EC)  No comida (EI) misma conducta. Sin embargo, el estímulo condicional 2 convierte al Ed1 en un
Luz-no sonido (EC)  no comida (EI) // no luz-no sonido  comida (EI) discriminativo negativo, y al Ed2 en discriminativo positivo. Así, si consideramos un
interruptor de la luz como Ed para la conducta de pulsar, hemos de considerar que su
 El estímulo que señala la relación/contingencia entre el EC y el EI (en el
función depende de otros factores, como que la luz ya esté encendida o sea de día: en
ejemplo la luz) se caracteriza por: no elicita por sí mismo respuestas excitatorias
presencia de la luz (EC1) el interruptor (Ed1) cumple funciones de Ed- para la conducta de
ni inhibitorias, no mantiene ninguna relación de contingencia con la aparición del pulsar; en presencia de la oscuridad (EC2) sus funciones serían de Ed+.
EI y este modulador no es extingue.
 El estímulo condicional por sí solo no controla ninguna respuesta, sino la

interacción entre el condicional y el discriminativo.
 Capacidad sensorial.
RELACIONADOS CON LOS  Facilidad relativa de condicionamiento de los elementos de un compuesto.
ESTÍMULOS  Modalidad sensorial.
 Discriminabilidad.
 Intensidad de los estímulos discriminativos.
 Aprendizaje de rasgo positivo.
 Relación respuesta-reforzador.
RELACIONADOS CON LA RESPUESTA  Respuesta de observación a la muestra.
 Respuesta diferencial.
FACTORES QUE AFECTAN AL CONTROL RELACIONADOS CON LA  Disposiciones de aprendizaje.
POR EL ESTÍMULO EXPERIENCIA PREVIA  Efecto de sobreaprendizaje en la inversión.
 Experiencia de reforzamiento no diferencial.
 Tipos de entrenamiento discriminativos.
 Eficacia relativa de los elementos del estímulo como señales para el
reforzamiento.
 Tipo de reforzamiento.
RELACIONADOS CON EL
 Consecuencia diferencial.
ENTRENAMIENTO DISCRIMINATIVO  Duración del intervalo entre ensayos.
 Grado de entrenamiento.
 Entrenamiento en discriminación “sin errores”.
 Intervalo entrenamiento-prueba.
 Capacidad sensorial: es necesario que el estímulo que se presenta pueda ser percibido por los sentidos. La parte de la realidad ante la que
podemos reaccionar es como máximo aquella para la que nuestros órganos sensoriales están preparados, y hay sonidos, olores y colores que
están fuera del rango de audición, olfato y vista humano que no funcionan como estímulo para nosotros, pero sí para otras especies.
 Facilidad relativa de condicionamiento de los elementos de un compuesto: los estímulos pueden competir por el control de la conducta y
los más salientes o intensos dificultarán el condicionamiento de los más débiles (Ensombrecimiento).
 Modalidad sensorial: hay una gran variedad de estímulos que pueden utilizarse con éxito en los estudios, pero los más comunes con
Factores relacionados animales han sido los visuales (teclas iluminadas de distintos colores o con líneas en distintas orientaciones).
con los estímulos  Discriminabilidad: cuanto mayor son las diferencias físicas de los estímulos, más sencillo es discriminarlos. Las influencias ambientales
(factores inherentes a las situaciones experimentales) también influyen en la discriminabilidad.
 Intensidad de los estímulos discriminativos: la intensidad de los Eds entrenados afecta a los gradientes de generalización, haciéndolos
menos simétricos y desplazando el máximo de respuesta ante un valor diferente al Ed+ original. Los gradientes generados por estímulos de
prueba intensos suelen ser una función monotónica (creciente cuando el Ed+ es más intenso que el Ed-, y decreciente en el caso inverso).
 Aprendizaje del rasgo positivo: cuando el elemento predictivo único que distingue al E+ del E- forma parte físicamente de la presentación
del E+, los sujetos aprenden mejor que cuando el rasgo distintivo forma parte de la presentación del E-.
 Relación respuesta-reforzador: se tiende a elegir la respuesta congruente con el sistema. Ej.: experimento de Dobrezcka, en el que se entrenaba a
perros en discriminación drcha.-izda./actuar-no actuar mediante estímulos auditivos que diferían tanto en su posición (delante/detrás) como en su
naturaleza (zumbador/metrónomo). Demostraron que es más probable que las respuestas que están diferenciadas por la localización (drcha./izda.)
Factores queden bajo el control de la distinta posición de los Ed (delante/detrás) y que las respuestas que estén diferenciadas por su naturaleza queden bajo el
relacionados control del tipo de estímulo (zumbador/metrónomo).
con la respuesta  Respuesta de observación a la muestra: establecer como requisito una respuesta de observación a la muestra facilita el aprendizaje de las
discriminaciones condicionales. Se considera requisito de observación a la muestra cuando se refuerza alguna conducta del sujeto orientada al estímulo
condicional. Ej.: retener los estímulos de comparación hasta que el sujeto toque la muestra.
 Respuesta diferencial: el aprendizaje de la discriminación diferencial es más rápido cuando se requieren respuestas diferentes para cada E muestra.
 Disposiciones de aprendizaje: la discriminación de nuevos estímulos mejora si se administra de antemano un entrenamiento previo de discriminación
con otros estímulos. La experiencia con cualquier problema de discriminación favorece las habilidades generales de resolución de problemas que ayudan
Factores al organismo a afrontar un problema difícil posteriormente. La generalización de la discriminación aprendida puede ser: intradimensional (cuando se
relacionados con alterna la misma dimensión del estímulo. Ej.: Tarea 1  discriminar rojo-verde; Tarea 2  discriminar azul-amarillo) o extradimensional o
la experiencia interdimensional (cuando implica estímulos en otra dimensión estimular. Ej.: Tarea 1  discriminar dos colores; Tarea 2  discriminar dos sonidos).
previa  Efecto del sobreaprendizaje en la inversión: el sobreentrenamiento en una discriminación dada favorece el aprendizaje en la discriminación inversa.
 Experiencia de reforzamiento no diferencial: el reforzamiento no diferencial puede afectar a aprendizajes anteriores con estímulos distintos. El
reforzamiento diferencial o entrenamiento discriminativo potencia la atención y reduce la generalización.
 Tipos de entrenamientos discriminativos: simultáneo (E+ y E- aparecen a la vez en cada ensayo; E+ es contingente con el reforzamiento y E- con la
extinción o castigo; se acaba respondiendo exclusivamente sobre el E+; un ejemplo es el programa concurrente), sucesivo o procedimiento de
discriminación de respuesta/no respuesta (“go-no go”) (los estímulos no aparecen al mismo tiempo; se acaba respondiendo en los ensayos en los que
está presente el E+ y no haciéndolo en los que está el E-; un ejemplo es el programa múltiple).
 Eficacia relativa de los elementos del estímulo como señales para el reforzamiento: Los Ed señalan la forma o el momento en que se va a producir
Factores el reforzamiento. Si en un compuesto, un E es mejor predictor de la disponibilidad de reforzamiento que otro, es más probable que adquiera el control
relacionados de la conducta.
con el  Tipo de reforzamiento: el control por el estímulo está en parte determinado por el tipo de reforzamiento que se utilice. Por ejemplo, los estímulos
entrenamiento visuales tienen más probabilidad de adquirir control sobre la conducta reforzada positivamente, y los E auditivos sobre la reforzada negativamente.
discriminativo  Consecuencia diferencial: en tareas de discriminación simple, si se usan consecuencias diferenciales para cada combinación entre el Ed y la respuesta,
se mejora la discriminación; en la descremación condicional también se mejora con reforzamiento diferencial.
 Duración del intervalo entre ensayos: la ejecución mejora al aumentar el intervalo entre la realización de los ensayos.
 Grado de entrenamiento: cuanto mayor es el entrenamiento, más acusado es el gradiente de generalización.
 Entrenamiento en discriminación “sin errores”: se presenta el E- con menor intensidad que el E+ y se va aumentando gradualmente su intensidad
hasta igualarla al E+. Resultado: discriminación sin errores, y se mejora la adquisición de la misma.
 Intervalo entrenamiento-prueba: cuanto mayor es este intervalo, mayor es la generalización (gradiente más plano).
INTERACCIONES
EXCITATORIAS-INHIBITORIAS
Desplazamiento del Efecto de la Tendencia

máximo General o Tendencia Central
 Efecto de interacción entre el control excitatorio e inhibitorio presente en  Desplazamiento del máximo de respuestas respecto al E+ original, como efecto
cada estímulo de prueba cuando el entrenamiento de discriminación ha sido de la distribución respecto a este, de los estímulos generalizados presentados.
intradimensional.  Se observa que el sujeto responde en mayor proporción ante un valor diferente
 El resultado de este fenómeno es que el máximo de respuestas en el al E+ original que se acerca al valor medio de los estímulos de prueba a los que se
gradiente de generalización no se observa en presencia del E+ original sino ante expone.
otro estímulo cuyo valor en la dimensión pertinente se aleja del E+ en dirección  Explicación: Teoría relacional de Thomas. La respuesta generalizada no se basa
opuesta al E-. Esto implica que: en las características absolutas de los estímulos, sino en sus referencias relativas
- El efecto del desplazamiento del máximo está en función de la semejanza del E- en función de los estímulos con los que tiene experiencia.
con el E+.
- A > semejanza entre E+ y E- > desplazamiento del máximo. Grupos Estímulos de prueba Máximo de respuesta
- Cuanto mayor es la discriminación entre el E+ y el E- menor es el efecto del (nm) en:
desplazamiento producido por la interacción de ambos. Inferiores al E+ (525 nm) 485, 495, 505, 515, 525 515 nm
- Aunque se denomine desplazamiento del máximo, también se produce Superiores al E+ (525 525, 535, 545, 555, 565 535 nm
“desplazamiento del mínimo”. nm)
- El entrenamiento en discriminación “sin errores” no produce desplazamiento Simétrico 505, 515, 525, 535, 545 525 nm
del máximo en la prueba de generalización.
 Explicación de Spence: el entrenamiento en discriminación intradimensional Ej.: A los sujetos se les enseña una luz de color rojo, para poder identificarla más tarde.
produce gradientes de generalización excitatorios e inhibitorios centrados en el Después se forman tres grupos:
E+ y el E-. Como el E+ y el E- son semejantes los gradientes de generalización de  Primer grupo: se les muestra una luz roja seguida de unos tonos de rojo más suaves.
la excitación y la inhibición se superponen. Debido a esta superposición, la  Segundo grupo: se les muestra una luz roja seguida de unos tonos rojos más fuertes.
inhibición generalizada del E- suprime la respuesta al E+ produciéndose el  Tercer grupo: la luz roja va seguida de unos tonos más suaves y otros más fuertes.
desplazamiento del máximo. El modelo de Spence es un modelo de aprendizaje  Resultados: el grupo 1 identifica una luz roja algo más suave que la originalmente
basado en las propiedades individuales y absolutas del estímulo. presentada, el 2 una luz roja algo más fuerte y los del tercer grupo acertarán en el tono
exacto.
TEORÍAS SOBRE LA
GENERALIZACIÓN
Generalización como proceso Hipótesis inversa: Teoría atencional: Respuesta múltiple:

primario: Pavlov, Hull Blough Shutherland y Mackintosh Staddon
 Pavlov: basó su explicación en el  La generalización se debe a que los  Considera que el fallo en la  Incluye el resto de conductas que
concepto de irradiación, semejante al sujetos no pueden discriminar entre los discriminación (responsable de la despliega el sujeto, además de la
efecto de la onda al tirar un objeto al estímulos de prueba a los que son generalización) se debe a la falta de respuesta objetivo, dentro del análisis
agua. Cada estímulo produce excitación expuestos (fallo en discriminación). Así, atención hacia el rasgo pertinente del Ed. del fenómeno de la generalización.
en una zona concreta del córtex cerebral, es la capacidad de los sujetos para Tiene dos procesos:  Diferencia entre dos categorías de
de manera que estímulos parecidos discriminar ciertos estímulos lo que 1. El cerebro procesa cada dimensión del conductas: terminales (controladas por
pueden activar zonas físicamente determina si mostrarán o no estímulo por separado a través de la presencia del E+ y fortalecidas por la
adyacentes. A medida que el estímulo se generalización. analizadores específicos que representan presencia del reforzador) y de ínterin
aleja del E+ original, la excitación se cada dimensión del estímulo por (las que aparecen en ausencia del E+ o
vuelve más débil. separado (color, brillo, tamaño…). Al presencia del E-).
 Hull: defendió que el cerebro no inicio, la fuerza del analizador depende  Remplaza el concepto de inhibición
percibía los estímulos como algo único, de la saliencia de la dimensión. El por el de competición: las respuestas
con un solo valor por dimensión, sino que reforzamiento afectará a la fuerza de los terminales quedarían bajo el control
cada rasgo es percibido como una analizadores activos, de manera que la excitatorio de los E+, las conductas de
horquilla de valores. Así, cuantos más dimensión más saliente se condicionará ínterin estarían controladas por los E- y
valores comparta el estímulo de prueba más que el resto. ambas tendencias excitatorias se
con las regiones condicionadas con el E+ 2. Se desarrolla un vínculo entre una generalizarían a los estímulos de prueba.
original, mayor será el control que ejerza. respuesta específica y un analizador. Ej.: El resultado de esta competencia
 Otras teorías que conciben la unión entre elegir una tecla roja y el formaría los diferentes gradientes.
generalización como proceso primario analizador correspondiente al color.
son: la teoría de Spence y el enfoque
relacional de Thomas.
TEMA 7: CONTROL AVERSIVO EN EL CONDICIONAMIENTO OPERANTE
ESTIMULACIÓN AVERSIVA EN EL CO
 CASTIGO, ESCAPE Y EVITACIÓN.
APETITIVO AVERSIVO De los cuatro procedimientos del CO

REFUERZO POSITIVO O ENTRENAMIENTO CASTIGO POSITIVO O CASTIGO. La los aversivos son el castigo (castigo
DE RECOMPENSA. La conducta provoca conducta provoca consecuencias positivo) y el entrenamiento
CONTINGENCIA POSITIVA consecuencias positivas (reforzador)  negativas  Reduce la probabilidad de escape/evitación. Mientras que con el
Aumenta la probabilidad de emisión de la emisión de la conducta castigo las conductas tienen como
conducta. consecuencia la aparición de un
ENTRENAMIENTO DE OMISIÓN O REFORZAMIENTO NEGATIVO O evento aversivo por lo que disminuye
CASTIGO NEGATIVO. La provoca la no ENTRENAMIENTO DE su emisión, en el entrenamiento
CONTINGENCIA NEGATIVA aparición o retirada de algo bueno  ESCAPE/EVITACIÓN. La conducta provoca escape/evitación se busca huir de la
Reduce la probabilidad de emisión de la la no aparición o retirada de una
estimulación aversiva, lo que da lugar
conducta. consecuencia aversiva  Aumenta la
a un aumento de la conducta.
probabilidad de emisión de la conducta.
 Entrenamiento de escape: la consecuencia aversiva está presente; no desaparece hasta

la emisión de la conducta (desplazamiento o manipulación); la operante es reforzada por la
supresión del evento aversivo; la probabilidad de emitir la respuesta aumenta.
 Entrenamiento de evitación: el sujeto es expuesto a la presencia periódica de la
Diferencias consecuencia aversiva; la emisión de la operante impide o retrasa la aparición de esa
consecuencia; la operante se emite ANTES de que el estímulo aversivo aparezca; la
probabilidad de emitir la respuesta aumenta.
 Castigo: para poder aplicar un castigo, la conducta debe emitirse con cierto grado de
Castigo, escape y evitación probabilidad; la conducta va seguida de la consecuencia aversiva; la probabilidad de emitir
la respuesta disminuye.
En todos los procedimientos el sujeto moldea su conducta para reducir al máximo su

Semejanzas exposición a la estimulación aversiva, es decir, mediante el aumento de los periodos de
seguridad.
PROCEDIMIENTOS DE CO Y
ESTADOS EMOCIONALES
Estados emocionales provocados Teoría de la respuesta emocional

por los estímulos condicionada
 Además de la RI específica, los estímulos elicitadores provocan en los sujetos  Propuesta por Estes, es la más relevante para explicar el efecto en la conducta
estados emocionales, estados que pueden asociarse al resto de los eventos de los procedimientos de castigo. La idea básica es que un EC excitatorio aversivo
antecedentes (convirtiéndolos en ECs). El efecto emocional de los ECs suele provoca ciertas respuestas emocionales (como la paralización) por el hecho de
etiquetarse así: estar emparejado con una consecuencia aversiva (por ejemplo, una descarga).
Esas respuestas emocionales condicionadas son incompatibles con otras
- ECs excitatorios apetitivos generan estados como “esperanza”.
respuestas, como la de presión de una palanca (la rata no puede quedarse
- ECs excitatorios aversivos generan estados como “ansiedad”.
paralizada y al mismo tiempo presionar la palanca). Por tanto, la tasa de presión
-ECs inhibitorios apetitivos generan estados como “tristeza”.
de palanca se suprime durante la presentación del EC.
- ECs inhibitorios aversivos generan estados como “alivio”.
 En los procedimientos de reforzamiento negativo: los estímulos

discriminativos positivos (Ed+), las conductas de escape o evitación generan
estados de alivio.
 En los procedimientos de castigo: los estímulos delta o estímulos
discriminativos negativos (Ed-) y las conductas castigadas general estados de
ansiedad. Los EI aversivos provocan miedo.
 Aunque la estimulación aversiva, independientemente de la respuesta puede
producir cierta supresión de la conducta instrumental, la estimulación aversiva
producida por la ejecución de la respuesta es mucho más eficaz.
CONDUCTA DE EVITACIÓN: consiste en la aparición y mantenimiento de una

conducta que tiene como consecuencia la ausencia de un estímulo aversivo.
Procedimientos de evitación:
EVITACIÓN DISCRIMINADA
Procedimiento (ensayos discretos) Elementos y relaciones de contingencia Teorías explicativas
En la evitación discriminada (o señalada) existen claves  En este tipo de ensayos encontramos tres  Teoría Bifactorial de Mowrer. Sostiene que en el
que señalan el acontecimiento aversivo (descarga). Esta elementos: la señal de aviso, la respuesta operante y aprendizaje de evitación están implicados dos
técnica utiliza ensayos discretos y requiere muchos la consecuencia aversiva. procesos interdependientes: el Condicionamiento
ensayos. Cada ensayo se inicia con la presentación de un Las contingencias que se establecen entre ellos son: Clásico de miedo y el reforzamiento operante de la
evento neutro (luz/tono) al que se denomina “señal”,  Contingencia Respuesta-Señal de aviso: la emisión respuesta de evitación a través de la reducción del
que va a funcionar como Ed+. Después, dependiendo de de la respuesta operante conlleva la desaparición de la miedo. Primero, es necesario que el miedo se
lo que haga el sujeto hay dos posibilidades: señal de aviso, lo que convierte su relación en una condicione al EC. Según Mowrer, la operante se
 Ensayo de escape: si el sujeto no emite la respuesta contingencia de escape. refuerza por la reducción del miedo (o ansiedad)
requerida para la evitación durante un intervalo entre la  Contingencia Respuesta-Consecuencia: aunque generado por el EC (señal), y no por impedir la
señal y el EI aversivo, se presenta el EI programado y se inicialmente se produce una contingencia de escape aparición del EI (descarga). Se explica la conducta de
mantiene hasta que la emite, después de lo cual tanto la (dar la respuesta implica hacer desaparecer la evitación en términos de escape del miedo
señal como el EI cesan. La respuesta instrumental se descarga que está produciéndose), cuando el condicionado, más que en términos de prevención de
considera una forma de escape, ya que suprime la entrenamiento está más avanzado la contingencia será la descarga.
descarga eléctrica en curso. de evitación (realizar a tiempo la conducta impide la  Hipótesis de Schoenfeld. No utiliza el miedo como
 Ensayo de evitación: si el sujeto emite la respuesta llegada de la consecuencia aversiva). variable intermediaria. Según esta hipótesis, la señal
requerida antes de que se presente el EI aversivo, la  Contingencia Señal de aviso-Consecuencia: adquiere por CC funciones de consecuencia aversiva
señal cesa y se omite el EI en ese ensayo. durante los ensayos de escape se produce un secundaria o condicionada. Los animales en la
Durante los primeros momentos del entrenamiento, la condicionamiento excitatorio aversivo entre la señal y situación de evitación no pueden huir de la descarga
mayoría de los ensayos son de escape y, según va la descarga (señal seguida de descarga), porque no está presente; lo que emiten es una
avanzando el entrenamiento, empiezan a predominar condicionamiento que se somete a extinción en los respuesta de escape reforzada por la retirada de la
los ensayos de evitación. ensayos de evitación, en los que la señal adquiere la retirada de la señal. La evitación sería una situación de
función de Ed+ para la conducta de evitación. reforzamiento negativo secundario.
CONDUCTA DE
EVITACIÓN
Procedimientos de evitación: evitación no Procedimientos de evitación: evitación de

discriminada de operante libre (Sidman) descarga aleatoria (Herrnstein-Hineline)
 Procedimiento:
 Procedimiento:
- Se programa una descarga para que ocurra periódicamente, sin aviso.
- Caja de Skinner con una palanca y dos máquinas dispensadoras de
- Se especifica una determinada conducta como R de evitación. La emisión de esta respuesta
descargas: máquina A con una frecuencia de descargas mayor y máquina B
impedirá la descarga durante un periodo de tiempo fijo.
con una frecuencia de descargas menor.
- Las respuestas de evitación se pueden dar en cualquier momento y, ocurra cuando
- Las descargas eran intensas, breves y se programan en tiempos irregulares.
ocurran, reinician el intervalo R-EI (por eso se denomina de operante libre).
- La respuesta de evitación es la presión de la palanca.
- El procedimiento se construye a partir de dos intervalos de tiempo: intervalo E-E o Reloj
- La emisión de la respuesta produce el cambio de programa: al principio se
choque-choque (intervalo entre las descargas en ausencia de una respuesta) e intervalo R-E
conectaba la máquina A (mayor frecuencia de descargas), cuando se
o Reloj respuesta-choque (intervalo entre la respuesta y la descarga programada, es decir, el
presionaba se desconectaba y se conectaba la B, que se mantenía activa
periodo de seguridad).
hasta dispensar una descarga, entonces se volvía a conectar la A.
- Ej.: cuando guardamos periódicamente un documento de texto (R) para evitar perder los
 Explicación: Herrnstein explicó el reforzamiento de la conducta de
cambios realizados (E aversivo).
evitación no tanto como el resultado de omitir o retardar la presentación del
 Hipótesis propioceptiva (Sidman): todas las conductas que realiza el sujeto en la
estímulo aversivo, sino como al debido a la reducción de su frecuencia total:
situación experimental quedan asociadas a la descarga. La propia conducta del sujeto
contingencia total negativa entre la tasa de respuesta y las consecuencias
funcionaría como señal y le producirá ansiedad. La única forma de escapar de la ansiedad es
aversivas.
emitiendo la respuesta operante.
 Hipótesis interoceptivo-temporal (Anger): el paso del tiempo es el que produciría la VARIABLES QUE AFECTAN AL REFORZAMIENTO NEGATIVO:
ansiedad (a través de la “interiorización” de los dos intervalos o “relojes”). La forma de  Intensidad del estímulo aversivo: a mayor intensidad, mayor
escapar de la ansiedad es emitiendo la conducta. Tanto esta teoría como en la de Sidman velocidad de adquisición de la conducta reforzada negativamente.
explican la conducta de evitación como una forma de escape ante el EC aversivo.  Experiencia previa: la familiaridad con la estimulación aversiva puede
 Hipótesis de la señal de seguridad (Dinsmoor): señala el reforzamiento positivo como reducir la efectividad de las consecuencias aversivas.
causa de la conducta de evitación. Los estímulos asociados a periodos de seguridad  Intervalo E-E e Intervalo R-E: a < intervalo E-E y > intervalo R-E mayor
(espaciales y propioceptivos) se convierten en EC inhibitorios aversivos, reforzando la aprendizaje.
respuesta de evitación. Tiene un mayor apoyo empírico.
CASTIGO
Aproximaciones teóricas Variables que afectan al castigo
 Thornideke: el reforzamiento positivo y el castigo implican procesos  Intensidad del estímulo aversivo: a mayor intensidad, mayor supresión de la conducta.
simétricamente opuestos. Mientras que el reforzamiento positivo favorece  Inmediatez y demora del estímulo aversivo: a mayor inmediatez del castigo, mayor
la conducta, el castigo la debilita. Es decir, las consecuencias negativas de supresión de la conducta.
una conducta debilitan la asociación entre dicha conducta y los estímulos  Cambios graduales en la intensidad del estímulo aversivo: la exposición inicial suave a
presentes en la situación. un estímulo aversivo reduce los efectos de un castigo intenso posterior (y al revés).
 Teoría de la respuesta emocional condicionada (Estes): los diversos  Experiencia previa: una historia extensa de reforzamiento previo reduce los efectos del
estímulos que el sujeto experimenta antes de dar la respuesta castigada castigo.
provocan respuestas emocionales condicionadas por el hecho de estar  Efectos discriminativos del estímulo aversivo: si la respuesta se castiga en presencia de
emparejados con una estimulacion aversiva. Estas respuestas emocionales un estímulo discriminativo (estímulo delta), pero no cuando el estímulo está ausente, se
condicionadas son incompatibles con la respuesta castigada. trata de castigo discriminativo. Con una exposición continuada al discriminativo, los efectos
 Teoría de las respuestas competitivas reforzadas negativamente: supresores del castigo se limitan a la presencia de dicho estímulo.
explica el castigo en términos de adquisición de respuestas incompatibles  Programa de castigo: generalmente, los programas de castigo continuo son más efectivos
con la respuesta castigada. La supresión de la conducta se explica en que los intermitentes.
términos de fortalecimiento de aquellas respuestas competitivas que evitan  Programa de reforzamiento compuesto: toda técnica de castigo es una técnica mixta, ya
eficazmente la consecuencia aversiva. que castigar una conducta requiere que ésta haya sido reforzada o esté siendo reforzada a la
vez. Podemos encontrarnos tres casos: castigo sobre líneas-base apetitivas (actúan
simultáneamente el castigo y el reforzamiento positivo sobre la misma respuesta), castigo
sobre líneas-base defensivas (concurren el castigo y el reforzamiento negativo) y castigo
sobre líneas-base de extinción (se castiga una respuesta que previamente ha sido reforzada,
pero que en el momento de aplicar el castigo está siendo extinguida).
 Existencia de una conducta alternativa reforzada: la disponibilidad de una fuente
alternativa de reforzamiento aumenta la supresión de las respuestas producida por el
castigo.
 Manipulaciones motivacionales: supresión de la conducta si se reduce la motivación para
realizar dicha conducta.
CASTIGO
Eficacia relativa del castigo para Fenómenos paradójicos en

suprimir la conducta el castigo
 Los primeros trabajos experimentales sobre el castigo concluyeron que su  La conducta masoquista: puede aparecer cuando el reforzamiento positivo
capacidad para moldear la conducta era reducida y poco estable en el tiempo. sólo está disponible cuando se castiga la respuesta. El castigo se convierte así en
 Estudios posteriores han demostrado que la conducta puede ser suprimida de una señal o estímulo discriminativo para la disponibilidad de un refuerzo positivo.
manera absoluta en pocos ensayos si se controlan determinados parámetros (si no, Otra forma de adquirir la conducta masoquista es mediante el
puede no suprimirse totalmente o reaparecer). contracondicionamiento de la consecuencia aversiva, emparejando un estímulo
con otro de efecto inverso, pero más fuerte: por ejemplo, emparejar un EI
aversivo (descarga pequeña) con un EI apetitivo (comida) más intenso e ir
VENTAJAS: DESVENTAJAS: modificando paulatinamente la intensidad (hasta que tenga mayor intensidad EI
 Provoca una reducción de la  Genera una serie de efectos aversivo que el apetitivo).
conducta a corto y largo plazo. colaterales no deseables: ansiedad,  Círculo vicioso: aparece ante conductas reforzadas negativamente
 Alto grado de inmediatez. agresión, neurosis… (escape/evitación). El propio evento aversivo adquiere funciones de
 Alta resistencia a un posterior  Puede dar lugar a una discriminativo (señal) para esa conducta. Y en procedimiento de castigo ese
recondicionamiento. redistribución no prevista de la estímulo aversivo no suprimirá esa conducta, sino que la aumentará.
conducta del sujeto.
 Posibilidad de ampliar los estímulos
generadores de ansiedad para el
sujeto (por generalización), pudiendo
dar lugar al desarrollo de trastornos
del comportamiento.
TEMA 7: COTROL AVERSIVO EN EL CONDICIONAMIENTO OPERANTE
OTRAS ESTRATEGIAS DE
SUPRESIÓN DE LA CONDUCTA
Entrenamiento de Modificación de la fuerza de Modificaciones

Extinción
omisión las conductas alternativas motivacionales
 Similitudes con la evitación:  Cualquier modificación que convierta  Consiste en romper la contingencia  Se puede suprimir la conducta
- Contingencia negativa Respuesta- a las respuestas alternativas en más Respuesta-Reforzador tanto positiva atendiendo a variables motivacionales. La
Reforzador atractivas reducirá la probabilidad de como negativa (escape/evitación). motivación se operativiza atendiendo a: el
- Intervalos Consecuencia-Consecuencia emisión de la conducta objetivo. Esto se  Implica un nuevo aprendizaje. grado de privación/saciedad respecto al
(E-E). puede conseguir:  Un cambio en el contexto (respecto al reforzador y/o el valor del reforzador.
- Intervalos Respuesta-Consecuencia (R-E) - Manipulando las variables relacionadas que ha estado presente durante la  Podemos reducir la conducta:
- No hay señales de aviso. con la competitividad de la respuesta extinción), un tiempo sin contacto con el - Ante reforzadores primarios (EI):
- La emisión de la respuesta retrasa la respecto a otra respuesta disponible: discriminativo extinguido o la exposición saciando al sujeto respecto al reforzador
aparición del reforzador. modificando el intervalo R-E de las al reforzador sin que se haya emitido la mediante sobreexposición al EI;
 Variables que determinan su eficacia: alternativas (demora del reforzamiento) operante, pueden provocar la devaluando el reforzador asociándolo con
- Los intervalos E-E tienen que ser obteniendo así una mayor frecuencia de restauración de la capacidad de control otro estímulo de signo contrario
menores que los intervalos R-E. reforzadores en la R alternativa; de los discriminativos que habíamos (aversivo).
- Se debe empezar por valores pequeños modificando la intensidad, calidad o extinguido y, por tanto, la emisión de la - Ante reforzadores secundarios (EC):
del intervalo R-E e ir aumentándolos cantidad del reforzador. conducta que habíamos suprimido. saciando mediante sobre exposición al EI
progresivamente. - Fortaleciendo alguna respuesta cuya del que se condicionó el EC; mediante
 Otras características: emisión sea incompatible con la anterior: contracondicionamiento (cambiar el signo
- El entrenamiento de omisión tiene en vez de castigar la respuesta, reforzar o del reforzador de positivo a negativo);
como efecto inmediato una tasa residual “premiar” la contraria. mediante extinción presentando el EC sin
de respuesta. ir seguido del EI.
- Esta tasa desaparece a largo plazo. - Ante reforzadores secundarios
- Se produce una eliminación total de la generalizados (dinero, atención…): son
conducta. muy resistentes a la saciedad y a la
- Alta resistencia al recondicionamiento. extinción.
 Utilización de la técnica de contraste
conductual negativo.
TEMA 7: COTROL AVERSIVO EN EL CONDICIONAMIENTO OPERANTE
PROGRAMAS CONCURENTES Y ESTIMULACIÓN AVERSIVA
Conducta de Conducta auto-

elección controlada e impulsiva
Elección y Elección y Reforzamiento

reforzamiento negativo castigo negativo Castigo
 Al igual que en los estímulos con  El efecto del castigo en programas  Conducta impulsiva: elegir el escape  Conducta impulsiva: elección del
reforzamiento positivo, diferentes concurrentes ha sido menos estudiado. del evento aversivo con menor valor castigo de mayor intensidad o duración,
experimentos demuestran que la  Los diferentes estudios indican que relativo (menor tiempo de desaparición pero más demorado.
conducta de elección controlada por los sujetos son capaces de ajustar su del evento aversivo, menor reducción  Conducta auto-controlada: elección
reforzamiento negativo elección a ciertas características del de la intensidad del evento aversivo, del castigo más leve pero inmediato.
(escape/evitación) y analizada a través castigo. etc.) pero más inmediato.  Resultados: varían en función de la
de programas concurrentes, también se  Aunque la tasa de respuesta general  Conducta auto-controlada: elegir el manipulación de las variables (valor del
ajusta a la ley de igualación. decrece (una vez se ha adquirido por evento con mayor valor relativo y más estímulo y tiempo de demora). Por
 Los sujetos reparten sus respuestas reforzamiento positivo), la tasa relativa demorado. ejemplo, cuando se aumenta la demora
entre las diferentes alternativas, en se ajusta a la frecuencia relativa de  Resultados encontrados en los en los programas concurrentes
función de la frecuencia de castigo en cada alternativa. experimentos: mayor proporción de encadenados, mayor es el número de
reforzamiento de las mismas.  El incremento de la tasa relativa de elecciones impulsivas. elecciones auto-controladas.
 La reducción de la tasa de refuerzo castigo en una alternativa reduce la
negativo funciona de la misma manera tasa relativa con la que era elegida.
que la reducción de la tasa de refuerzo
positivo.
ANTECENDENTES HISTÓRICOS DE LA PSICOLOGÍA DEL APRENDIZAJE Llanos Merín. Psicología del aprendizaje
APROXIMACIONES TEÓRICAS Y FILOSÓFICAS AL ESTUDIO DEL APRENDIZAJE CONSOLIDACIÓN DE LA PSICOLOGÍA DEL APRENDIZAJE COMO CIENCIA
EXPERIMENTAL
 Origen en la filosofía griega.
 Los elementos del pensamiento están  entendían los fenómenos mentales en base a unidades
relacionados entre sí por simples reglas de Siglo XIX: discretas (corpúsculos) que interaccionaban entre sí.
Asociacionismo conexión. fundadores  Contigüidad como principio explicativo fundamental (la
 Aristóteles: 3 principios de asociación: de la interacción se daba por contacto en el tiempo). Si dos
semejanza, contraste y frecuencia contigua de Psicología eventos sucedían repetidamente en contigüidad se daba
ideas una asociación entre ellos estímulo-respuesta.
La única fuente de información acerca del Thordike: la fuerza de la asociación E-R depende de la propia
Empirismo británico Ley del
mundo procede de la experiencia sensorial consecuencia de la acción. El efecto de una acción actúa
efecto retroactivamente para sellar la asociación que conduce a tal
Distinción entre mente (estudiada por introspección) y efecto. Esta es la base del CO.
cuerpo (estudiado por las ciencias naturales).  Watson: “la psicología, tal como la ve el conductista, es una
 Conocimiento racional: innato, exclusivo del hombre, rama de las ciencias naturales, objetiva y experimental. Sus metas
Dualismo procedente de Dios. teóricas son la predicción y control de la conducta. La introspección
no forma parte de sus métodos”.
cartesiano  “arco reflejo”: cuando un acontecimiento externo Conductis-  Canon de Morgan: “en ningún caso debemos interpretar una
excita un órgano sensorial se produce el movimiento
mo acción como resultado del ejercicio de una facultad superior, pero
reflejo. sí puede interpretarse como resultado del ejercicio de una facultad
menos elevada en la escala psicológica.
 Hace que el concepto de “arco reflejo” se incorpore  Positivismo filosófico: la ciencia solo puede construirse
definitivamente en la P. experimental. con hechos observables
 Sechenov: “la causa inicial de toda conducta radica
Dualismo  La consecución del reforzador reduce las necesidades del
siempre en la estimulación sensorial externa, sin la cual, Hull
cartesiano organismo (impulsos) y dirige a la acción (incentivo).
no es posible el pensamiento.
 Pavlov: recupera el principio de asociación por  Conducta propositiva: La conducta está determinada por
contigüidad e inició el condicionamiento clásico o eventos internos que no son observables directamente, sino
pavloviano (CC). Tolman que se infieren a través de los cambios en la conducta.
 Darwin: explicación sobre la evolución de las especies  defensor de un esquema E-E, donde el organismo no es un
basada en la selección natural. elemento pasivo.
Teoría de la  Teoría del control externo: ambiente como primer  Conducta operante libre: se presenta sin la intervención
evolución mecanismo evolutivo. de in estímulo antecedente observable.
Skinner
 Funcionalismo: las estructuras y procesos moldeados  La conducta se mantiene por sus consecuencias
por la evolución tienen una función útil para el organismo. ambientales.

Esquemas Llanos

Cargado por

Copyright:

Formatos disponibles

Esquemas Llanos

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Esquemas Llanos

Cargado por

Copyright:

Formatos disponibles

Psicología del Aprendizaje 2015-16 Llanos Merín

TEMA 2: CONDICIONAMIENTO CLÁSICO, FUNDAMENTOS

COMIENZOS DEL ESTUDIO DEL CC Y

Comienzos del estudio del Naturaleza de la

Condicionamiento Condicionamiento Seguimiento del Aprendizaje de

Procedimientos típicos de CPE en función del intervalo entre estímulos (entre el

Condicionamiento Condicionamiento Condicionamiento Condicionamiento

Procedimientos típicos de CPI: para que se desarrolle inhibición condicionada es

Procedimiento estándar de Inhibición Desemparejamiento Casos de inhibición

Los siguientes fenómenos demuestran que durante la extinción no se elimina la

Desinhibición Recuperación Renovación de la Restablecimiento de la

Intensidad Novedad: los estímulos novedosos provocan reacciones más

Ej.: Amplitud de una RC

Naturaleza: tipos y relevancia

Contingencia Contingencia Contingencia

Fórmula principal del modelo Rescorla-Wagner y otros fenómenos del aprendizaje:

Bloqueo, extinción e inhibición condicionada

TEORÍAS DEL APRENDIZAJE:

Problemas del modelo y ejemplo de cómo utilizar las fórmulas:

Problemas del modelo Ejemplo

OTRAS TEORÍAS DEL

Hipótesis del comparador Modelos atencionales Modelo SOP (Wagner)

Según esta hipótesis la RC no solo depende de la Wagner sostiene que un estímulo

Thorndike y la Ley del El análisis experimental del

El estímulo discriminativo La respuesta El reforzador

Reforzador- Respuesta discreta- Topografía- Instancia de respuesta Interacciones clásicas

PROCEDIMIENTOS BÁSICOS DEL

APETITIVO AVERSIVO Contingencia: relación de dependencia funcional entre dos

Fenómenos que muestran

La conducta La deriva instintiva y el concepto Los cambios en la cantidad y

 Experimento de superstición (Skinner): ponía palomas en  Deriva instintiva: Tendencia de

La controlabilidad de las Los efectos de la demora del

Programas de reforzamiento continuo: en ellos, Programas de reforzamiento intermitente o parcial:

Programas de razón: el reforzador Programas de intervalo: la respuesta se

PROGRAMAS DE RAZÓN VS PROGRAMAS DE

Programas de razón vs Funciones de

TEORÍA Y PROGRAMAS DE REFORZAMIENTO

Teoría del reforzamiento Programas de reforzamiento

Programas compuestos secuenciales de reforzamiento: Hace referencia a la

PROGRAMAS COMPUESTOS DE REFORZAMIENTO

RESUMEN: CLASIFICACIÓN GENERAL DE LOS PROGRAMAS COMPUESTOS.

Estudio y medida de la La ley de igualación

CONCUTA DE ELECCIÓN  LEY

Sesgos en el estudio de la Ley generalizada de

¿Cómo realizamos los cálculos?: Deducir las

Aproximación Aproximación Mejoramiento

 1ª fase: eslabón de elección. El sujeto elige entre dos opciones de

 El autocontrol se trata de elegir una recompensa grande pero demorada sobre

TEORÍAS E-E TOLMAN.

TEORÍA DE LA PRIVACIÓN DE RESPUESTA

TEORÍAS DEL APRENDIZAJE INSTRUMENTAL

Teorías E-R Teorías E-E

TEORÍAS DEL APRENDIZAJE INSTRUMENTAL

Teoría de la probabilidad Teoría de la privación

Control Los estímulos de control en el CC son: los estímulos

Métodos de medición del Tipos de gradientes de

Método Entrenamiento Prueba

Modulación (control Discriminación condicional

 El estímulo condicional por sí solo no controla ninguna respuesta, sino la

Desplazamiento del Efecto de la Tendencia