Teoría de Juegos Con Estrategias Puras y Mixtas

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 13

UPC – Departamento de Ciencias – Matemática Computacional

Introducción a la teoría de juegos

CONTENIDO

Unidad 3: ECUACIONES EN DIFERENCIAS Y TEORÍA DE JUEGOS


Equilibrio de Nash en estrategias puras
▪ Modelación de un juego
▪ Estrategias Puras
▪ Equilibrio de Nash

Equilibrio de Nash en estrategias mixtas

▪ Estrategias mixtas

Profesores MA475 1
UPC – Departamento de Ciencias – Matemática Computacional

Teoría de juegos con estrategias puras

Introducción
La teoría de juegos es una técnica utilizada para analizar
situaciones en las que para dos o más individuos (o instituciones)
el resultado de una acción de uno de ellos depende no solo de la
acción particular tomada por ese individuo sino también de las
acciones tomadas por el otro (u otros). En estas circunstancias,
los planes o estrategias de los individuos involucrados
dependerán de las expectativas sobre lo que los demás están
haciendo.
El objetivo es buscar una acción común para lograr un bienestar
común para todos; es decir, un punto de equilibrio

Ejemplos
a) Dos empresas con grandes cuotas de mercado en una industria en particular toman
decisiones con respecto al precio y la producción.
b) Líderes de dos países contemplando una guerra entre ellos.
c) La decisión de una empresa de ingresar a un nuevo mercado donde existe el riesgo de
que las empresas existentes o existentes intenten luchar contra la entrada.
d) Los formuladores de políticas económicas en un país que contemplan imponer un
arancel a las importaciones.
e) Líderes de dos facciones opuestas en una guerra civil que intentan negociar un tratado
de paz.
f) Un jugador de tenis que decide dónde colocar un servicio.
g) Gerentes involucrados en la venta y compra de jugadores en el mercado de
transferencias en el fútbol de asociación.
h) Un criminal que decide si confiesa o no un crimen que ha cometido con un cómplice
que también está siendo interrogado por la policía.
i) La decisión de un capitán del equipo de declarar en cricket.
j) Miembros de la familia discutiendo sobre la división del trabajo dentro del hogar.

Modelación de un juego
Hay dos formas o tipos básicos de modelos formales empleados en la teoría de juegos no
cooperativo. La primera y más simple es la forma estrategia o un juego de forma normal y la
segunda es el juego de forma extensa. En general, los juegos intervienen tres elementos:
a) Una lista de participantes o jugadores.
b) Una lista de estrategias para cada jugador.
c) Para cada conjunto de estrategias, una para cada jugador, una lista de pagos que
reciben los jugadores.

Profesores MA475 2
UPC – Departamento de Ciencias – Matemática Computacional

Ejemplo (YAN KEN PO)


Para explicar los elementos de un juego vamos a hacer con uno muy conocido, llamado el “Yan
Ken Po”. Dos niños juegan a la vez, de modo que el conjunto de participantes son niño A y
niño B, quienes escogen simultáneamente una de las tres opciones: Piedra, Papel o Tijera. Y
dependiendo de lo que cada niño escoja, el juego lo gana uno de los niños, o bien es un
empate: Si los dos escogen la misma opción, el juego se empata; si uno escoge la piedra y el
otro papel, gana quien escoge papel (el papel cubre la piedra). Si uno escoge la piedra y el otro
la tijera, gana el que escoge piedra (La piedra rompe a la tijera). Si uno escoge el papel y la
otra tijera, gana quien escoge tijera (La tijera corta el papel). Por lo tanto, si decimos que se
paga 1 al niño que gana, el pago por la pérdida es de −1, y el pago por un empate es 0,
podemos representar estos pagos del juego con el siguiente cuadro:
Niño B
Piedra Papel Tijera
Piedra 0; 0 –1; 1 1; –1
Niño A Papel 1; –1 0; 0 –1; 1
Tijera –1; 1 1; –1 0; 0
Nota: Adaptado de Teoría de juegos y modelación económica, Kreps (1994)
Se destaca del cuadro:
a. En virtud que hay dos jugadores, y cada uno dispone de tres estrategias, el conjunto
de perfiles de estrategias o conjuntos de estrategias se representa en cuadro de 3 × 3
b. Listamos las estrategias del niño A como filas en el cuadro, y las estrategias del niño B
como columna.
c. Para cada uno de las nueve (3 × 3) celdas del cuadro, damos el par de resultados para
ambos niños; el primero el pago del niño A y luego el pago del niño B.
Sea 𝐼 = conjunto de jugadores (conjunto finito). En nuestro caso 𝐼 = {1,2}. Para cada 𝑖 ∈ 𝐼
consideremos el conjunto: 𝑆𝑖 = conjunto de estrategias del 𝑖 − ésimo jugador. En este juego:
1. 𝑆1= conjunto de estrategias del niño A (jugador 1) = {piedra, papel, tijera}
2. 𝑆2 = conjunto de estrategias del niño B (jugador 2) = {piedra, papel, tijera}
Para cada 𝑖 ∈ 𝐼 consideremos una función 𝑢𝑖 como la función pago del 𝑖 − ésimo jugador.
Luego 𝑢𝑖 = 𝑆1 × 𝑆2 → ℝ se define por:
µ1 (piedra, piedra) = 0 µ2 (piedra, piedra) = 0
µ1 (piedra, papel) = − 1 µ2 (piedra, papel) = 1
µ1 (piedra,ti jera) = 1 µ2 (piedra,ti jera) = − 1
µ 1 (papel, piedra) = 1 µ 2 (papel, piedra) = − 1
µ 1 (papel, papel) = 0 µ 2 (papel, papel) = 0
µ 1 (papel,ti jera) = − 1 µ 2 (papel,ti jera) = 1
µ1 (ti jera, piedra) = − 1 µ2 (ti jera, piedra) = 1
µ1 (ti jera, papel) = 1 µ2 (ti jera, papel) = − 1
µ1 (ti jera,ti jera) = 0 µ2 (ti jera,ti jera) = 0

Profesores MA475 3
UPC – Departamento de Ciencias – Matemática Computacional

Estrategias Puras
La representación en forma normal de un juego con 𝑛 jugadores especifica los espacios de
estrategias puras de los jugadores 𝑠1 , … , 𝑠𝑛 y sus funciones de ganancias 𝑢1 , 𝑢2 … , 𝑢𝑛 .
Denotemos este juego con
𝐺 = {𝑠1 , … , 𝑠𝑛 ; 𝑢1 , … , 𝑢𝑛 }
donde 𝑠𝑖 ≠ ∅ y 𝑢𝑖 : 𝑠1 × 𝑠2 … × 𝑠𝑛 → ℝ, para todo 𝑖 = 1, 2, … , 𝑛.

Ejemplo (Dilema del prisionero)


Dos delincuentes habituales son arrestados cuando acaban de cometer un delito. La policía
no tiene evidencias suficientes para condenar a los sospechosos (no hay pruebas claras contra
ellos), a menos que ellos confiesen. La policía encierra a los sospechosos en celdas separadas
y les explica las consecuencias de las decisiones que tomen al realizar sus declaraciones.
Si ninguno confiesa, ambos serán condenados por un delito menor y sentenciados a un mes
de cárcel. Si ambos confiesan, serán sentenciados a seis meses de cárcel. Finalmente, si uno
confiesa y el otro no, el que confiesa, será puesto en libertad inmediatamente y el otro será
sentenciado a nueve meses de prisión, seis por delito y tres más por obstrucción a la justicia.

Preso 2
Callarse Confesar
Callarse –1; –1 –9; 0
Preso 1
Confesar 0; –9 –6; –6
Nota: Adaptado de Chevalier-Roignant & Trigeorgis (2011)

n = 2 jugadores; S1 = {callarse; confesar}; S2 = {callarse; confesar}


µ1 (callarse; callarse) = − 1 µ2 (callarse; callarse) = − 1
µ1 (confesar; callarse) = 0 µ2 (confesar; callarse) = − 9
µ1 (callarse; confesar) = − 9 µ2 (callarse; confesar) = 0
µ1 (confesar; confesar) = − 6 µ2 (confesar; confesar) = −6

Profesores MA475 4
UPC – Departamento de Ciencias – Matemática Computacional

Ejemplo (Juego de las monedas)


Los jugadores (1 y 2) extraen de sus bolsillos un nuevo sol cada uno y las lanzan de manera
simultánea sobre una mesa. Si resultan dos caras o dos sellos, el jugador 2 recibe los dos
nuevos soles, mientras que, si hay una cara y un sello, el jugador 1 se lleva los dos nuevos
soles.

Jugador 2
C S
C –1; 1 1; –1
Jugador 1
S 1; –1 –1; 1

C: Cara, S: Sello, n = 2 jugadores,


𝑠1 = {𝑐, 𝑠}, 𝑠2 = {𝑐, 𝑠}, 𝑠1 × 𝑠2 = {(𝑐, 𝑐)(𝑐, 𝑠)(𝑠, 𝑐)(𝑠, 𝑠)}
𝑢1 : 𝑠1 × 𝑠2 → ℝ, 𝑢2 : 𝑠1 × 𝑠2 → ℝ, definidos por:

µ1 (c,c) = –1 µ2 (c,c) = +1
µ1 (c,s) = +1 µ2 (c,s) = –1
µ1 (s,c) = +1 µ2 (s,c) = –1
µ1 (s,s) = –1 µ2 (s,s) = +1

Ejemplo (Tiro de los penales)


En el juego de los penales, los dos jugadores son el pateador que ejecuta el penal y el portero.
Para construir la matriz de pagos que corresponde a estos pagos, necesitamos hacer algunas
suposiciones adicionales. En primer lugar, podemos suponer que el pateador siempre patea
al arco, por lo que anota o el guardameta salva. En segundo lugar, podemos simplificar las
estrategias de los jugadores suponiendo que el pateador solo puede patear hacia su derecha,
su izquierda o al centro, estas son sus opciones de estrategia. Del mismo modo, el portero
solo puede moverse hacia la izquierda del pateador, su derecha o puede mantenerse firme en
el centro de la portería. Si la acción del portero refleja la del pateador, él salva la penalización;
de lo contrario, el pateador anota. Con estas recompensas y suposiciones simplificadoras, la
matriz de recompensas para este juego de penalización se muestra en la siguiente tabla:

PORTERO
Izquierda Centro Derecha
Izquierda 0; 1 1; 0 1; 0
PATEADOR Centro 1; 0 0; 1 1; 0
Derecha 1; 0 1; 0 0; 1

Observe que, en las celdas de la tabla anterior, las recompensas siempre se suman a la suma
constante 1 ya que, si la recompensa de un jugador es 1, la del otro es cero. En ambos juegos
solo hay un ganador y el otro jugador es un perdedor.

Profesores MA475 5
UPC – Departamento de Ciencias – Matemática Computacional

Ejemplo (Batalla de los sexos)


En el juego exageradamente llamado la batalla de los sexos, dos enamorados se citan para
salir a divertirse después del trabajo, si bien no se han decidido entre ir al cine o ir al futbol,
que comienzan a la misma hora. Llegada la hora de salir, no pueden comunicarse entre ellos,
de modo que cada uno se ve obligado a ir directamente a un lugar, cine o futbol, y a esperar
que la decisión del otro sea la misma. Ambos prefieren ir juntos al sitio que sea antes que ir
solos cada uno a un sitio, aunque el jugador 1 preferiría que ese lugar fuese el futbol y la
jugadora 2 desearía que fuese el cine.
A continuación, se especifica la forma estratégica de este juego.

Jugadora 2
Cine Fútbol
Cine 1; 2 0; 0
Jugador 1
Fútbol 0; 0 2; 1

Equilibrio de Nash en estrategias puras


a) Sea 𝐽 = {1,2, … , 𝑛} el conjunto de los jugadores.
b) El conjunto o espacios de estrategias de cada uno: 𝑆𝑖 para cada 𝑖 ∈ 𝐽.
A cada n-upla 𝑠 = {𝑠1 , 𝑠2 , … , 𝑠𝑛 } donde cada 𝑠𝑖 ∈ 𝑆𝑖 se le llama combinación o perfil
de estrategias. Es un vector n-dimensional cuyas componentes son estrategias, una
para cada jugador, y el conjunto de todos los perfiles s es 𝑆 = 𝑆1 × 𝑆2 × … × 𝑆𝑛 . AL
vector (n-1)-dimensional obtenido a partir de 𝑠 = {𝑠1 , 𝑠2 , … , 𝑠𝑛 } al suprimir 𝑠𝑖 se le
denota 𝑠−𝑖 . El vector 𝑠−𝑖 = {𝑠1 , 𝑠2 , … , 𝑠𝑖−1 , 𝑠𝑖+1 , … , 𝑠𝑛 } es, por tanto, la combinación
de estrategias jugadas por los demás jugadores. El conjunto de todas las
combinaciones 𝑠−𝑖 es
𝑆−𝑖 = 𝑆1 × 𝑆2 × … 𝑆𝑖−1 × 𝑆𝑖+1 × … × 𝑆𝑛
c) La función de pagos o ganancias de cada uno: 𝑢𝑖 para cada 𝑖 ∈ 𝐽, que a cada
combinación de estrategias (𝑠1 , 𝑠2 , … , 𝑠𝑛 ) le asigna un número 𝑢𝑖 (𝑠1 , 𝑠2 , … , 𝑠𝑛 ), que
es la utilidad que al jugador 𝑖 le reporta el resultado del juego cuando se realizan las
jugadas de (𝑠1 , 𝑠2 , … , 𝑠𝑛 ).
El juego así especificado puede denotarse 𝐺 = {𝐽; 𝑆1 , 𝑆2 , … , 𝑆𝑛 ; 𝑢1 , 𝑢2 , … , 𝑢𝑛 }∗ .
Decimos que un juego 𝐺 es finito cuando el número de jugadores y los conjuntos
𝑆1 , 𝑆2 , … , 𝑆𝑛 son finitos, es decir, cada jugador tiene un número finito de estrategias
disponibles.
En el juego 𝐺 = {𝑆1 , 𝑆2 , … , 𝑆𝑛 ; 𝑢1 , 𝑢2 , … , 𝑢𝑛 }, y para cada jugador 𝑖, llamaremos
correspondencia de respuesta óptima de dicho jugador a la regla o correspondencia
que asigna, a cualquier combinación de estrategias 𝑠−𝑖 = {𝑠1 , 𝑠2 , … , 𝑠𝑖−1 , 𝑠𝑖+1 , … , 𝑠𝑛 },
el conjunto 𝑅𝑖 (𝑠−𝑖 ) de estrategias de 𝑖 que son respuesta optima a 𝑠−𝑖 , es decir, que
cumplen:
𝑠𝑖′ ∈ 𝑅𝑖 (𝑠−𝑖 ) si y solo si
𝑢𝑖 (𝑠1 , 𝑠2 , … , 𝑠𝑖−1 , 𝑠𝑖′ , 𝑠𝑖+1 , … , 𝑠𝑛 ) ≥ 𝑢𝑖 (𝑠1 , 𝑠2 , … , 𝑠𝑖−1 , 𝑠𝑖 , 𝑠𝑖+1 , … , 𝑠𝑛 ) para todo 𝑠𝑖 ∈ 𝑆𝑖 .

Definición de Equilibrio de Nash


La n-upla 𝑆 ∗ = (𝑆1∗ , 𝑆2∗ , … , 𝑆𝑖∗ , … , 𝑆𝑛∗ ) es un equilibrio de Nash si y solo si 𝑆𝑖∗ ∈ 𝑅𝑖 (𝑆−𝑖

) para
cada jugador 𝑖.

Profesores MA475 6
UPC – Departamento de Ciencias – Matemática Computacional

De esta definición se deduce que un Equilibrio de Nash (EN) es un perfil de estrategias del que
ningún jugador desearía desviarse unilateralmente, es decir, ninguno se arrepiente de la
decisión tomada, dadas las estrategias decididas por el resto de los jugadores. Un EN esta
formado por estrategias que son óptimas para cada jugador dadas las estrategias del resto de
los jugadores.
Esto no significa que en una EN cada jugador este alcanzando el mejor resultado posible, sino
el mejor resultado condicionado por el hecho de que los demás jugadores jueguen las
estrategias indicadas para ellos en dicho perfil.
Puede haber múltiples equilibrios de Nash en un juego y, por analogía con la notación
llamaremos S EN al conjunto de perfiles que son equilibrios de Nash.

Equilibrio de Nash según autores de libros


Un equilibrio de Nash según (Kreps, 1994) como un conjunto de estrategias tales, una para
cada jugador, que ningún jugador tiene incentivo alguno (en términos del mejoramiento de
su propio pago) para desviarse de su parte del conjunto de estrategias.
Gibbons (1992) definió como un perfil de estrategias del que ningún jugador desearía
desviarse unilateralmente, es decir, ninguno se arrepiente de la decisión tomada, dada las
estrategias decididas por el resto de los jugadores. Un Equilibrio de Nash está formado por
estrategias que son óptimas para cada jugador dado la estrategia del resto de jugadores.
Esto no significa que en un Equilibrio de Nash cada jugador esté alcanzando el mejor
resultado posible, sino el mejor resultado condicionado por el hecho de que los demás
jugadores jueguen las estrategias indicadas para ellos en dicho perfil.
Mientras (Binmore, 1996) como definición de equilibrio de Nash, libra es un signo del
Zodiaco. Representa la balanza usada antiguamente para pesar. Por tanto, el término de
equilibrio significa algo así como “igualmente pesado”. En teoría de juegos el tipo de
equilibrio más importante es el equilibrio de Nash. Si (𝑠, 𝑡) es un punto de equilibrio de
Nash, si y solo si 𝑠 es una respuesta óptima a 𝑡 y, simultáneamente 𝑡 es una respuesta
óptima a 𝑠. Así, si el jugador I prevé que la jugadora II usará la estrategia 𝑡, y la jugadora II
prevé que el jugador I usará la estrategia 𝑠, ninguno de los dos tendrá motivos para
conducirse de otra forma que la prevista por su oponente. En este sentido sus predicciones
están “equilibradas”.

Ejemplo (dilema del prisionero)


Preso 2
Callarse Confesar
Callarse –1; –1 –9; 0
Preso 1
Confesar 0; –9 –6; –6
Nota: Adaptado de Chevalier-Roignant & Trigeorgis (2011)

El dilema del prisionero representa cuatro perfiles como posibles soluciones en el juego:
(Callarse, callarse), (callarse, confesar)
(Confesar, callarse), (Confesar, confesar)

Profesores MA475 7
UPC – Departamento de Ciencias – Matemática Computacional

Analicemos cada uno de los perfiles:


⚫ (callarse, callarse) y supongamos que es un EN. Si el preso 1 prevé que el preso 2
jugará callarse. ¿Le interesará al preso 1 seguirá pensando a jugar callarse? La
respuesta es no. Fijada o dada la estrategia callar del preso 2, el preso 1 preferirá
desviarse de la estrategia indicada para él en el perfil propuesto como solución
puesto que con la estrategia confesar obtiene un pago superior.
u1 (confesar, callar) = 0 > −1 = u1 (callar, callar)
Este argumento también es aplicable para el preso 2 (por la simetría del juego).
⚫ Supongamos que se propone como solución en el perfil (confesar, callar). Este caso, si
el preso 2 supusiera que el preso 1 iba a jugar confesar, a él le convendría jugar la
estrategia de confesar, pues con ello maximiza su utilidad en este caso particular,
u2 (confesar, confesar) = −6 > −9 = u2 (confesar, callar)
Por lo tanto, el perfil (confesar, callar) tampoco es un EN.
⚫ En caso (callar, confesar). Es análogo al anterior intercambiando la posición de los
presos
⚫ Finalmente nos queda el caso (confesar, confesar). Este sí que, en un perfil de
equilibrio, ya que ninguno de los presos tiene incentivo para desviarse de un modo
unilateral de la estrategia que se propone. Si alguno de los presos decidiera seguir la
estrategia callar en solitario, perdería utilidad en relación con el perfil (confesar,
confesar), puesto que
u1 (callar, confesar) = −9 > −6 = u1 (confesar, confesar)
u2 (confesar, callar) = −9 > −6 = u2 (confesar, confesar)
En resumen:
¿(confesar, confesar) es un EN? Si
¿(confesar, callar) es un EN? No
¿(callar, confesar) es un EN? No
¿(callar, callar) es un EN? No
Entonces, nuestro conjunto de equilibrio de Nash es
EN = {(confesar, confesar)

Profesores MA475 8
UPC – Departamento de Ciencias – Matemática Computacional

Equilibrio de Nash con funciones de pago continuas


Ejemplo (Juego de las peticiones de Nash)
Reparto mediante peticiones simultáneas. Va a repartirse un pastel entre dos jugadores, de
acuerdo con las siguientes reglas: ambos escriben, simultáneamente, un número entre 0 y 1,
cuyo significado es la parte del pastel que reclaman. Si la suma de ambos números es igual o
menor que 1, cada jugador recibe en pago la parte que ha solicitado. En caso contrario,
ninguno de ellos recibe pastel.
En este juego, sus elementos son:

𝐽 = {1,2} , 𝑠1 = 𝑠2 = [0,1] ,
𝑠 si 𝑠1 + 𝑠2 ≤ 1 𝑠2 si 𝑠1 + 𝑠2 ≤ 1
𝑢1 (𝑠1 , 𝑠2 ) = { 1 𝑢2 (𝑠1 , 𝑠2 ) = {
0 si 𝑠1 + 𝑠2 > 1 0 si 𝑠1 + 𝑠2 > 1

En este juego a cada jugador le conviene, en respuesta a un hipotético 𝑥 que pudiera haber
escrito el otro, escribir un número 𝑦 lo más grande posible de modo que 𝑥 + 𝑦 no exceda a 1.
2
Por ejemplo, la respuesta óptima 𝑠2 = 3 sería 𝑠1 = 1/3. Formalmente, el jugador 1 (y
análogamente razonaría el jugador 2) determinaría su respuesta óptima a cualquier estrategia
𝑠2 del jugador 2 resolviendo.

𝑚á𝑥(𝑆1 ), 𝑠𝑢𝑗𝑒𝑡𝑎 𝑎: 0 ≤ 𝑆1 ≤ 1 𝑦 𝑆1 + 𝑆2 ≤ 1

Y el conjunto de soluciones obtenidas son:


1 − 𝑆2 𝑠𝑖 𝑆2 < 1
𝑃𝑎𝑟𝑎 𝐽1 : 𝑆1 = 𝑅1 (𝑆2 ) = {
[0; 1] 𝑠𝑖 𝑆2 = 1
1 − 𝑆1 𝑠𝑖 𝑆1 < 1
𝑃𝑎𝑟𝑎 𝐽2 : 𝑆2 = 𝑅2 (𝑆1 ) = {
[0; 1] 𝑠𝑖 𝑆1 = 1
El conjunto de los EN es 𝑆𝐸𝑁 = {(𝑆1 , 𝑆2 )|𝑆1 + 𝑆2 = 1} ∪ {(1; 1)}
Pues estos son los únicos perfiles en que cada estrategia es respuesta óptima a la otra.

Profesores MA475 9
UPC – Departamento de Ciencias – Matemática Computacional

Representación gráfica del conjunto de los equilibrios de Nash del juego:

Donde

Profesores MA475 10
UPC – Departamento de Ciencias – Matemática Computacional

Teoría de juegos con estrategias mixtas

Introducción
Consideremos el juego de las monedas (similar al juego de “pares o nones”) representado en
su forma estratégica en la siguiente tabla.

Jugador 2
C S
C –1; 1 1; –1
Jugador 1
S 1; –1 –1; 1
Podemos comprobar que ninguna de las cuatro combinaciones de estrategias posibles
constituye un equilibrio de Nash (en estrategias puras).
Consideremos que los jugadores en lugar de elegir una única estrategia, lo que hacen es
asignar una probabilidad a cada una de ellas. Resulta útil pensar que los jugadores lo que
eligen es una regla para seleccionar de manera aleatoria entre sus estrategias originales.
Denominaremos a cada una de esas posibles reglas estrategia mixta y a cada una de las
estrategias originales estrategia pura. Una estrategia mixta es, por tanto, una distribución de
probabilidad sobre el conjunto de estrategias puras {𝐶, 𝑆}. Podemos considerar que una
estrategia pura como una estrategia mixta degenerada que asigna toda la probabilidad a una
de las alternativas.

Equilibrio de Nash en estrategias mixtas


Supongamos que el jugador 1 juega “cara” con probabilidad 𝑝 y juega “sello” con probabilidad
1 − 𝑝; por tanto, su estrategia mixta es 𝑃1 = {𝑝, 1 − 𝑝}. De manera similar, el jugador 2 juega
“cara” con probabilidad 𝑞 y juega “sello” con probabilidad 1 − 𝑞; por tanto, su estrategia
mixta es 𝑃2 = {𝑞, 1 − 𝑞}.
Al permitir estrategias mixtas, el objetivo del jugador 1 es maximizar su ganancia esperada;
teniendo como variable de decisión 𝑝.
Para el juego de las monedas tenemos:

𝑚á𝑥𝑝 𝐸1 (𝑝1 , 𝑝2 ) = 𝑝𝑞(−1) + 𝑝(1 − 𝑞) ∙ 1 + (1 − 𝑝)𝑞 ∙ 1 + (1 − 𝑝)(1 − 𝑞)(−1)


𝑚á𝑥𝑝 𝐸1 (𝑝1 , 𝑝2 ) = (2𝑞 − 1) + 𝑝(2 − 4𝑞)
donde:
• 𝑝𝑞 es la probabilidad {𝐶, 𝐶},
• 𝑝(1 − 𝑞) es la probabilidad {𝐶, 𝑆},
• (1 − 𝑝)𝑞 es la probabilidad {𝑆, 𝐶} y
• (1 − 𝑝)(1 − 𝑞) es la probabilidad {𝑆, 𝑆}.

Como la ganancia esperada del jugador 1 es lineal en 𝑝, el “p” óptimo depende de si es


creciente o decreciente en 𝑝:

Profesores MA475 11
UPC – Departamento de Ciencias – Matemática Computacional

> 0 si 𝑞 < 1/2


𝜕𝐸1 (𝑝1 , 𝑝2 )
= 2 − 4𝑞 = {= 0 si 𝑞 = 1/2
𝜕𝑝
< 0 si 𝑞 > 1/2
La ganancia esperada del jugador 1 es creciente en 𝑞 < 1/2, entonces la mejor respuesta del
jugador 1 es 𝑝 = 1 (es decir “cara”). Si 𝑞 > 1/2 la ganancia esperada del jugador 1 es
decreciente y 𝑝 = 0 (es decir “sello”). Si 𝑞 = 1/2 el jugador 1 es indiferente entre las
estrategias puras cara y sello y también a las estrategias mixtas 𝑃1 y 𝑃2 . Por tanto, la
correspondencia de respuesta óptima del jugador 1 es:
1 si 𝑞 < 1/2
𝑅1 (𝑞) = { [0,1] si 𝑞 = 1/2
0 si 𝑞 > 1/2

De manera similar para el jugador 2, obtenemos:

𝑚á𝑥𝑞 𝐸2 (𝑝1 , 𝑝2 ) = (1 − 2𝑝) + 𝑞(4𝑝 − 2)


Luego
> 0 si 𝑝 > 1/2
𝜕𝐸2 (𝑝1 , 𝑝2 )
= 4𝑝 − 2 = {= 0 si 𝑝 = 1/2
𝜕𝑞
< 0 si 𝑝 < 1/2

Por consiguiente, la correspondencia de respuesta óptima del jugador 2 es


1 si 𝑝 > 1/2
𝑅2 (𝑝) = { [0,1] si 𝑝 = 1/2
0 si 𝑝 < 1/2
Gráficamente, las correspondencias de respuesta óptima son:

Considerando ambas gráficas en una misma figura, observamos que el equilibrio de Nash en
estrategias mixtas ocurre si 𝑝 = 1/2 y 𝑞 = 1/2.

Profesores MA475 12
UPC – Departamento de Ciencias – Matemática Computacional

Por tanto, el equilibrio de Nash en estrategias mixtas es


1 1 1 1
(2 “cara” + 2 “sello”; 2 “cara” + 2 “sello”).

Profesores MA475 13

También podría gustarte