Exemples Jeux Repetes
Exemples Jeux Repetes
Exemples Jeux Repetes
Jeux répétés
Plan
(23 juillet 2008)
Références :
Exemple.
A B C
A (5, 5) (0, 0) (12, 0)
B (0, 0) (2, 2) (0, 0)
C (0, 12) (0, 0) (10, 10)
• Deux grandes classes de jeux répétés : horizon fini / horizon infini image
• Hypothèses ici : “super-jeu”
– Information complète – Observation parfaite et publique des actions passées
⇒ Jeu à information presque parfaite
• Introduction éventuelle d’un taux d’actualisation
5/
Taux d’actualisation
Préférence pour le présent, impatience : accorder plus de valeur aux gains présents
que futurs
Taux d’actualisation (facteur d’escompte) δ ∈ [0, 1] : le joueur est indifférent entre
recevoir x demain et δ x aujourd’hui ➠ patience ⇔ δ élevé
Exemple : ∀ δ < 1, (1, −1, 0, 0, . . .) ≻ (0, 0, 0, 0, . . .)
Remarque : Si on définit
∞
X
Vt = (1 − δ) δ s−t x(s)
s=t
on a
Vt = (1 − δ) x(t) + δ Vt+1
|{z} |{z}
paiements courants paiements de continuation
8/
Théorie des jeux Jeux répétés
Définitions
☞ Punition la plus sévère qui peut être infligée à i dans G (sans corrélation des
stratégies)
10/ Explication. wi est individuellement rationnel pour le joueur i s’il existe un profil de
stratégies τ−i des autres joueurs (le profil de stratégies minmax contre i) qui assure
que quoique fasse le joueur i, son gain n’est pas plus grand que wi :
Définition. Étant donné un jeu sous forme normale G = hN, (Ai ), (ui )i, le jeu
répété fini G(T, δ) est le jeu sous forme extensive où G est joué en T étapes, où les
actions de toutes les étapes passées sont publiquement et parfaitement observées,
et où les utilités des joueurs sont les utilités totales (ou moyennes) actualisées au
taux δ
Unique EN (ENPSJ) du dilemme des prisonniers répété un nombre fini de fois : les
deux joueurs dénoncent à toutes les périodes
Particularité du jeu du dilemme des prisonniers : les paiements d’équilibre sont les
paiements minmax
D C P
D (1, 1) (3, 0) (−1, −1)
C (0, 3) (2, 2) (−2, −1)
P (−1, −1) (−1, −2) (−3, −3)
D C M N
D (1, 1) (3, 0) (0, 0) (−2, 0)
C (0, 3) (2, 2) (0, 0) (−2, 0)
M (0, −2) (0, −2) (2, −1) (−2, −2)
N (0, 0) (0, 0) (0, 0) (−1, 2)
16/
Trois EN en stratégies pures dans le jeu de base :
D C M N
D (1, 1) (3, 0) (0, 0) (−2, 0)
C (0, 3) (2, 2) (0, 0) (−2, 0)
M (0, −2) (0, −2) (2, −1) (−2, −2)
N (0, 0) (0, 0) (0, 0) (−1, 2)
Un ENPSJ du jeu en deux étapes (sans actualisation) :
– Première étape : s1i = C
D
si (a11 , a12 ) = (C, C) ou {a11 et a12 6= C}
17/
– Deuxième étape : s21 (a11 , a12 ) = M si a11 = C et a12 6= C
si a11 6= C et a12 = C
N
D
si (a11 , a12 ) = (C, C) ou {a11 et a12 6= C}
2 1 1
s2 (a1 , a2 ) = M si a11 = C et a12 6= C
N si a11 6= C et a12 = C
☞ Le joueur qui punit est “rémunéré”
Définition. Étant donné un jeu sous forme normale G = hN, (Ai ), (ui )i, le jeu
répété infini G(∞, δ) est le jeu sous forme extensive où G est répété indéfiniment,
où les actions de toutes les étapes passées sont publiquement et parfaitement
observées, et où les utilités des joueurs sont les utilités moyennes actualisées au
taux δ
19/
3 b
20/ 2 b
1 b
0 b
0 1 2 3
Théorie des jeux Jeux répétés
a b b
3
a (3, 2) (1, 1)
b (0, 0) (2, 3) b
2
1 b
21/
0 b
0 1 2 3
Stratégies et automates
• Ensemble d’états Ei
• Fonction output fi : Ei → Ai
Remarques.
– Dans certaines approches (par exemple, dans celles sur la rationalité limitée) on
définit la fonction de transition par τi : Ei × A−i → Ei . Dans ce cas l’action de i
ne dépend pas de ses propres actions passées
23/
– On caractérise parfois la complexité d’une stratégie par la taille (le nombre
d’états) du plus petit automate permettant de la représenter
Stratégie “grim” : Commencer par jouer C puis jouer C ssi les deux joueurs ont
toujours joué C
{(C, C)} {a ∈ A}
{a 6= (C, C)}
e0 : C e1 : D
Théorie des jeux Jeux répétés
• E = {e0 , e1 }
• f (e0 ) = C et f (e1 ) = D
• τ (e, a) = e ssi a = (·, f (e))
25/
{(·, C)} {(·, D)}
{(·, D)}
e0 : C e1 : D
{(·, C)}
Les deux joueurs jouent “grim” ou “Tit for Tat” ⇒ coopération à toutes les
périodes
σi |ht
Ainsi, une déviation en un coup correspond à la stratégie d’origine après toutes les
histoires, sauf à la période après l’histoire h̃t , où la déviation a lieu
Théorie des jeux Jeux répétés
27/
Cette propriété s’applique aussi pour les ENPSJ des jeus répétés finis
Mais elle ne s’applique pas pour les équilibres de Nash, comme le montre l’exemple
suivant
28/
(1 − δ)(4(1 + δ 2 + δ 4 + · · · ) − 1(δ + δ 3 + · · · ))
4 δ 4−δ
= (1 − δ)( − )=
1 − δ2 1 − δ2 1+δ
4−δ
La déviation n’est pas profitable si 1+δ
≤ 3, i.e., δ ≥ 1/4
Mais une déviation vers la défection perpétuelle (qui n’est pas déviation en un
δ
29/ coup) est profitable quand (1 − δ)(4 + 1−δ ) > 3, i.e., δ < 1/3
⇒ Pour δ ∈ [1/4, 1/3) TFT n’est pas un EN même s’il n’y a pas de déviation en un
coup profitable
Conditions pour que “grim” pour chaque joueur soit un EN ? On utilise la propriété
de déviation en un coup. Période t sur le chemin d’équilibre :
C −→ 3
D −→ (1 − δ)4 + δ
3 ≥ (1 − δ)4 + δ
30/ ⇔ δ ≥ 1/3
Dans les sous-jeux hors équilibre (i.e., ∃ s < t, as1 ou as2 = D), une déviation n’est
jamais profitable
⇒ un ENPSJ du jeu répété infini ne consiste pas nécessairement à répéter les
équilibres du jeu de base, même si le jeu de base a un unique EN
Théorie des jeux Jeux répétés
“Folk Theorems”
31/
2
Paiements d’équilibre
1
33/
Paiements réalisables
0
0 1 2 3
Mais le DP est très particulier car le paiement à l’EN du jeu de base = paiement
minmax
Pn
CPO de la firme i : 1 − j6=i qj − 2qi∗ − c = 0
Pn
⇒ qi∗ = 1 − j=1 qj∗ − c pour tout i
⇒ l’équilibre doit être symétrique (qi∗ = qi ∀ i) et ui (qi∗ , q−i ) = (qi∗ )2
Théorie des jeux Jeux répétés
1−c
⇒ q ∗ = 1 − nq ∗ − c = n+1
1−c 2
⇒ ui (q ∗ , . . . , q ∗ ) = ( n+1 )
1 n
⇒ Prix d’équilibre p∗ = 1 − nq ∗ = n+1
+ n+1
c
Est-ce que des marchés moins concentrés sont toujours plus compétitifs et meilleurs
pour le bien être des consommateurs dans le jeu de Cournot répété ?
Pas nécessairement . . .
Pour simplifier, posons c = 0
1
Collusion. Chaque firme produit 2n lorsque les autres firmes font de même, et
1
produit n+1 sinon (∼ stratégie “grim” du DP)
Ainsi, sur le chemin d’équilibre, le prix et les quantités totales valent 1/2, comme
dans le marché monopolistique
1 1 1
Le profit de la firme i est égal à 2n 2
= 4n
. La firme i ne dévie pas si (utiliser la
propriété de déviation en un coup)
1 1
(1 + δ + δ 2 + · · · ) ≥ Yi + ( )2 (δ + δ 2 + · · · )
4n n+1
36/ où Yi est le profit
P de i lorsque i dévie vers sa stratégie d’étape de meilleure réponse
1− qj 1−(n−1)/2n n+1
M Ri (q−i ) = j6=i
2
= 2
= 4n
, i.e., Yi = ( n+1
4n
)2
La condition de non-déviation devient
1 n+1 2 δ
≥( ) +
4n(1 − δ) 4n (1 − δ)(n + 1)2
n2 +2n+1
i.e., δ ≥ n2 +6n+1
<1
Conclusion : À un ENPSJ du jeu de Cournot infiniment répété, les firmes peuvent
reproduire la situation de monopole si le taux d’actualisation est suffisamment élevé
Théorie des jeux Jeux répétés
➢ Le paiement minmax est égal à 0, donc tout paiement réalisable tel que chaque
firme a un profit strictement positif peut être obtenu à un équilibre de Nash si les
firmes sont suffisamment patientes
➢ Tout paiement réalisable tel que chaque firme gagne strictement plus qu’à
l’équilibre de Cournot standard (en une étape) peut être obtenu à un équilibre de
37/ Nash parfait en sous-jeux si les firmes sont suffisamment patientes
Remarque. En fait, le folk theorem pour l’ENPSJ est plus général que dans la
proposition, mais utilise des punitions plus compliquées que des équilibres de Nash
du jeu d’étape. Ceci n’a pas d’importance dans le DP car l’EN du jeu d’étape est la
punition la plus sévère possible. Mais cette propriété n’est pas vrai dans tous les
jeux (e.g., dans l’oligopole de Cournot)
Références
Mailath, G. J. et L. Samuelson (2006) : Repeated Games and Reputations, Oxford University Press.
Osborne, M. J. (2004) : An Introduction to Game Theory, New York, Oxford : Oxford University Press.
Osborne, M. J. et A. Rubinstein (1994) : A Course in Game Theory, Cambridge, Massachusetts : MIT Press.
38/