EW11 - La théorie des jeux

Publié le 14 décembre 2008 par 1A 08/09 notes

La théorie des jeux

Le point de départ est de se demander comment est-ce que l’on peut prendre la meilleure décision possible en tenant compte de la présence et de la réponse des autres agents (interactions stratégiques).

Développée à la fin des années 40 (notamment par John Nash), cette théorie est très riche et propose une alternative à la concurrence pure et parfaite. S’appliquant à des situations où peu d’agents sont présents, elle représente également une transition avec la concurrence imparfaite. Elle s’applique à un très grand nombre de contextes (économique, mais surtout militaire, avec la guerre froide, politique aussi, entre partis, entre leaders ; les jeux bien sûr, la psychologie et l’incohérence temporelle.)

La théorie des jeux ne peut pas exister en concurrence pure et parfaite, principalement parce qu’en concurrence pure il n’y a que peu d’interactions entre les agents économiques (avec l’atomicité) ; au contraire, ici (comme en concurrence imparfaite) il y a peu d’agents donc de nombreuses interactions entre eux (certaines, entreprises tiennent compte de la demande des consommateurs et choisissent leur production en fonction des autres entreprises).

I] Retour sur l’oligopole de Cournot

Dans ce cadre simplifié il n’y a que deux entreprises, qui choisissent leur production qi = 1,2. L’offre est symbolisée par Q = q₁+q₂, la demande des consommateurs est D(p) et leur demande inverse p(q₁+q₂).

Chaque entreprise prend en compte l’impact de sa propre production : R(q₁) = p(q₁+q₂)q₁, de ce fait ses recettes dépendent de sa production et de celle de l’autre entreprise : en effet l’augmentation de la production de l’autre diminue les recettes, car la hausse de la production fait baisser les prix. Une entreprise essaie alors de maximiser ses recettes en prenant en compte celle de l’autre entreprise également.

Il y a donc une relation décroissante entre q₁ et q₂ : plus l’une produit, moins l’autre a intérêt à produire.

R(q₁) = p(Q)q₁ = p(q₁+q₂)q₁

Rm(q₁) = p(Q) + p’(Q)*q₁

= p(Q) [1+p’(Q)*q₁/p(Q)]

= p(Q) [1+p’(Q)*Q/p(Q)*q₁/Q]

= p(Q) (1 + 1/ε *α₁) avec α la part de marché de l’entreprise 1.

Le choix optimal de q₁ pour une valeur quelconque de q₂ est : Cm(q₁) = p(q₁+q₂).(1+ α_1/ε). Cela définit la relation décroissante entre q₁ et q₂.

On trace grâce à cette équation la fonction de réaction de l’entreprise 2 (son choix optimal pour tout point de production choisi par l’autre entreprise), fonction décroissante montrant que plus l’entreprise 1 produit, moins l’entreprise 2 produit. On trace également la courbe de réaction de l’entreprise 1 : l’intersection entre ces deux courbes est à la fois le point optimal de l’entreprise 1 quand l’entreprise 2 choisit q2* et le point optimal de l’entreprise 2 lorsque l’entreprise 1 choisit ce point q1* : la réaction de 1 est cohérente avec la réaction de 2 et réciproquement ; c’est donc un point de cohérence mutuelle.

(q1*, q2*) est un équilibre dit un « équilibre de Nash » : si l’un est atteint par une des entreprises, l’autre choisit l’autre point. C’est un équilibre fixe : si par chance ce point est atteint aucune des entreprises ne veut en dévier.

II] Dilemme du prisonnier

Ce dilemme a été inventé pour faire comprendre cette théorie des jeux de façon simple. Il est sûr que deux hommes ont volé, mais n’a pas assez de preuves et a besoin d’aveux : les deux ont promis de ne pas se trahir.

On établit une matrice du jeu, du gain (ici, négatif) ou « payoff » (= utilité dans le cadre de la théorie des jeux), qui correspond ici au nombre d’années en prison dans chaque situation. Si l’un nie et l’autre avoue, celui qui a avoué n’a aucune année de prison. Si les deux nient ils ont chacun un an, si les deux avouent ils ont 4 ans chacun.

La meilleure stratégie pour le voleur 1 dépend de la stratégie du voleur 2 : on doit observer chacune des possibilités car le voleur 1 ne connaît pas ce qu’a fait le voleur 2 lorsqu’il faut prendre sa décision.

Supposons que le voleur 2 nie : alors il faut avouer pour éviter toute année de prison. Si le voleur 2 avoue, il vaut mieux avouer pour prendre 4 ans et non 5. « Avouer » est donc une stratégie dominante pour le joueur 1. Il choisit rationnellement d’avouer, donc de faire défection. Cependant le jeu est symétrique : avouer est aussi la stratégie dominant pour le voleur 2, la solution du jeu est donc que chacun fasse défection au pacte (D,D).

C’est donc un équilibre de Nash, avec une solution non-coopérative.

En résumé, l’équilibre de Nash est un concept d’équilibre stable, ce qui est assez naturel : si on y est, on y reste. Il repose sur la rationalité des agents (= égoïsme). La convergence vers l’équilibre est spontanée. Or ce sont trois similitudes avec la « main invisible » d’Adam Smith, montrant comment on peut considérer cette théorie comme une alternative à celle de la concurrence pure et parfaite.

Il y a toutefois quelques différences ; les équilibres de Nash sont souvent multiples, pas Pareto-optimal.

Dans un cadre stratégique l’équilibre atteint n’est pas nécessairement efficace. Il y a une nécessité de coopérer, mais c’est difficile car la défection est tentante. La rationalité individuelle s’oppose ici à la rationalité collective. On peut citer un autre exemple : au restaurant, tout le monde finit par parler fort, on se fixe un équilibre moins intéressant car sinon personne ne s’entend.

III] Emergence de la coopération

1) Partie théorique

Existe-t-il un contexte dans lequel la coopération peut émerger spontanément ?

- Des normes apparaissent lorsque le marché est défaillant ; elles peuvent être imposées (contrôles réciproques, mafia).

- Lorsqu’il y a des jeux répétés (plusieurs parties jouées entre les mêmes joueurs : intérêt à coopérer). Ils mémorisent le résultat des tours précédents. Dès lors, on peut établir une stratégie : une stratégie est, à chaque période, une règle de décision connaissant les actions passées.

All D : toujours faire défection

All C : toujours coopérer

TIT-FOR-TAT : coopérer au premier coup, puis donnant-donnant (faire ce que l’autre a fait au coup précédent, pardon au bout d’une période)

Permanent retaliation : coopérer tant que l’autre coopère ; ensuite, défection perpétuelle

Existe-t-il une meilleure stratégie dans le dilemme du prisonnier répété ? Elle dépend de toute façon de la stratégie de l’autre. A un instant donné, il peut y avoir un gain à coopérer, mais ce n’est pas certain, don il n’y a pas forcément de meilleure stratégie.

Si l’on considère que l’on est dans l’univers des jeux finis, ils s’arrêtent au bout de T périodes, et surtout la fin du jeu est connue à l’avance par els joueurs. On raisonne alors à rebours en partant de la dernière période (backward induction).

- En T (dernière période) : (D,D)

- En T-1, on sait qu’il y aura défection en période 4 de toute façon, donc il n’y a aucun intérêt à comparer : (D,D)

- En T-2, puis en T-3, c’est-à-dire la première, c’est la même chose : (D,D).

Dans un monde où la défection n’est pas punie par une norme, All D est la meilleure stratégie. Toutefois les jeux peuvent être infinis (ne s’arrêtent pas, ou s’arrêtent aléatoirement, de façon imprévue. Il n’y a pas de raisonnement par induction possible. Le résultat est alors inverse du résultat : d’après le Folk theorem, « (presque) toutes les solutions sont possibles », y compris des stratégies coopératives.

2) Les expériences de Robert Axelrod

Ce politologue a proposé un tournoi : vous allez programmer une stratégie sur un dilemme du prisonnier, répétée, et chaque programme sera opposé aux autres, et à lui-même, pendant 200 manches, et celui avec le pay-off le plus élevé gagne.

Il y ajoute un joueur aléatoire (RANDOM). Il y a un score de référence : (C,C), 200*3 = 600.

15 programmes se sont affrontés, de longueur entre 4 et 77 lignes.

Le modèle RANDOM (5 lignes) a été dernier, avec 276 points. Les programmes sophistiqués n’ont pas forcément fait les meilleurs scores. Celui qui a gagné était celui d’une longueur de 4 lignes, avec la stratégie de TIT-FOR-TAT, soumis par un chercheur en psychologie.

Les scores sont non reliés à la discipline du programmateur ni à la complexité du programme, mais dépendaient d’une propriété appelées niceness, à savoir ne pas être le premier à faire défection. Chacun des programmes « nice » a obtenu 600 points avec chacun des 5 autres « nice ». Celui de permanent retaliation était « nice », mais seulement 7^e sur 15. Le pardon peut donc payer.

Le second tournoi a réuni 62 participants, mais à nouveau le TIT-for-TAT a gagné ; toutefois le TIT-for-TWO-TAT aurait fait légèrement plus

Quelques petits conseils à tirer de ces expériences :

Il ne faut pas chercher à faire plus que l’adversaire (jeu de coopération, pas à somme nulle)

Don’t be the first to defect.

Reciprocate (both cooperation and defection)

Don’t be too clever

3) Application

Même si la théorie dit que la coopération est impossible l’expérience montre qu’elle émerge spontanément (comportements collusifs : accord parfois tacite des entreprises, par exemple pour monter les prix, ou cartels : accord explicite, comme l’OPEP) : d’où la nécessité d’instances de régulation de la concurrence.

Il y a deux niveaux d’inefficacité en concurrence imparfaite, et s’il y a une coordination avec une entente sur les prix (où ils produisent encore moins que sans coopération)

Cournot-Nash, fonctions de réaction, raisonnement par induction, folk theorem, applications diverses.