Publicat în Diverse

TEORIA JOCURILOR (episodul 2)


Dilema Prizonierului – un altfel de abordare

Am văzut în episodul anterior că un “joc”, în accepțiunea Teoriei Jocurilor, reprezintă practic o situație socială în care fiecare participant, în virtutea Raționalității de care dă dovadă, caută să-și maximizeze recompensa/câștigul în condițiile respectării unui set de reguli stabilite a priori. Doresc să menționez de la bun început că acest „comportament Rațional” amintit aici, pare astăzi singurul acceptabil și dezirabil, din simplul motiv că ne aflăm sub înrâurirea unei anumite paradigme care ne prezintă Realitatea într-un anumit mod (i.e. ateu, materialist, etc). Atâta tot. În lumina altei paradigme, un astfel de comportament (considerat azi rațional, prin care se caută maximizarea câștigului) este foarte posibil să nu mai fie atât de acceptabil și de dezirabil. Voi reveni cu altă ocazie asupra acestei chestiuni de importanță capitală, dar pentru moment, pentru a nu complica inutil expunerea, mă voi limita la a considera acest comportament rațional, ca fiind unul acceptabil și dezirabil pentru individ, în general.

Am văzut de asemenea că în Teoria Jocurilor, modelarea matematică a unui “joc” se face prin definirea următoarelor 3 elemente: jucătorii, startegiile de care dispun aceștia și recompensa/câștigul. Pornind de la acestea să analizăm unul din cele mai de notorietate jocuri sociale, cunoscut sub numele de Dilema Prizonierului. Despre acest subiect s-a scris atât de mult, încât îl consider deja trivial, dar pentru coerența expunerii și pentru cei care nu s-au mai întâlnit cu această temă voi relua ceea ce am spus și acum câțiva ani (aici) pe această temă.

Dilema prizonierului provine din teoria jocurilor (o teorie matematică fundamentată în anii ’60) și are mai multe variante. Într-una dintre acestea este vorba de doi prizonieri A și B care tocmai au fost arestați fiind suspectați de spargere. Autoritățile judiciare au suficiente probe pentru a-i găsi pe cei doi vinovați de infracțiunea minoră de intrare prin efracție, dar nu au suficiente probe pentru dovedi infracțiunile mai grave de spargere și vătămare corporală. După arestare cei doi sunt imediat separați și li se prezintă fiecăruia următoarele posibilități: recunosc că se fac amândoi vinovați de respectiva infracțiune gravă sau păstrează tăcerea. Consecințele alegerii lor depind de ceea ce va face și celălalt prizonier. Dacă ambii aleg să păstreze tăcerea (să nu trădeze) nu pot fi acuzați decât de infracțiunea minoră și primesc fiecare 1 an de închisoare. Dacă ambii aleg să recunoască fapta gravă (să trădeze pe celălalt), ambii primesc 5 ani de închisoare. Dacă unul din ei alege să păstreze tăcerea (să nu trădeze), iar celălalt să recunoască fapta (să trădeze), atunci cel care a trădat (“a colaborat cu procurorii“) este eliberat, iar celălalt primește 20 ani de închisoare. Încercați să vă puneți în situația unuia dintre prizonieri care are de luat o astfel de decizie. Cum este cel mai rațional să procedați astfel încât să minimizați anii de închisoare pe care urmează să-i ispășiți? Evident, v-ar conveni ca dvs. să trădați, iar celălalt să păstreze tăcerea, caz în care ați fi eliberat, celălalt urmând să facă 20 ani de închisoare. Dar oare nu la fel gândește și celălalt prizonier? Pe de altă parte ideal ar fi ca ambii să coopereze, dar prizonierii nu au cum să facă acest lucru, deoarece nu pot comunica între ei. Răspunsul nu este ușor de dat, pentru că aceasta este o dilemă. Nu insist foarte mult, dar concluzia este că dacă ambii prizonieri vor alege exclusiv rațional, ei nu au nici un interes să coopereze, varianta trădării fiind cea mai avantajoasă pentru fiecare atunci când nu se știe ce va alege celălalt. Concluzia tristă este faptul că ambii primesc 5 ani de închisoare.

prisoner_dilemma

Să ne oprim pentru moment și să analizăm încă o dată tabelul recompenselor și să vedem cum raționează fiecare jucător în parte:

tabel1

Prizonierul A nu știe dacă B va coopera sau va trăda. În cazul în care acesta (B) trădează (coloana 1), varianta optimă pentru A este să trădeze la rândul său; în caz contrar el urmând să primească 20 de ani de închisoare. În cazul în care B cooperează (coloana 2), observăm că varianta optimă pentru A este tot să trădeze (nu primește niciun an de închisoare), față de varianta cooperării care-i va aduce însă un an de închisoare. Deci în ambele cazuri, cel mai rațional posibil pentru A este să trădeze (spunem că Strategia sa Dominantă este: Trădarea). Similar este și raționamentul lui B și de aceea, ambii trădează, primind 5 ani de închisoare.

Deci celula colorată în roșu (cazul în care ambii prizonieri aleg varianta trădării) este și cea rațională pentru ambii jucători. Orice deviație de la jucarea variantei trădării nu aduce nimic în plus niciunui jucător. Fiecare jucător presupune (deoarece este rațional) că celălalt jucător va juca întotdeauna strategia sa cea mai bună (care-i aduce câștigul maxim sau pierderea minimă), deci schimbarea acestei strategii (în care trădează) nu-i aduce nici un avantaj. Acest punct în care niciunul din jucători nu are nici un interes în a-și schimba strategia se numește Punct de Echilibru Nash.

Mai observăm că, în cazul Dilemei Prizonierilor, punctul de echilibru Nash nu reprezintă și varianta optimă cumulată a ambilor jucători. În acest punct de echilibru Nash ambii jucători primesc cumulat 10 ani de închisoare. Optim ar fi fost ca ambii să păstreze tăcerea (să coopereze), primind astfel cumulat, doar 2 ani de închisoare. Doar că raționalitatea (maximizarea unilaterală a câștigului) îi împiedică pe amândoi să adopte această strategie a cooperării și deci, de a obține un rezultat mai bun împreună.

Dilema prizonierului are câteva variante, iar strategiile de a juca acest joc diferă enorm în funcție de numărul de repetiții consecutive ale acestui joc. În cazul situației singulare (cazul de mai sus al celor doi prizonieri) am văzut că varianta trădării este varianta optimă pentru fiecare și aceasta dintr-un motiv foarte simplu: decizia fiecărui prizonier nu poate afecta decizia celuilalt și independent de decizia luată de celălalt se plasează într-o poziție mai bună dacă trădează.

Cazul acestui joc desfășurat de un număr finit de ori (să spunem 5 ori) nu diferă de cazul jocului singular, lucru care se poate demonstra prin inducție. Cu toate acestea situația se schimbă radical atunci când avem de-a face cu repetarea acestui joc de o infinitate de ori. Acest lucru îl facem practic mereu în relațiile noastre cu semenii în situațiile când alegem să colaborăm sau să “trădăm“. Practic jucăm zi de zi acest joc în cele mai diverse situații și ajungem să întrezărim faptul că putem influența comportamentul celuilalt prin propriul nostru comportament. Dar să nu anticipăm. Jocul dilemei prizonierului jucat de o infinitate de ori merită analizat în amănunt, deoarece are aplicabilitate și în relația noastră cu politicienii. (Nu ne dăm seama, dar noi jucăm acest joc cu ei de fiecare dată când suntem chemați să ne exprimăm opțiunea prin intermediul sufragiului popular).

În 1981, Robert Axelrod, un eminent specialist în Teoria Jocurilor, a pus comunității științifice o întrebare în revista Science. Se știa din analiza teoretică că strategia de cooperare în prima fază a jocului este varianta optimă. Dar oare strategia noastră ar trebui să fie mereu de cooperare? Evident nu! Pentru că astfel se ajunge fără doar și poate la exploatare. Și atunci, întreba Axelrod, care este cea mai bună strategie de aplicat? Pentru aceasta a organizat un concurs de algoritmi software în care, fiecare asemenea algoritm era confruntat cu fiecare din celelalte propuse. Rezultatul a fost evaluat în funcție de câștigul rezultat din confruntarea fiecărei strategii cu toate strategiile adversarilor. În final, s-a descoperit că cea mai bună strategie a fost cea care a avut algoritmul cel mai simplu posibil, programul FORTRAN aferent având doar 4 linii de cod. Această strategie a fost denumită dinte pentru dinte și a fost elaborată de Anatol Rapoport. El a acumulat cele mai multe puncte din toate rundele desfășurate împotriva celorlalte strategii posibile. În esență strategia dinte pentru dinte este foarte-foarte simplă: cel care o aplică cooperează întotdeauna la început (în prima rundă), iar în rundele următoare procedează la fel cum a procedat adversarul său la runda anterioară. Este evident că de vreme ce jucătorul care aplică această strategie cooperează în prima rundă el nu poate fi niciodată mai bun decât adversarul său. Maximul pe care îl poate realiza această strategie este ca jucătorul să obțină la fel de mult ca și adversarul. Și totuși, dacă nu-și învinge niciodată adversarul cum de reușește această strategie să genereze cele mai multe câștiguri totale? Iar răspunsul este foarte simplu: ea îi face pe adversari să coopereze! Pentru a explica asta asta se impune o analiză psihologică a eficienței strategiei dinte pentru dinte.

1)      Este o strategie din care lipsește invidia. Jucătorul care aplică această strategie nu este invidios. Nu-i pasă că nu-l poate învinge niciodată pe adversar. Această strategie nu poate da niciodată un rezultat mai bun decât strategiile care i se opun, oricare ar fi acestea. Ea este menită să sporească la maximum câștigul propriu pe termen lung.

2)      Este o strategie agreabilă. Cel care care aplică strategia cooperează întotdeauna la început și nu trădează niciodată primul, ci doar ca o consecință a opțiunii anterioare a adversarului. În relațiile pe care le avem cu oamenii este foarte greu din punct de vedere psihologic să ne revenim după trădările inițiale, iar comportamentul combativ-agresiv deteriorează relațiile.

3)      Este o strategie bazată pe tenacitate. O strategie de cooperare permanentă ar putea fi exploatată de adversar (cum se întâmplă adesea în relațiile dintre oameni). Jucătorul care aplică strategia dinte pentru dinte se poate simți provocat – el va trăda dacă adversarul îl provoacă la luptă. Acest jucător răspunde la trădare cu trădare, ceea ce constituie o caracteristică importantă a acesteia. Procedând astfel, el transmite adversarului mesajul că nu poate profita de el. S-a observat în studiile efectuate că jucătorii care aplică această strategie îi îndepărtează pe cei cu atitudine agresivă, reducând la minimum interacțiunile necooperante.

4)      Este o strategie a iertării. Am văzut anterior că jucătorul care aplică această strategie este tenace, el răspunzând trădării cu trădare. Dar în același timp el este la fel de tenace pentru că răspunde cooperării cu cooperare, ceea ce conduce la iertare. În cele mai multe cazuri, oamenilor le vine greu să-și revină după trădări, angrenându-se într-o spirală nebunească centrată pe agresiune. Mai mult de atât, această strategie ne asigură că reacțiile la agresiunea declanșată nu depășesc niciodată amploarea acesteia.

5)      Este o strategie a lipsei de abilitate. Este chiar ironic că tocmai lipsa de abilitate de acestei strategii o face atât de eficientă pe termen lung. Și asta pentru că adversarii își dau seama imediat de comportamentul celui care o aplică și asta are importante consecințe psihologice. Când oamenii nu știu la ce să se aștepte, există șanse mari ca ei să adopte un comportament defensiv-agresiv, iar când incertitudinea atinge cote înalte, oamenii se așteaptă pur și simplu la ce e mai rău din partea celorlalți, acest lucru sporind agresivitatea.

Cum influențează regulile rezultatul obținut

Oamenii de bună credință pot găsi deranjant faptul, că tocmai raționalitatea ar putea fi responsabilă pentru împingerea individului către un comportament mai puțin optim sau chiar, către unul imoral (cum este trădarea). De aceea, trebuie să punem punctul pe i încă o dată. Nicăieri în literatura de specialitate nu se pune accentul pe modul în care regulile jocului influențează rezultatul acestuia, ci doar pe modelarea matematică a jocului în sine și mai ales, nu se arată negru pe alb, că responsabile de această lipsă de eficacitate (rezultatul obținut de participanții la joc este sub-optim) sau de imoralitate sunt regulile jocului și nicidecum indivizii (participanții) sau conceptul de raționalitate în sine.

Să mai privim o dată tabelul cu recompense de mai sus (regulile jocului) și să observăm cum are loc măsluirea acestuia. Practic, prin definirea acestor recompense în acest fel are loc și definirea Strategiilor Dominante ale ambilor jucători și deci, împingerea acestora spre adoptarea unui anumit tip de comportament dorit de creatorul regulilor (în cazul de față procurorii). Observăm cum în acest joc, ca și în multe altele din Realitatea Concretă, strategia Trădării este recompensată, în timp ce strategia Cooperării este pedepsită. Este normal, ca individul să o adopte pe prima în detrimentul celei de-a doua, deoarece Trădarea îi aduce un beneficiu, în timp ce Cooperarea îi aduce o pierdere. Vedem cum se năruie astfel, tot edificiul propagandistic construit cu migală de Creatorii de Reguli, care, prin intermediul întregii paradigme culturale contemporane transferă responsabilitatea acțiunilor indivizilor către aceștia, în timp ce ei înșiși nu fac altecava decât să-i deposedeze pe acești indivizi de fructele rezultate din aceste acțiuni.

Mai concret, prin crearea ansamblului de reguli, ei împing punctul de echilibru Nash al jocurilor sociale către celula roșie din tabel, deși optim ar fi fost ca acesta să fie împins către cea verde.

Haideți să analizăm acum, cum ar arăta acest joc, dacă regulile ar fi modificate în sens contrar (strategia Cooperării ar fi încurajată, iar cea a Trădării descurajată).

tabel2

Am notat pentru o mai bună înțelegere cu “-∞” moartea individului (amenințarea supremă). Observăm că strategia Trădării este inevitabil pedepsită cu moartea, deci ambii prizonieri sunt descurajați să adopte această strategie. În concluzie ambii vor coopera, deși fiecare va primi câte un an de închisoare. Iată cum, simpla schimbare a regulilor jocului, conduce punctul de echilibru Nash în altă parte.

Ca o paranteză, acest al doilea tabel este specific activității Mafiei, unde trădarea este pedepsită cu moartea, iar cooperarea (tăinuirea) încurajată (asigurarea unui avocat care va obține o pedeapsă mai mică pentru cel prins). Iată cum Omerta imprimă un cu totul alt comportament jucătorilor, care – culmea! – și de această dată sunt absolut raționali în alegerile pe care le au de făcut.

Abia acum capătă sens tot ceea ce până azi părea de neînțeles! Abia acum devine brusc explicabilă din punct de vedere rațional, eficacitatea și coeziunea mafioților, precum și lipsa de unitate a acțiunii indivizilor de bună credință. Și iată, cum brusc capătă sens și explicație comportamentul aparent autodistructiv al speciei umane, angrenată în jocul frenetic al consumului irațional de resurse.

boss1

Deci, în ciuda propagandei contemporane, punctul de echilibru Nash al oricărei dileme sociale depinde în primul rând de regulile stabilite pentru respectivul joc (nu de raționalitate!), iar manipularea acestui punct de echilibru se face prin stabilirea unui ansamblu de reguli care recompensează comportamentul (acțiunea) dorit(ă) (de creatorul acestor reguli) și pedepsește comportamentul (acțiunea) opus. Cultura anglo-saxonă a denumit această paradigmă a influențării: “The stick and the carrot” (Bățul și Morcovul). Atâta timp cât individul adoptă comportamentul dorit de Manipulator acesta este recompensat, iar atunci când deviază de la acesta este pedepsit. Observăm că optimul pentru individ nu are absolut nici o relevanță în contextul acestei paradigme.

Deci inginerii sociali de mâine nu au de făcut decât un singur lucru: să-și imagineze Sisteme Sociale în care să recompenseze comportamentul dorit al individului și să-l inhibe prin pedepse adecvate pe cel nociv. Nimic mai mult! Doriți ca oamenii să adopte un comportament responsabil față de mediu? Recompensați plantarea de copaci și pedepsiți cu asprime defrișările! Doriți o coeziune socială mai bună? Recompensați unitatea, spiritul gregar, turma și descurajați individualismul. Doriți invers? Procedați invers.

(va urma)

Anunțuri

Autor:

Adevărul le foloseşte celor care-l ascultă, dar le face rău celor care-l spun. (Winston Churchill)

Lasă un răspuns

Completează mai jos detaliile tale sau dă clic pe un icon pentru a te autentifica:

Logo WordPress.com

Comentezi folosind contul tău WordPress.com. Dezautentificare / Schimbă )

Poză Twitter

Comentezi folosind contul tău Twitter. Dezautentificare / Schimbă )

Fotografie Facebook

Comentezi folosind contul tău Facebook. Dezautentificare / Schimbă )

Fotografie Google+

Comentezi folosind contul tău Google+. Dezautentificare / Schimbă )

Conectare la %s