囚徒困境博弈_论述囚徒困境中两个囚徒之间的博弈过程（西方经济

发布日期：2020-02-22 05:08:00编辑：音乐人

论述囚徒困境中两个囚徒之间的博弈过程（西方经济学）

囚徒困境可以简单的用图上的表格表示出来，

针对甲而言，如果乙选择了沉默，则对于甲而言，选择沉默是判罪一年，如果坦白，是立即获释；

如果已选择了认罪，则对于甲而言，选择沉默是判罪十年，选择坦白，是判罪一年。

因此，无论乙做何种选择，甲的最优策略只有选择坦白。

同理，无论甲做何种选择，乙的最优策略也只有选择坦白。

所以，囚徒困境的纳什均衡就是甲乙都选择坦白。

这场博弈的纳什均衡，显然不是顾及团体利益的帕累托最优解决方案。以全体利益而言，如果两个参与者都合作保持沉默，两人都只会被判刑1年，总体利益更高，结果也比两人背叛对方、判刑8年的情况较佳。但根据以上假设，二人均为理性的个人，且只追求自己个人利益。均衡状况会是两个囚徒都选择背叛，结果二人判决均比合作为高，总体利益较合作为低。这就是“困境”所在。该例子漂亮地证明了：非零和博弈中，帕累托最优和纳什均衡是相冲突的。

囚徒困境的来历和博弈的关系

“囚徒困境”是1950年美国兰德公司提出的博弈论模型。两个共谋犯罪的人被关入监狱，不能互相沟通情况。如果两个人都不揭发对方，则由于证据不确定，每个人都坐牢一年；若一人揭发，而另一人沉默，则揭发者因为立功而立即获释，沉默者因不合作而入狱十年；若互相揭发，则因证据确实，二者都判刑八年。由于囚徒无法信任对方，因此倾向于互相揭发，而不是同守沉默。

来源：

囚徒困境的故事讲的是，两个嫌疑犯作案后被警察抓住，分别关在不同的屋子里接受审讯。警察知道两人有罪，但缺乏足够的证据。警察告诉每个人：如果两人都抵赖，各判刑一年；如果两人都坦白，各判八年；如果两人中一个坦白而另一个抵赖，坦白的放出去，抵赖的判十年。于是，每个囚徒都面临两种选择：坦白或抵赖。然而，不管同伙选择什么，每个囚徒的最优选择是坦白：如果同伙抵赖、自己坦白的话放出去，不坦白的话判一年，坦白比不坦白好；如果同伙坦白、自己坦白的话判八年，不坦白的话判十年，坦白还是比不坦白好。结果，两个嫌疑犯都选择坦白，各判刑八年。如果两人都抵赖，各判一年，显然这个结果好。但这个帕累托改进办不到，因为它不能满足人类的理性要求。囚徒困境所反映出的深刻问题是，人类的个人理性有时能导致集体的非理性——聪明的人类会因自己的聪明而作茧自缚。

单次多重
单次发生的囚徒困境，和多次重复的囚徒困境结果不会一样。
在重复的囚徒困境中，博弈被反复地进行。因而每个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。这时，合作可能会作为均衡的结果出现。欺骗的动机这时可能被受到惩罚的威胁所克服，从而可能导向一个较好的、合作的结果。作为反复接近无限的数量，纳什均衡趋向于帕累托最优。
主旨
囚徒们虽然彼此合作，坚不吐实，可为全体带来最佳利益（无罪开释），但在资讯不明的情况下，因为出卖同伙可为自己带来利益（缩短刑期），也因为同伙把自己招出来可为他带来利益，因此彼此出卖虽违反最佳共同利益，反而是自己最大利益所在。但实际上，执法机构不可能设立如此情境来诱使所有囚徒招供，因为囚徒们必须考虑刑期以外之因素（出卖同伙会受到报复等），而无法完全以执法者所设立之利益（刑期）作考量。

解说
如同博弈论的其他例证，囚徒困境假定每个参与者（即“囚徒”）都是利己的，即都寻求最大自身利益，而不关心另一参与者的利益。参与者某一策略所得利益，如果在任何情况下都比其他策略要低的话，此策略称为“严格劣势”，理性的参与者绝不会选择。另外，没有任何其他力量干预个人决策，参与者可完全按照自己意愿选择策略。
囚徒到底应该选择哪一项策略，才能将自己个人的刑期缩至最短？两名囚徒由于隔绝监禁，并不知道对方选择；而即使他们能交谈，还是未必能够尽信对方不会反口。就个人的理性选择而言，检举背叛对方所得刑期，总比沉默要来得低。试设想困境中两名理性囚徒会如何作出选择：
若对方沉默时，背叛会让我获释，所以会选择背叛。
若对方背叛指控我，我也要指控对方才能得到较低的刑期，所以也是会选择背叛。
二人面对的情况一样，所以二人的理性思考都会得出相同的结论——选择背叛。背叛是两种策略之中的支配性策略。因此，这场博弈中唯一可能达到的纳什均衡，就是双方参与者都背叛对方，结果二人同样服刑8年。
这场博弈的纳什均衡，显然不是顾及团体利益的帕累托最优解决方案。以全体利益而言，如果两个参与者都合作保持沉默，两人都只会被判刑1年，总体利益更高，结果也比两人背叛对方、判刑8年的情况较佳。但根据以上假设，二人均为理性的个人，且只追求自己个人利益。均衡状况会是两个囚徒都选择背叛，结果二人判决均比合作为高，总体利益较合作为低。这就是“困境”所在。例子漂亮地证明了：非零和博弈中，帕累托最优和纳什均衡是相冲突的。

举例：

军备竞赛
在政治学中，两国之间的军备竞赛可以用囚徒困境来描述。两国都可以声称有两种选择：增加军备（背叛）、或是达成削减武器协议（合作）。两国都无法肯定对方会遵守协议，因此两国最终会倾向增加军备。似乎自相矛盾的是，虽然增加军备会是两国的“理性”行为，但结果却显得“非理性”（例如会对经济造成损坏等）。这可视作遏制理论的推论，就是以强大的军事力量来遏制对方的进攻，以达到和平。
关税战
两个国家，在关税上可以有以两个选择:
提高关税，以保护自己的商品。（背叛）
与对方达成关税协定，降低关税以利各自商品流通。（合作）
当一国因某些因素不遵守关税协定，独自提高关税（背叛），另一国也会作出同样反应（亦背叛），这就引发了关税战，两国的商品失去了对方的市场，对本身经济也造成损害（共同背叛的结果）。然后二国又重新达成关税协定。（重复博弈的结果是将发现共同合作利益最大。）
广告战
商业活动中亦会出现各种囚徒困境例子。以广告竞争为例。
两个公司互相竞争，二公司的广告互相影响，即一公司的广告较被顾客接受则会夺取对方的部分收入。但若二者同时期发出质量类似的广告，收入增加很少但成本增加。但若不提高广告质量，生意又会被对方夺走。
此二公司可以有二选择：
互相达成协议，减少广告的开支。（合作）
增加广告开支，设法提升广告的质量，压倒对方。（背叛）
若二公司不信任对方，无法合作，背叛成为支配性策略时，二公司将陷入广告战，而广告成本的增加损害了二公司的收益，这就是陷入囚徒困境。在现实中，要二互相竞争的公司达成合作协议是较为困难的，多数都会陷入囚徒困境中。
自行车赛
自行车赛事的比赛策略也是一种博弈，而其结果可用囚徒困境的研究成果解释。例如每年都举办的环法自由车赛中有以下情况：选手们在到终点前的路程常以大队伍（英文:Peloton）方式前进，他们采取这策略是为了令自己不至于太落后，又出力适中。而最前方的选手在迎风时是最费力的，所以选择在前方是最差的策略。通常会发生这样的情况，大家起先都不愿意向前（共同背叛），这使得全体速度很慢，而后通常会有二或多位选手骑到前面，然后一段时间内互相交换最前方位置，以分担风的阻力（共同合作），使得全体的速度有所提升，而这时如果前方的其中一人试图一直保持前方位置（背叛），其他选手以及大队伍就会赶上（共同背叛）。而通常的情况是，在最前面次数最多的选手（合作）通常会到最后被落后的选手赶上（背叛），因为后面的选手骑在前面选手的冲流之中，比较不费力。

囚徒困境博弈对经济学的意义

个人感觉囚徒困境的博弈分析是给大家展示了一个纳什均衡与直观的最优相背的现象，当大家都考虑自己利益最大化的时候，双方利益都受损，这与微观经济学中大家都将自己利益最大化时总体利益也最大是相背的。这种现象提供给经济学更多的解释与思考空间，比如怎样避免囚徒困境啊，合作啊，遵守协议啊等等。不过我觉得出了经济学，这个意义更大，毕竟经济人假设只是人的一面，不是全部，不该由完全的经济视角来解读人性。

囚徒困境里如果2个囚徒学过博弈论，他们会不会选择合作？也就是选择不坦白？

不会，因为这是人性。他们不知道对方会不会。即使知道对方会，也不敢保证对方会不会合作，会不会在背后捅自己一刀。越是聪明的人越不会轻易相信别人。

能给几个比较新的囚徒博弈例子吗

　　囚徒困境是博弈论的非零和博弈中具代表性的例子，反映个人最佳选择并非团体最佳选择。虽然困境本身只属模型性质，但现实中的价格竞争、环境保护等方面，也会频繁出现类似情况。
　　单次发生的囚徒困境，和多次重复的囚徒困境结果不会一样。
　　在重复的囚徒困境中，博弈被反复地进行。因而每个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。这时，合作可能会作为均衡的结果出现。欺骗的动机这时可能被受到惩罚的威胁所克服，从而可能导向一个较好的、合作的结果。作为反复接近无限的数量，纳什均衡趋向于帕累托最优。
　　囚徒困境的主旨为，囚徒们虽然彼此合作，坚不吐实，可为全体带来最佳利益（无罪开释），但在资讯不明的情况下，因为出卖同伙可为自己带来利益（缩短刑期），也因为同伙把自己招出来可为他带来利益，因此彼此出卖虽违反最佳共同利益，反而是自己最大利益所在。但实际上，执法机构不可能设立如此情境来诱使所有囚徒招供，因为囚徒们必须考虑刑期以外之因素（出卖同伙会受到报复等），而无法完全以执法者所设立之利益（刑期）作考量。

囚徒困境的博弈问题

因为环境诱因导致双方对利益需求互不退让，因而无数次得博弈后仍不得其解，恋人们的海誓山盟是基于当下的感官升华，我觉得和博弈不是很搭界……

关于囚徒困境，高手来！经典囚徒困境是2个选择，3个结果。有没有3种选择结果多至6个的囚徒困境博弈例

囚徒困境的关注点有两个。
1.存在强势策略。两人囚徒困境中，背叛属于强势策略，合作属于弱势策略。
2.都选择强势策略的收益低于都选择弱势策略的收益。
以上两点导致囚徒博弈的纳什均衡倒向都选择强势策略的结果。如果增加选择，整个博弈情况并没有太大改变，最强势的策略会被选择，而在这种情况下，总收益却小于都选择弱势策略。这就是囚徒所处的博弈困境。

导航导航