纳什均衡是掌握博弈论最核心的部分,主要描述的是博弈中一种“稳定”的策略组合状态。纳什均衡的存在并不一定保证达到社会最优或集体最优的结果,只是一种稳定的状态。
纳什均衡描述的是这样一种局面:在给定其他所有参与者策略的情况下,没有任何一个参与者可以通过单方面改变自己的策略而获得更高的收益(或支付)。
简单说就是:每个人都针对别人的策略做出了自己最好的选择,并且没有人有动机主动改变这个选择。
关键要素可以分为参与者、策略、收益、单方面改变、稳定状态。
- 参与者:进行博弈的决策者(个体/企业/国家)
- 策略:每个参与者可以选择的所有行动方案(合作/背叛、涨价/降价)
- 收益:每个参与者在所有参与者都选择了特定策略组合后得到的结果(可以是利润、效用、满意度等)
- 单方面改变:纳什均衡强调的是,在其他人策略不变的情况下,某个人改变自己的策略能否变得更好
- 稳定状态: 因为没有人能通过单方面改变策略获益,所以这个策略组合具有内在的稳定性。如果博弈达到了纳什均衡,参与者很可能就停留在这个状态,没有内在动力去打破它
参与者明确包含各类决策主体,策略强调“所有行动方案”的完备性,收益定义覆盖了结果的多维度性,单方面改变的表述精准抓住了纳什均衡的核心检验标准,稳定状态点出了均衡的本质特征。
参与者决定了策略制定,策略制定决定了收益或亏损,但在此之前参与者会对其他参与者的策略继续预判,计算自身各策略的预期收益,最终选择一个最佳策略,结果是参与者的决策将趋向逐渐稳定。
参与者 → 预判他人策略 → 计算自身各策略预期收益 → 选择最优反应策略 → 若所有策略互锁则达成纳什均衡 → 形成稳定状态
囚徒困境是纳什均衡最著名最经典的一个案例
场景是两个共谋罪犯被逮捕,分别关押审讯(相互之间没有提前沟通或者以任何形式的方式进行沟通)。检察官分别对他们说:
如果两人都沉默,证据不足,各判刑1年。
如果一人告发,另一人沉默,告发者立即释放,沉默者判10年。
如果两人都告发,那就各判5年。
这里的沉默指的合作,告发指的背叛,那么就可以算出收益矩阵:
囚徒A
沉默/合作囚徒A
告发/背叛囚徒B
沉默/合作A:-1
B:-1
双方各叛1年A:0
B:-10
囚徒B被判10年
囚徒A无罪释放囚徒B
告发/背叛A:-10
B:0
囚徒A被判10年
囚徒B无罪释放A:-5
B:-5
双方各叛5年那么我们将以以上的收益矩阵表格可以得出最佳策略:
如果囚徒A选择了合作,囚徒B的最佳策略是背叛;
如果囚徒A选择了背叛,囚徒B的最佳策略是背叛;
同理分析A的最佳策略:无论B选择什么,A的最佳选择都是背叛。
双方的最佳策略都是背叛,就是这个博弈的纳什均衡。在给定对方选择背叛的情况下,自己选择背叛(判5年)比选择沉默(判10年)要好。
虽然两人都沉默(各判1年)的结果对集体更好(帕累托最优),但这不是纳什均衡,因为每个人都有动机单方面背叛去争取0刑期(如果对方傻傻地沉默的话)。
囚徒困境的关键点在于纳什均衡(双方都背叛)不一定是最优结果(双方都沉默),但它是一个稳定的、可预测的结果,因为个体理性导致了集体非理性。
另一个经典案例是性别之战,属于协调博弈
场景是一对情侣约会,男生想看拳击赛,女生想看芭蕾舞。他们都更希望在一起而不是分开。
如果男生选择了拳击赛,那么他将收获约会+拳击赛的收益,如果选择了芭蕾舞则是收获约会的收益。
反之如果女生选择了拳击赛,那么她将收获约会的收益,如果选择了芭蕾舞则是收获约会+芭蕾舞的收益。
但是如果出现分歧没有达到一致的情况,双方将无法得到收益。
那么他们只能选择一个地方进行约会,以此来算出收益矩阵:
男
拳击赛男
芭蕾舞女
拳击赛男:2
女:1男:0
女:0女
芭蕾舞男:0
女:0男:1
女:2那么我们将以以上的收益矩阵表格可以得出最佳策略:
如果男生选择了拳击赛,那么女生的最佳策略是拳击赛(1>0);
如果男生选择了芭蕾舞,那么女生的最佳策略是芭蕾舞(2>0);
同理分析男生
如果女生选拳击赛,男生最佳策略是选拳击赛(2>0);
如果女生选芭蕾舞,男生最佳选芭蕾舞(1>0)。
双方都选拳击赛和双方都选芭蕾舞都是纳什均衡!在双方都选拳击赛中,如果女生单方面改变去芭蕾舞,她只能得到0(和男生分开),不如获得1;男生改变亦然。在双方都选芭蕾舞中同理。
但(拳击赛,芭蕾舞)和(芭蕾舞,拳击赛)不是纳什均衡,因为其中一方(甚至双方)可以通过单方面改变策略(去对方选择的地方)变得更好(从0变成1或2)。
这个关键点在于一个博弈可以有多个纳什均衡。问题在于如何协调到其中一个均衡上 (比如提前打电话约定)。
石头剪刀布也是博弈的案例,属于无纯策略纳什均衡
一个经典的猜拳游戏,那么就可以计算出收益矩阵(赢=1, 输=-1, 平=0):
玩家A
石头(R)玩家A
剪刀(S)玩家A
布(P)玩家B
石头(R)A:0
B:0A:-1
B:1A:1
B:-1玩家B
剪刀(S)A:1
B:-1A:0
B:0A:-1
B:1玩家B
布(P)A:-1
B:1A:1
B:-1A:0
B:0假设玩家B出石头,那么玩家A的最佳选择是布(1 > 0)
假设玩家A出布,玩家B的最佳选择就不是石头了(-1),而是出剪刀(1)。
假设玩家B出剪刀,玩家A的最佳选择是石头(1)
但假设玩家A出石头:玩家B的最佳选择就不是剪刀了(-1),而是出布(1)
这将会循环往复… 没有任何一个纯策略组合能让双方都“安心”,总有一方可以通过改变策略来反制对方当前的策略。因此石头剪刀布没有纯策略纳什均衡。
关键点在于纳什均衡证明了,即使在这种没有纯策略均衡的博弈中,如果允许参与者随机化自己的选择(即以一定概率选择不同策略,称为混合策略),那么混合策略纳什均衡总是存在的(在这个例子中,每个策略都以1/3的概率随机选择就是一个混合策略纳什均衡)。
因此纳什均衡是描述了博弈中一种策略互动的稳定状态:
在给定其他人策略的情况下,每个人都做出了自己最好的选择,并且没有人想主动改变。 理解这个概念需要结合定义、经典例子(如囚徒困境、性别之战)以及对其特性(稳定性、非唯一性、不一定最优、存在性)的把握。
它是分析策略性决策情景最核心、最强大的工具之一。记住,它描述的是“个体最优反应下的稳定点”,而非“集体最优”。
0 条评论