雜談分類:經(jīng)濟(jì)知識(shí)
博弈論普及書中容易出錯(cuò)的一個(gè)問題。應(yīng)該說,對(duì)局者采用優(yōu)勢(shì)策略在對(duì)方采取任何策略時(shí),總能夠顯示出優(yōu)勢(shì)。圍棋則是對(duì)弈雙方相繼按照一先一后次序行動(dòng)的博弈。對(duì)于一人一步的相繼行動(dòng)的博弈,每個(gè)參與者都必須向前展望或預(yù)期,估計(jì)對(duì)手的意圖,從而倒后推理,決定自己這一步應(yīng)該怎么走。
這是一條線性的推理鏈:“假如我這么做,他就會(huì)那么做———若是那樣,我會(huì)這么反擊”,后面的步驟依此類推。也就是說,你怎么走棋,完全取決于對(duì)手的上一招。這在博弈論上叫做“倒推法”。
在動(dòng)態(tài)博弈中,存在明顯的馬太效應(yīng),也就是說凡是擁有較少的,連他僅有的那一點(diǎn)點(diǎn)也奪過來;凡是多的,就加給他,讓他更多。比如在圍棋上,就有“一招不慎,滿盤皆輸”的諺語,當(dāng)然我們也要應(yīng)用馬太效應(yīng)原理,在獲得優(yōu)勢(shì)的情況能夠保持優(yōu)勢(shì),擴(kuò)大優(yōu)勢(shì),直至最后成功。
而在同時(shí)行動(dòng)的靜態(tài)博弈里,沒有一個(gè)博弈者可以在自己行動(dòng)之前得知另一個(gè)博弈者的整個(gè)計(jì)劃。在這種情況下,互動(dòng)推理不是通過觀察對(duì)方的策略進(jìn)行,而是必須通過看穿對(duì)手的策略才能展開。
要想做到這一點(diǎn),單單假設(shè)自己處于對(duì)手的位置會(huì)怎么做還不夠。即便你那樣做了,你只會(huì)發(fā)現(xiàn),你的對(duì)手也在做同樣的事情,即他也在假設(shè)自己處于你的位置會(huì)怎么做。
因此,每一個(gè)人不得不同時(shí)擔(dān)任兩個(gè)角色,一個(gè)是自己,一個(gè)是對(duì)手,從而找出雙方的最佳行動(dòng)方式。與一條線性的推理鏈不同,這是一個(gè)循環(huán),即“假如我認(rèn)為對(duì)方認(rèn)為我認(rèn)為……”。
這樣來看,定式是一系列納什均衡的累計(jì)直至局部達(dá)到穩(wěn)定的一種變化,直到一方認(rèn)為可以根據(jù)形勢(shì)選擇任何變化或脫先而無局部受損之虞。由于定式是在大量實(shí)戰(zhàn)基礎(chǔ)上不斷被驗(yàn)證并長期積累而成。
因此在動(dòng)態(tài)博弈中,納什均衡的要義在于:即使在對(duì)抗條件下,雙方可以通過向?qū)Ψ教岢鐾{和要求,找到雙方能夠接受的解決方案而不至于因?yàn)楦髯宰非笞晕依娑鵁o法達(dá)到妥協(xié),甚至兩敗俱傷。穩(wěn)定的均衡點(diǎn)建立在找到各自的“占優(yōu)策略”(dominantstrategy),即無論對(duì)方作何選擇,這一策略始終應(yīng)優(yōu)于其它策略。
從愛情故事談起:優(yōu)勢(shì)策略
“原地高天,堪嘆古今情難盡;癡男怨女,可憐風(fēng)月債難償?!?/p>
我們來先看歐·亨利的小說《麥吉的禮物》描述的這樣一個(gè)愛情故事。新婚不久的妻子和丈夫,很是窮困潦倒。除了妻子那一頭美麗的金色長發(fā),丈夫那一只祖?zhèn)鞯慕饝驯恚阍僖矝]有什么東西可以讓他們引以為傲了。雖然生活很累很苦,他們卻彼此相愛至深。每個(gè)人關(guān)心對(duì)方都勝過關(guān)心自己。為了促進(jìn)對(duì)方的利益,他們?cè)敢夥瞰I(xiàn)和犧牲自己的一切。
話說明天就是圣誕節(jié)了,小兩口都是身無余錢。為了讓愛人過得好一點(diǎn),每個(gè)人還是想悄悄準(zhǔn)備一份禮物給對(duì)方。丈夫賣掉了心愛的懷表,買了一套漂亮發(fā)卡,去配妻子那一頭金色長發(fā)。妻子剪掉心愛的長發(fā),拿去賣錢,為丈夫的懷表買了表鏈和表袋。
最后,到了交換禮物的時(shí)刻,他們無可奈何地發(fā)現(xiàn),自己如此珍視的東西,對(duì)方已作為禮物的代價(jià)而出賣了。花了慘痛代價(jià)換回的東西,竟成了無用之物。出于無私愛心的利他主義行為,結(jié)果卻使得雙方的利益同時(shí)受損。
歐·亨利在小說中寫道:“聰明的人,送禮自然也很聰明。大約都是用自己有余的物事,來交換送禮的好處。然而,我講的這個(gè)平平淡淡的故事里,兩個(gè)住公寓的傻孩子,卻是笨到極點(diǎn),彼此為了對(duì)方,白白犧牲了他們屋檐下最珍貴的財(cái)富?!?/p>
從這段文字看,歐·亨利似乎并不認(rèn)為這小兩口是理性的。且讓我們暫時(shí)拋開愛情的溫馨,單從利益的角度來解讀。我們假定,他們每個(gè)人,有一個(gè)“毫不利己,專門利人”的偏好系統(tǒng),毫不考慮自身利益,專門謀求別人的幸福。
這樣,個(gè)人選擇付出還是不付出,只看對(duì)方能不能得益,與自己是否受損無關(guān)。以這樣的偏好來衡量,最好的結(jié)果自然是自己付出而對(duì)方不付出,對(duì)方收益增大;次好的結(jié)果是大家都不付出,對(duì)方不得益也不犧牲;再次的結(jié)果是大家都付出;最壞的結(jié)果是別人付出而自己不付出,靠犧牲別人來使自己得益。我們不妨可用數(shù)字來代表個(gè)人對(duì)這四種結(jié)果的評(píng)價(jià):第一種結(jié)果給3分,第二種結(jié)果給2分,第三種結(jié)果給1分,最后那種給0分。
不難看出,無論對(duì)方選擇付出,還是選擇不付出,個(gè)人自己的最佳選擇都是付出。然而這并不是對(duì)大家都有利的選擇。事實(shí)上,大家都選擇不付出,明顯優(yōu)于大家都選擇付出的境況,這就達(dá)到了上文提到的納什均衡。
實(shí)際上,這里的例子有一個(gè)占優(yōu)策略均衡。通俗地說,在占優(yōu)策略均衡中,不論所有其他參與人選擇什么策略,一個(gè)參與人的占優(yōu)策略都是他的最優(yōu)策略。顯然,這一策略一定是所有其他參與人選擇某一特定策略時(shí)該參與人的占優(yōu)策略。
因此,占優(yōu)策略均衡一定是納什均衡。在這個(gè)例子中,妻子選擇不付出,也就是不剪掉金發(fā)對(duì)于妻子來說是一個(gè)優(yōu)勢(shì)策略,也就是說妻子不付出,丈夫不管選擇什么策略,妻子所得的結(jié)果都好于丈夫。同理,丈夫不賣掉懷表對(duì)于丈夫來說也是一個(gè)優(yōu)勢(shì)策略。
再舉個(gè)常見的例子:一名籃球前鋒和隊(duì)友在籃下面對(duì)著對(duì)方的一個(gè)后衛(wèi)時(shí),形成了二打一的局面,該前鋒可以選擇直接投籃,也可以選擇傳球給隊(duì)友,根據(jù)經(jīng)驗(yàn),傳球過人的成功率更大,那么傳球就是該前鋒的優(yōu)勢(shì)策略。即某些時(shí)候它勝于其他策略,且任何時(shí)候都不會(huì)比其他策略差。
如果一個(gè)球員具有這樣一種策略,無論其他球員怎么做,這個(gè)策略都會(huì)高出一籌,那么這個(gè)球員就有一個(gè)優(yōu)勢(shì)策略。當(dāng)然如果一個(gè)球員有這么一個(gè)優(yōu)勢(shì)策略,他的決策就會(huì)變得非常簡單,只要直接采用該策略而完全不必考慮對(duì)手的應(yīng)對(duì)策略。
還有一個(gè)要注意的問題是,采用優(yōu)勢(shì)策略得到的最壞結(jié)果并不一定比采用另外一個(gè)策略得到的最佳結(jié)果要好,這是很多
比如就這個(gè)例子來說,就妻子來說,她采用不付出的策略,無論丈夫付出或不付出,妻子的不付出策略總是占有優(yōu)勢(shì)。丈夫的優(yōu)勢(shì)策略也是一樣。但是,妻子選擇不付出的最壞結(jié)果是1,選擇付出的最好結(jié)果是3,很明顯,妻子的優(yōu)勢(shì)策略得到的最壞結(jié)果并不比采用另外一個(gè)策略得到的最佳結(jié)果要高出一籌。
反之,劣勢(shì)策略則是指在博弈中,不論其他參與人采取什么策略,某一參與人可能采取的策略中,對(duì)自己嚴(yán)格不利的策略,劣勢(shì)策略是我
房地產(chǎn)開發(fā)博弈、警察捉小偷與混和策略們?cè)谌粘I钪胁豢梢赃x擇的行動(dòng)。劣勢(shì)策略是與優(yōu)勢(shì)策略相對(duì)應(yīng)的概念,筆者這里就不多做介紹。
實(shí)際上,在每個(gè)參與人都有優(yōu)勢(shì)策略的情況下,優(yōu)勢(shì)策略均衡是非常合乎邏輯的。一個(gè)優(yōu)勢(shì)策略優(yōu)于其他任何策略,同樣,一個(gè)劣勢(shì)策略則劣于其他任何策略。
假如你有一個(gè)優(yōu)勢(shì)策略,你可以選擇采用,并且知道你的對(duì)手若是有一個(gè)優(yōu)勢(shì)策略他也會(huì)照辦;同樣,假如你有一個(gè)劣勢(shì)策略,你應(yīng)該避免采用,并且知道你的對(duì)手若是有一個(gè)劣勢(shì)策略他也會(huì)規(guī)避。
但遺憾的是,并不是所有博弈都有優(yōu)勢(shì)策略,哪怕這個(gè)博弈只有兩個(gè)參與者。實(shí)際上,優(yōu)勢(shì)策略只是博弈論的一種特例。雖然出現(xiàn)一個(gè)優(yōu)勢(shì)策略可以大大簡化行動(dòng)的規(guī)則,但這些規(guī)則卻并不適用于大多數(shù)現(xiàn)實(shí)生活中的博弈。
來看這樣一個(gè)房地產(chǎn)開發(fā)博弈的例子。假定北京市的房地產(chǎn)市場(chǎng)需求有限,A、B兩個(gè)開發(fā)商都想開發(fā)一定規(guī)模的房地產(chǎn),但是市場(chǎng)對(duì)房地產(chǎn)的需求只能滿足一個(gè)房地產(chǎn)的開發(fā)量,而且,每個(gè)房地產(chǎn)商必須一次性開發(fā)這一定規(guī)模的房地產(chǎn)才能獲利。在這種情況下,無論是對(duì)開發(fā)商A還是開發(fā)商B,都不存在一種策略完全優(yōu)于另一種策略,也不存在一個(gè)策略完全劣于另一個(gè)策略。
因?yàn)?,如果A選擇開發(fā),則B的最優(yōu)策略是不開發(fā);如果A選擇不開發(fā),則B的最優(yōu)策略是開發(fā);類似地,如果B選擇開發(fā),則A的最優(yōu)策略是不開發(fā);如果B選擇不開發(fā),則A的最優(yōu)策略是開發(fā)。這樣就形成了一個(gè)循環(huán)選擇。
根據(jù)納什均衡含義就是:給定你的策略,我的策略是最好的策略;給定我的策略,你的策略也是你最好的策略。即雙方在對(duì)方給定的策略下不愿意調(diào)整自己的策略。
這個(gè)博弈的納什均衡點(diǎn)不止一個(gè),而是兩個(gè):要么A選擇開發(fā),B不開發(fā);要么A選擇不開發(fā),B選擇開發(fā)。在這種情況下,A與B都不存在優(yōu)勢(shì)策略,也就是A和B不可能只要選擇某一個(gè)策略而不考慮對(duì)方的所選擇的策略。實(shí)際上,在有兩個(gè)或兩個(gè)以上納什均衡點(diǎn)的博弈中,其最后結(jié)果難以預(yù)測(cè)。在房地產(chǎn)博弈中,我們無法知道,最后結(jié)果是A開發(fā)B不開發(fā),還是A不開發(fā)B開發(fā)。
再來看這樣一個(gè)警察捉小偷博弈的例子。某個(gè)村莊上只有一名警察,他要負(fù)責(zé)整個(gè)村的治安。小村的兩頭住著兩個(gè)全村最富有的村民A和B,A、B分別需要保護(hù)的財(cái)產(chǎn)為2萬元、1萬元。整個(gè)小村某一天來了個(gè)小偷,要在村中偷盜A和B的財(cái)產(chǎn),這個(gè)消息被警察得知。
因?yàn)榉稚矸πg(shù),警察一次只能在一個(gè)地方巡邏;而小偷也只能偷盜其中一家。若警察在某家看守財(cái)產(chǎn),而小偷也選擇了去該富戶家,就會(huì)被警察抓??;若警察沒有看守財(cái)產(chǎn)的富戶家而小偷去了,則小偷偷盜成功。
一般人會(huì)憑著感覺認(rèn)為,警察當(dāng)然應(yīng)該看守富戶A家財(cái)產(chǎn),因?yàn)锳有2萬元的財(cái)產(chǎn),而B只有1萬元的財(cái)產(chǎn)。實(shí)際上,對(duì)于警察的一個(gè)最好的做法是,警察抽簽決定去A家還是B家。
因?yàn)锳家的財(cái)產(chǎn)是B家的2倍,小偷自然光顧A家的概率要高于B家,不妨用兩個(gè)簽代表A家,比如如果抽到1、2號(hào)簽去A家,抽到3號(hào)簽去B家。這樣警察有2/3的機(jī)會(huì)去A家做看守,1/3的機(jī)會(huì)去B家做看守。
而小偷的最優(yōu)選擇是:以同樣抽簽的辦法決定去A家還是去B家實(shí)施偷盜,只是抽到1、2號(hào)簽去A家,抽到3號(hào)簽去B家,那么,小偷有l(wèi)/3的機(jī)會(huì)去A家,2/3的機(jī)會(huì)去B家。這些數(shù)值是可以通過聯(lián)立方程準(zhǔn)確計(jì)算出的,筆者這里就不給出具體的數(shù)學(xué)計(jì)算過程了。
細(xì)心的讀者會(huì)發(fā)現(xiàn),警察捉小偷博弈與前面所舉的兩個(gè)博弈案例有一個(gè)很大的差別,就是用到了概率的知識(shí),警察與小偷沒有一個(gè)一定要選擇某個(gè)策略的納什均衡,而只有選擇某個(gè)策略是多少幾率的納什均衡。
在博弈論中,可以選擇出某個(gè)策略的納什均衡,這個(gè)策略叫做純策略。
用專業(yè)的話來說,所謂純策略是指參與者在他的策略空間中選取惟一確定的策略。但至少存在一個(gè)混合策略均衡點(diǎn)。
所謂混合策略是指參與者采取的不是惟一的策略,而是其策略空間上的概率分布。這就是納什于1950年證明了的納什定理。而這個(gè)博弈沒有純策略納什均衡點(diǎn),而有混合策略均衡點(diǎn)。這個(gè)混合策略均衡點(diǎn)下的策略選擇是每個(gè)參與者的混合策略選擇。
最常見混和策略就是猜硬幣游戲。比如在足球比賽開場(chǎng),裁判將手中的硬幣拋擲到空中,讓雙方隊(duì)長猜硬幣落下的正反面。由于硬幣落下是正是反是隨機(jī)的,概率應(yīng)該都是1/2。那么,猜硬幣游戲的參與者都是1/2的概率選擇正與反,這時(shí)博弈達(dá)到混和策略納什均衡。
再比如我們兒時(shí)玩的“剪、布、錘”就不存在純策略均衡,對(duì)每個(gè)小孩來說,自己采取出“剪”、“布”、還是“錘”的策略應(yīng)當(dāng)是隨機(jī)的。一旦一方知道另一方出其中某個(gè)策略的可能性增大,那么這個(gè)對(duì)弈者在游戲中輸?shù)目赡苄跃驮龃?。因此,每個(gè)小孩的最優(yōu)混合策略是采取每個(gè)策略的可能性是l/3。在這樣的博弈中,每個(gè)小孩各取三個(gè)策略的1/3是納什均衡。
由此可見,純策略是參與者一次性選取的,并且堅(jiān)持他選取的策略。而混合策略是參與者在各種備選策略中采取隨機(jī)方式選取的。
在博弈中,參與者可以改變他的策略,而使得他的策略選取滿足一定的概率。當(dāng)博弈是零和博弈時(shí),即一方所得是另外一方的所失時(shí),此時(shí)只有混合策略均衡。對(duì)于任何一方來說,此時(shí)不可能有純策略的占優(yōu)策略。
位置博弈的策略
有這么一個(gè)大家都很熟悉的現(xiàn)象,那就是在每個(gè)大大小小的城市街道上,經(jīng)常見到一些地段上的商店十分擁擠,形成一個(gè)繁榮的商業(yè)中心區(qū),但另一些地段卻十分冷僻,沒什么商店。
更有意思的是,往往同類型的商家總是聚集在比較近的地方,比如肯德基、麥當(dāng)勞之間總是緊緊相鄰。再如超市現(xiàn)象,前兩年有很多人對(duì)超市的布局發(fā)表了一些議論。因?yàn)橛腥俗⒁獾?,如果在一條街上有2~3家超市的話,這幾家超市經(jīng)常會(huì)“相依為鄰”,選址離得很近,倘若它們稍微分散地布置于街上,無疑對(duì)市民的購物提供相當(dāng)?shù)谋憷虼怂麄冋J(rèn)為超市“擁擠”在一起屬于資源浪費(fèi)。
類似的事情也發(fā)生于國內(nèi)各省級(jí)電視臺(tái)的節(jié)目播放。很多電視迷會(huì)發(fā)現(xiàn),大部分電視臺(tái)總是將最精彩的節(jié)目放在相同的時(shí)間段,甚至有些時(shí)候是在相同時(shí)間段播放類似的節(jié)目,比如你播“快樂大本營”,我就播“超級(jí)總動(dòng)員”;你播“玫瑰之約”,我就播“單身男女”。人都說文人相輕,電視臺(tái)也是這么相煎太急。
博弈論能夠?qū)@個(gè)現(xiàn)象作出科學(xué)的解釋。首先對(duì)一個(gè)簡單的博弈模型進(jìn)行敘述:
假設(shè)有條完全筆直的公路,連接城市A到城市B之間的交通。這條公路上每天行駛著大量的車輛,并且車流量在公路上是均勻分布的。假設(shè)有兩家快餐店,我們不妨假設(shè)為靠高速公路起家的麥當(dāng)勞與肯德基,它們要在這條公路上選擇一個(gè)位置開設(shè)快餐,招攬來往車輛。為了能夠更加清晰地說明這個(gè)博弈,我們不得不畫一張圖。
再對(duì)該模型作一個(gè)合乎邏輯的假定:通常情況下,車輛總是樂意到距自己最近的快餐店購買食物。根據(jù)這個(gè)原則,從資源的最佳配置來看,麥當(dāng)勞、肯德基應(yīng)該分別開在1/4、3/4處是最優(yōu)。
在這種均勻散布的情況下,每家快餐店都擁有1/2的顧客量,同時(shí)對(duì)于開車的人們總體來說,這種策略的選擇,車輛到快餐店的總的距離最短。
然而,人生不如意事十之八九,天并不總能遂人之愿??系禄c麥當(dāng)勞都是百年老店,自然是精明之至,從經(jīng)濟(jì)學(xué)上就是具有經(jīng)濟(jì)理性。他們只要手段合法,總是希望自己的生意盡可能地紅火,至于其他人的生意的好壞則與己無關(guān)。
出于這種理性,肯德基分店經(jīng)理肯定會(huì)想到:如果我將店鋪從3/4點(diǎn)處向左移一點(diǎn),那么1/4點(diǎn)之間的中點(diǎn)不再是1/2點(diǎn)處,而是位于1/2點(diǎn)的靠左邊一點(diǎn)。這等于說,這一移位,肯德基將從麥當(dāng)勞奪取部分顧客,這對(duì)于肯德基單方面來說無疑是一個(gè)好主意。當(dāng)然麥當(dāng)勞也不甘示弱,作為一個(gè)“理性人”,麥當(dāng)勞自然也應(yīng)該想到將自己的店鋪從1/4點(diǎn)處向右移動(dòng)以爭(zhēng)取更多的顧客。
不難想象,雙方博弈的結(jié)果將使他們的店鋪設(shè)置在l/2中點(diǎn)附近達(dá)到納什均衡狀態(tài),甲乙兩人相依為鄰且相安無事地做起快餐生意。如果我們放寬條件,不是兩家快餐店,而是很多家快餐店,很容易分析得到結(jié)果:這些快餐店仍然會(huì)在1/2處設(shè)店達(dá)到納什均衡。
同樣的道理,如果地段的繁華等其他原因在一條路上都可以認(rèn)為到處相同的話,沒有一個(gè)商家會(huì)將自己安置于某條路的一頭,只要條件許可,超市將幾乎趨向于相依為鄰,這種現(xiàn)象完全可以看做公正的市場(chǎng)競(jìng)爭(zhēng)的合理結(jié)果。這就是很多城市商業(yè)中心形成的原理,在博弈論中稱為位置博弈。
電視臺(tái)之間在時(shí)間段上的重疊問題在本質(zhì)上就是位置博弈。事實(shí)上,我們只要將時(shí)間設(shè)想為上述案例中的公路,就不難分析出:市場(chǎng)競(jìng)爭(zhēng)的結(jié)果就是,觀眾青睞的精彩節(jié)目將集中在同一黃金時(shí)段。在這種情況下,電視臺(tái)之間的競(jìng)爭(zhēng)會(huì)更加激烈,為了獲得收視率,電視臺(tái)只能在制作質(zhì)量上下功夫,最終獲得實(shí)惠的仍然是廣大觀眾。
西方國家在名義上是民權(quán)政治。實(shí)際上,選舉上臺(tái)的各個(gè)政黨之間的政策并沒有多大差別。就拿美國來說,民主黨與共和黨為了能夠獲得總統(tǒng)大選的勝利,必須要盡量爭(zhēng)取最多的選民。兩黨在制訂政策時(shí),必然以這個(gè)目的為原則。我們把選民的政治主張看成是位置博弈中的均勻分布的人群,把兩個(gè)政黨看成是兩個(gè)店鋪,最終的結(jié)果必然是兩個(gè)政黨的政策趨向于折衷,并且非常近似。從這個(gè)意義上來說,西方政黨的換屆選舉倒真是有“換湯不換藥”的味道。
獵鹿模型的合作哲學(xué)
社會(huì)學(xué)告訴我們,在人類文明之初的原始社會(huì),人們維生的方式主要是狩獵。
話說某個(gè)部落有兩個(gè)出色的獵人,某一天他們狩獵的時(shí)候,看到一頭梅花鹿。于是兩人商量,只要守住梅花鹿可能逃跑的兩個(gè)路口,梅花鹿就會(huì)無路可逃。只要他們能夠齊心協(xié)力,梅花鹿就會(huì)成為他們的盤中餐。不過只要其中有任何一人放棄圍捕,梅花鹿就會(huì)逃跑掉。
“福兮禍之所依;禍兮福之所伏。”有時(shí)運(yùn)氣太好并不一定有好的結(jié)果。正當(dāng)兩個(gè)獵人嚴(yán)陣以待,圍捕梅花鹿的時(shí)候,在兩個(gè)路口都跑過一群兔子,如果獵人去抓兔子,會(huì)抓住4只兔子。從維持生存的角度來看,4只兔子可以供一個(gè)人吃4天,1只梅花鹿如果被抓住將被兩個(gè)獵人平分,可供每人吃10天。這里不妨假設(shè)兩個(gè)獵人叫A和B。
在這個(gè)矩陣圖中,每一個(gè)格子都代表一種博弈的結(jié)果。具體說來:
1.左上角的格子表示,獵人A和B都抓兔子,結(jié)果是獵人A和B都能吃飽4天;
2.左下角的格子表示,獵人A抓兔子,獵人B打梅花鹿,結(jié)果是獵人A可以吃飽4天,B則一無所獲;
3.在右上角,獵人A打梅花鹿,獵人B抓兔子,結(jié)果是獵人A一無所獲,獵人B可以吃飽4天;
4.在右下角,獵人A和B合作抓捕梅花鹿,結(jié)果是兩人平分獵物,都可以吃飽10天。
在這個(gè)博弈中,根據(jù)納什均衡的定義,應(yīng)用博弈論中的“嚴(yán)格劣勢(shì)刪除法”(有興趣的讀者可以找本書參考文獻(xiàn)中的相關(guān)書籍閱讀,這里不做詳細(xì)介紹。)可以得到該博弈有兩個(gè)納什均衡點(diǎn),那就是:要么分別打兔子,每人吃飽4天;要么合作,每人吃飽10天。
兩個(gè)納什均衡,就是兩個(gè)可能的結(jié)局。兩種結(jié)局到底哪一個(gè)最終發(fā)生,這無法用納什均衡本身來確定。
比較[10,10]和[4,4]兩個(gè)納什均衡,明顯的事實(shí)是,兩人一起去獵梅花鹿比各自去抓兔子可以讓每個(gè)人多吃6天。按照經(jīng)濟(jì)學(xué)的說法,合作獵鹿的納什均衡,分頭抓打兔子的納什均衡,具有帕累托優(yōu)勢(shì)。與[4,4]相比,[10,10]不僅有整體福利改進(jìn),而且每個(gè)人都得到福利改進(jìn)。
換一種更加嚴(yán)密的說法就是,[10,10]與[4,4]相比,其中一方收益增大,而其它各方的境況都不受損害。這就是[10,10]對(duì)于[4,4]具有帕累托優(yōu)勢(shì)的含義。
在經(jīng)濟(jì)學(xué)中,帕累托效率準(zhǔn)則是:經(jīng)濟(jì)的效率體現(xiàn)于配置社會(huì)資源以改善人們的境況,主要看資源是否已經(jīng)被充分利用。如果資源已經(jīng)被充分利用,要想再改善我就必須損害你或別的什么人,要想再改善你就必須損害另外某個(gè)人。
一句話簡單概括,要想再改善任何人都必須損害別的人了,這時(shí)候就說一個(gè)經(jīng)濟(jì)已經(jīng)實(shí)現(xiàn)了帕累托效率。
相反,如果還可以在不損害別人的情況下改善任何人,就認(rèn)為經(jīng)濟(jì)資源尚未充分利用,就不能說已經(jīng)達(dá)到帕累托效率。效率是指資源配置已達(dá)到這樣一種境地,即任何重新改變資源配置的方式,都不可能使一部分人在沒有其他人受損的情況下受益。這一資源配置的狀態(tài),被稱為“帕累托最優(yōu)”(Paretooptimum)狀態(tài),或稱為“帕累托有效”(Pareto efficient)。
目前在世界上比比皆是的企業(yè)強(qiáng)強(qiáng)聯(lián)合,就接近于獵鹿模型的帕累托改善,跨國汽車公司的聯(lián)合、日本兩大銀行的聯(lián)合等等均屬此列,這種強(qiáng)強(qiáng)聯(lián)合造成的結(jié)果是資金雄厚、生產(chǎn)技術(shù)先進(jìn)、在世界上占有的競(jìng)爭(zhēng)地位更優(yōu)越,發(fā)揮的影響更顯著。
總之,他們將蛋糕做得越大,雙方的效益也就越高。比如寶山鋼鐵公司與上海鋼鐵集團(tuán)強(qiáng)強(qiáng)聯(lián)合也好,還是其他什么重組方式,最重要的在于將蛋糕做大。在寶鋼與上鋼的強(qiáng)強(qiáng)聯(lián)合中,寶鋼有著資金、效益、管理水平、規(guī)模等各方面的優(yōu)勢(shì),上鋼也有著生產(chǎn)技術(shù)與經(jīng)驗(yàn)的優(yōu)勢(shì)。兩個(gè)公司實(shí)施強(qiáng)強(qiáng)聯(lián)合,充分發(fā)揮各方的優(yōu)勢(shì),發(fā)掘更多更大的潛力,形成一個(gè)更大更有力的拳頭,將蛋糕做得比原先兩個(gè)蛋糕之和還要大。
獵鹿模型的討論,我們的思路實(shí)際只停留在考慮整體效率最高這個(gè)角度,而沒有考慮蛋糕做大之后的分配。獵鹿模型是假設(shè)獵人雙方平均分配獵物。
我們不妨做這樣一種假設(shè),獵人A比獵人B狩獵的能力水平要略高一籌,但B獵人卻是酋長之子,擁有較高的分配權(quán)。
可以設(shè)想,A獵人與B獵人合作獵鹿之后的分配不是兩人平分成果,而是A獵人僅分到了夠吃2天的梅花鹿肉,B獵人卻分到了夠吃18天的梅花鹿肉。
在這種情況下,整體效率雖然提高,但卻不是帕累托改善,因?yàn)檎w的改善反而傷害到獵人A的利益。我們假想,具有特權(quán)的獵人B會(huì)通過各種手段方法讓獵人A乖乖就范。但是獵人A的狩獵熱情遭到傷害,這必然會(huì)導(dǎo)致整體效率的下降。進(jìn)一步推測(cè),如果不是兩個(gè)人進(jìn)行狩獵,而是多人狩獵博弈,根據(jù)分配可以分成既得利益集團(tuán)與弱勢(shì)群體,這和我國的現(xiàn)狀非常相似。
我國改革的進(jìn)程在九十年代中期以前是一種帕累托改善的過程。但是隨著各種復(fù)雜的不確定因素影響,貧富差距逐漸拉大,基尼指數(shù)甚至超過0.45的國際警戒線,帕累托改善的過程受到干擾。
這種情況如果繼續(xù)下去,社會(huì)穩(wěn)定和改革深化必將受到?jīng)Q定性的沖擊。我們的黨和政府已經(jīng)關(guān)注到弱勢(shì)群體的生存狀態(tài),并適時(shí)地提出建設(shè)和諧社會(huì)的改革目標(biāo),糾正了一些錯(cuò)誤思潮,將改革的進(jìn)程拉回到健康的軌道。
“囚徒困境”的深刻哲理
在博弈論中,有一個(gè)流傳頗為廣泛的故事,叫做“囚徒困境”(Pris-oner's Dilemma)。
話說有一天,一位富翁在家中被殺,財(cái)物被盜。警方在此案的偵破過程中,抓到兩個(gè)犯罪嫌疑人A和B,并從他們的住處搜出被害人家中丟失的財(cái)物。但是,他們都矢口否認(rèn)曾殺過人,辯稱是先發(fā)現(xiàn)富翁被殺,然后只是順手牽羊偷了點(diǎn)兒東西。于是警方將兩人隔離審訊。
這個(gè)時(shí)候,聰明的警官找他們談話,分別告訴他們說:“你們的偷盜罪確鑿,所以可以判你們2年刑期。但是,我可以和你做個(gè)交易。如果你招了,他不招,那么你會(huì)作為證人無罪釋放,他將被判10年徒刑;如果你招了,他也招了,你們都將被判5年有期徒刑;如果他招了,你不招,他無罪釋放,你被判無期徒刑,終身囚禁;如果你們都不招,各判2年?!?/p>
一般讀者可能會(huì)誤認(rèn)為,既然兩個(gè)囚犯最好的結(jié)果是都不招供,兩人都只被判2年,那么,兩個(gè)囚犯都選擇不招供就是這個(gè)博弈的最終結(jié)果。
然而,人算不如天算,“囚徒困境”之所以稱為“困境”正是因?yàn)檫@個(gè)博弈的最終結(jié)局恰恰是最壞的結(jié)果,即兩個(gè)囚犯統(tǒng)統(tǒng)招供,結(jié)果都被判有期徒刑5年。
反過來說,這也是警官的聰明之處。警官采取的游戲規(guī)則必然會(huì)讓兩名囚犯坦白罪行,認(rèn)罪伏法。對(duì)一個(gè)博弈來說,游戲規(guī)則非常地重要,適宜的規(guī)則才能夠達(dá)到目的。在我們的日常生活中莫不如此,規(guī)則制訂者往往利用條件制定出有利于自身的規(guī)章制度。
讀到這里,很多讀者不禁會(huì)問,為什么兩個(gè)人都選擇了“招”,傻到接受這種最壞的結(jié)果呢?
在解釋這個(gè)問題之前,筆者首先說明一下,囚徒困境和其它的博弈一樣,都需要有2個(gè)前提假設(shè):囚徒A和B兩人都是自利理性的個(gè)人,即只要給出兩種可選的策略,每一方將總是選擇其中對(duì)他更有利的那種策略;兩人無法溝通,要在不知道對(duì)方所選結(jié)果的情況下,獨(dú)自進(jìn)行策略選擇。
囚犯“思想搏斗過程”大致如下,囚犯A的內(nèi)心活動(dòng)是這樣:假如他招了,我不招,我就要將牢底坐穿,招了最壞坐10年,還是招了合算;假如他不招,我也不招,只坐2年的牢(因無法串供,風(fēng)險(xiǎn)太大);如果我招,他不招,馬上被釋放,也是招了合算。
因此,無論囚犯B是坦白還是沉默,囚犯A采取坦白的策略對(duì)自己更為有利。
同樣,以上推理也適用于囚犯B。結(jié)果兩個(gè)囚徒都坦白了,都被判刑5年。
囚徒困境之所為被稱為“困境”,正是在于:如果A、B二人都保持沉默,則都只被判刑2年,顯然比兩人都坦白的結(jié)果要好。
兩名囚犯都作出招供的選擇,這對(duì)他們個(gè)人來說都是最佳的,即最符合他們個(gè)體理性的選擇。照博弈論的說法,這是惟一的納什均衡點(diǎn)。
除了這個(gè)均衡點(diǎn),A與B的任何一人單方面改變選擇,他只會(huì)得到更加不經(jīng)濟(jì)的結(jié)果。而在其它的結(jié)果中,比如兩人都不坦白的情況下,都有一人可以通過單方面改變選擇,來減少自己的刑期??墒莾扇私?jīng)過一番理性計(jì)算后,卻選擇了一個(gè)使自己陷入不利的結(jié)局。
其實(shí)“囚徒困境”不允許囚犯A和B進(jìn)行溝通的假設(shè),與實(shí)際生活中大部分情況的現(xiàn)實(shí)是有差異的。比如,在愛情博弈中,很多戀人會(huì)經(jīng)常花前月下、徹夜廝守;在企業(yè)的價(jià)格戰(zhàn)中,企業(yè)之間也會(huì)多有溝通,甚至結(jié)成價(jià)格聯(lián)盟;即使是20世紀(jì)下半世紀(jì)的美蘇軍備競(jìng)賽中,兩個(gè)超級(jí)大國也會(huì)經(jīng)常進(jìn)行外交交談,及時(shí)交換信息。
因此不妨將條件放寬,允許囚犯A和B在審訊室里在一起呆上10分鐘,給予他們充分的串供的機(jī)會(huì)。
很明顯,雙方交流的主旨就是建立攻守同盟,克服自利心理,甚至可能訂立一個(gè)口頭協(xié)議,要求雙方都不去坦白。然后,雙方再單獨(dú)被提審。
我們不妨設(shè)想囚犯A的心理活動(dòng)。他一定會(huì)認(rèn)為,如果囚犯B遵守約定的話,則自己坦白就可獲得自由;如果囚犯B告密的話,若自己不坦白就會(huì)被終生囚禁。事實(shí)上,囚犯A的策略并沒有因?yàn)楹唵蔚臏贤ɑ騾f(xié)議而擺脫兩難境地。對(duì)于囚犯B也是一樣。
雖然“坦白從寬,抗拒從嚴(yán)”的道理人人都懂,而從博弈論的角度來看,實(shí)際上就是一個(gè)囚徒困境的應(yīng)用?!扒敉嚼Ь场北豢闯墒遣┺恼摰拇硇园咐粌H因?yàn)槠浜唵我锥?,還在于它的現(xiàn)象在日常生活中廣泛存在。
比如,戀人們?cè)趹賽壑械暮J纳矫?,最終還是分手;企業(yè)之間相互溝通合作結(jié)成戰(zhàn)略關(guān)系時(shí)是信誓旦旦,但價(jià)格戰(zhàn)仍然會(huì)爆發(fā);美蘇兩國經(jīng)常會(huì)晤,甚至簽訂核不擴(kuò)散條約,但軍費(fèi)一年高過一年。
囚徒困境的游戲規(guī)則,能夠讓狡猾的罪犯招供,得到應(yīng)有的懲罰,固然不是壞事。然而,我們不妨假設(shè)囚徒A和B完全都是清白的具有理性的大大的良民,這個(gè)博弈的納什均衡并不會(huì)因?yàn)樗麄兊那灏锥淖儭H绻诂F(xiàn)實(shí)生活中,審案存在對(duì)身體的殘害,完全可能造成屈打成招的冤假錯(cuò)案。在中國歷史上,這種冤案并不是什么稀少的事情。
從更深刻的意義上講,囚徒困境模型動(dòng)搖了傳統(tǒng)社會(huì)學(xué)、經(jīng)濟(jì)學(xué)理論的基礎(chǔ),這是經(jīng)濟(jì)學(xué)的重大革命。
傳統(tǒng)經(jīng)濟(jì)學(xué)的鼻祖亞當(dāng)·斯密在其傳世經(jīng)典《國民財(cái)富的性質(zhì)和原因的研究》中這樣描述市場(chǎng)機(jī)制:“當(dāng)個(gè)人在追求他自己的私利時(shí),市場(chǎng)的看不見的手會(huì)導(dǎo)致最佳經(jīng)濟(jì)后果?!边@就是說,每個(gè)人的自利行為在“看不見的手”的指引下,追求自身利益最大化的同時(shí)也促進(jìn)了社會(huì)公共利益的增長。即自利會(huì)帶來互利。
傳統(tǒng)經(jīng)濟(jì)學(xué)秉承了亞當(dāng)·斯密的思想。傳統(tǒng)經(jīng)濟(jì)學(xué)認(rèn)為:因此經(jīng)濟(jì)學(xué)不必?fù)?dān)心人們參與競(jìng)爭(zhēng)的動(dòng)力,只需關(guān)注如何讓每個(gè)求利者能夠自由參與盡可能展開公平競(jìng)爭(zhēng)的市場(chǎng)機(jī)制。只要市場(chǎng)機(jī)制公正,自然會(huì)增進(jìn)社會(huì)福利。
關(guān)注我們微信公眾號(hào):mw748219