neverland's profileNever, Never, NeverlandPhotosBlogLists Tools Help

Blog


    November 25

    学生时代

    一位中年男子
    独自在东区一个荒草丛生的球场
    傍晚天黑了
    用身后自己的车灯照着
    上篮
     
    今日清华偶见有感。
    November 13

    写的一点东西,关于红黑博弈项目

    解释一下,红黑博弈是一个很简单的博弈游戏,六轮,每一轮两个队伍在两分钟慢跑和随后30秒讨论中统一意见后出牌。双方都出红牌均得+5分,都出黑牌均得-8分,一红一黑则红的-5黑的+8。第三轮得分加倍,四五轮恢复,第六轮得分四倍。游戏过程中他们之间怎么沟通承诺商量违约等等除了不许亮牌换牌外我们培训师一概不管,只管埋头做笔记写分数准备最后的讨论总结词还有换着方式忽悠人。
     
    虽然坐在办公桌前分析理论很容易,但只有亲身参与到项目中才会发现“博弈”的内容是那么的丰富,一个团队的决策具有无穷的变数,与队伍的特性,与对手的选择,与以前和以后的相处,与当时情境下的相互交流互动都有着非常大的关系,没有任何两支队伍的模式会完全相同。只有体验后才能真正的感悟,这就是素质拓展的精髓。
     
    下面的东西是项目完成后写给四个班级参与的八支队伍扩展阅读的一点资料,不觉得烦的同志可以看看,能在活动组织中派上点用场就再荣幸不过了。不过从科技论文的要求看格式和内容都不够严谨,就不要转载了。

    红黑博弈、囚徒困境与行为生态学ESS理论浅谈

    红黑博弈是素质拓展中的经典项目之一,相当多的人接触到的时候会自然想起了囚徒困境。作为博弈学中的经典案例,已经有非常多的人对囚徒困境进行了研究。在这一博弈中,从全局来看,两个囚徒都选择合作(不坦白)会获得总的最大利益。但是对每一个囚徒而言,不管对方如何选择,选择不合作均会获得比选择合作更大的利益。为了解答现实生活决策中为何会出现看似并非局部最优解的“合作”现象,发展出了多种理论模型。动物行为生态学(behavioural ecology)中的进化稳定策略(evolutionarily stable strategy, ESS)理论就是这样一种模型。

    行为生态学研究的是生态学中的行为机制和动物行为的生态学意义和进化意义。长期以来,动物行为学家一直困惑于在生存竞争和自然选择下一些看似对动物个体自身不利的合作行为和利他行为究竟有什么意义,能够在漫长的进化中得以保存没有被淘汰。结合博弈论和行为生态学的ESS理论的出现部分解答了这一问题。

    1. ESS

    首先解释一下ESS。以一个简单的资源争夺模型为例,假设同一种群中的个体为了争夺某种资源(食物、领地、异性……)将随机相遇,面对可能发生的战斗进行策略选择。只考虑两种基本策略:鹰策略和鸽策略,鹰策略的选择是进行攻击争夺资源,而鸽策略是仅仅采取威吓等温和措施。当鹰和鸽相遇时,鹰将发动攻击而鸽将退却,鹰获得大量报偿A而鸽获得很小的报偿B;当鹰和鹰相遇时,两者由于相互战斗负伤,考虑到争夺资源成功所得和胜负随机性后两者平均获得负值报偿-C;当鸽和鸽相遇时,两者采取相对温和的策略获得平均报偿D(显然B<D<A)。我们令A=100, B=0, -C=-50, D=20,用报偿矩阵表示如下:

    报偿(X,Y) 个体Y→
    个体X↓ ↘
      鹰 (-50,-50) (100,0)
      鸽 (0,100) (20,20)

    我们的问题是:哪种策略更优、具有更高的适合度、在进化中能够被选择保留下来呢?

    假设一个群体中所有个体均为鸽,它们在争夺资源时获得的平均报偿为20。这个时候在群体中加入(例如通过遗传变异产生)一个鹰个体,那么这只鹰与其它鸽每一次争夺资源均能胜利获得100的报偿。此时鹰策略就比鸽策略更优,在进化中获得了更高的适合度(fitness),这样的个体数量将逐渐增多而侵蚀纯鸽群体。这个时候,我们说纯鸽策略不是一种ESS。

    反过来,假设一个群体中所有个体均为鹰,它们在争夺资源时获得的平均报偿为-50。这个时候群体中加入一个鸽个体,它在争夺中将获得平均为0的报偿,大于鹰平均的-50。此时鸽策略反而更优,能够在进化中侵蚀鹰的群体。所以纯鹰策略也不是一种ESS。

    通过计算可以得知,在上述报偿矩阵的条件下,群体中8/13的个体选择鹰策略,5/13的个体选择鸽策略;或者允许混合策略情况下,每一个个体均以8/13的概率选择鹰策略,5/13的概率选择鸽策略,群体中每个个体获得的平均报偿将相等。而且这个时候无论是采取更多的鹰策略还是更多的鸽策略均会导致个体所获得的平均报偿降低。因此,这种8:5的鹰/鸽策略就是一个ESS。

    需要注意的是ESS受到报偿矩阵的影响,假如两只鹰相遇在除掉战斗负伤后剩余获得的总平均报偿仍然为正值,如下的报偿矩阵:

    报偿(X,Y) 个体Y→
    个体X↓ ↘
      鹰 (50,50) (200,0)
      鸽 (0,200) (70,70)

    那么这一报偿矩阵下纯鹰策略是一种ESS,因为在一个全为鹰的群体中任何出现的鸽个体获得的报偿小于其他个体获得的报偿(0<50)。

    2. 囚徒困境的报偿矩阵

    回到囚徒困境,这与动物行为中的合作模型有相当相似的地方。为了避免感情色彩,我们放弃“背叛”“欺骗”“坦白”“抗拒”等词汇,用“合作”和“不合作”的术语来表示囚徒或行为生态学中参与博弈个体的选择。这里使用研究中最经典的报偿矩阵为例,假设两个博弈者在作出选择前均不知道对方的选择,双方均采取“合作”将同时获得3的得分,均采取“不合作”则获得1的得分,一方试图“合作”另一方“不合作”则不合作方获得最高得分5,选择合作方得分为0。得分(报偿)矩阵如下:

    得分(X,Y) 博弈者Y→
    博弈者X↓↘
    合作 不合作
     合作 (3,3) (0,5)
     不合作 (5,0) (1,1)

    这里便出现了“困境”!对于全部选择“合作”的个体组成的群体,一个选择“不合作”的个体能轻易的获得更多的利益(5>3);而在全部选择“不合作”的群体中,选择“合作”的个体将无立足之地(0<1)。也就是怎么选择都是“不合作”更优,不合作策略成为ESS。那么,动物行为中还会出现合作吗?或者两个囚徒难道是注定了会选择相互不合作吗?

    3. 重复囚徒困境博弈与程序模拟

    我们要注意到,上面所有策略选择都是基于博弈者之间只进行一次博弈,或者虽然进行多次,但对以前发生过的博弈没有记忆性的情况下来考虑的。当引入“记忆”这个要素后,多次博弈情境下的策略选择会发生很大的改变。一个博弈者可以对曾经对自己或者别人采取过“不合作”的其他博弈者采用“不合作”来进行“惩罚”。这个时候,始终选择不合作的博弈者未必就一定能够获得更高的得分。“一怨一报”(Tit for Tat,又称一还一报、针锋相对、以牙还牙)策略就是一种简单的包含“惩罚”的策略,它将首先采取合作,然后在重复遇到同一个对手时选择它上次对自己使用的策略。其他“报复型”策略还有“两怨一报”、“决不宽恕”甚至更多需要复杂数学模型分析计算的策略等等。

    1984年,密歇根大学的罗伯特·爱克斯罗德(Robert Axelrod)收集了世界各地行为学家所提出的62种不同的行为策略,加上“随机选择”共63种,利用计算机模拟进行了一次比赛。结果显示,诸多策略中相当简单的“一怨一报”获得了最高得分。而且进一步分析表明,当全部博弈者均选取“一怨一报”时,其他任何策略都无法侵蚀。也就是对于重复囚徒困境博弈,“一怨一报”是一种稳定的ESS。这样便解释了,为何“双赢”是一种单次得分并非最高但却是接近最优的选择。

    通过分析获得高分的策略,爱克斯罗德总结了策略获得成功的几个条件:

    • 友善 “友善”表示不要在对手选择不合作前先选择不合作。几乎所有的高分策略都是友善的。
    • 报复 但是,一个成功的策略不能完全地充当“好人”,要能够报复。
    • 宽恕 成功策略另一个普遍特点是宽恕。虽然有报复,但是如果对手如果再次选择合作,自己也会跟随选择合作,停止了无休止的报复。
    • 不嫉妒 不嫉妒的含义是指不争取在每一次比赛中均获得高于对手的分数。尽量提高自己得分并非追求每一次均比他人得分高。

    此外,相当一部分成功策略(包括“一怨一报”)还拥有一个特性:明晰,也就是容易为其它策略所辨认,从而采取对应合适策略,而不至于被误解(友善的策略若同时采取过于复杂的报复方式可能会被误认为“贪婪”)或认为是随机策略。

    在竞赛中,始终合作的“老好人”策略被迅速淘汰了;在此之后,“贪婪”的策略由于失去可以获取利益的对象也逐渐式微,最终是以“一怨一报”为代表的“友善+报复”型策略取得了普遍成功。在这里我们认为所有策略都是“自私的”,它们的目标就是为自己获得更高的分数。上面的分析表明,即使为了自己的利益最大化,也不要选择“贪婪”。

    2004年组织了重复囚徒困境博弈20周年纪念赛,这一次规则允许“团体参赛”,也就是多个程序间可能存在联盟互相支持(一开始互相并不知道,需在随机相遇经过一段时间行为识别后才能辨认)。英国南安普敦大学策略利用这一点,60个参与程序相互配合,战胜“一怨一报”获得了前3名,但同时也得到大量靠后的名次。这一结果也说明了我们难以找到一种在任何情况下一定都会是“最好”的策略,每种策略的优势或劣势都同规则,以及其他博弈者采取的策略紧密相关。

    4. 红黑博弈、重复囚徒困境博弈、实际生活有关情境的相同点、不同点以及带给我们的启示

    现在我们回头看红黑博弈,红黑博弈与重复囚徒困境博弈至少存在着以下几点不同:

    1. 报偿矩阵不同。在红黑博弈中双方均采取不合作的罚分是相当大的,这相对囚徒困境博弈正好相反。也就是如果已经确定了对方选择出黑牌,那么只考虑单次己方利益最大化情况下己方应该出红牌(-5>-8)。这一设置理论上应当有利于促进合作。
    2. 重复次数不同。红黑博弈中是有限次数重复,在理论模型中,有限次数重复囚徒困境博弈将导致始终不合作,“报复”需要有足够多的再度相遇机会才能发挥效果。
    3. 参与博弈者数量不同。我们课堂上进行的红黑博弈中通常只有两个博弈者(两支队伍),理论模型中,有限博弈者一样会导致倾向于不合作,过少的博弈者将会导致“友善”者失分后难以追回。
    4. 博弈者性质的本质差别。在以上的理论模型中,我们都是假设博弈者是完全理性的,没有任何心理因素影响,唯一目标是获取更高的得分,或者是动物获得更大的适合度和进化选择保留可能性。实际的红黑博弈中,参与队伍内部、队伍之间存在着非常复杂的互动,例如联盟、契约、心理压力甚至博弈以外因素等等,这些不限于行为生态学经典研究对象的成分都会影响博弈。加上特意设置的不同轮次博弈得分加倍的不同所造成的心理影响,这使得不同的队伍参与的红黑博弈、或者同样两支队伍再度参与的红黑博弈,大家做出的选择都会各式各样、充满变化。

    如果将重复囚徒困境博弈与现实生活类比的话,我们可以发现它们有很多共同点,例如无限次重复博弈的潜在可能性、近于无限的博弈参与者和信息流通性等。而红黑博弈与现实生活也有很多类似之处,主要在于非完全理性因素影响、双方在保持合作同时又尽力争取自己利益最大化(这一点在谈判中尤其明显,双方都想争取最大利益,但谈判破裂对双方都有损失)、联盟、契约、诚信乃至道德法律等因素的存在等等。或许以上的理论分析,特别是重复囚徒困境博弈竞赛高分策略的特性,能够有助于我们对现在社会流行的“共赢”理念有深一步的体会,而结合一些具体实例的分析,我们也能对军备竞赛、价格战、爱情关系等等政治、经济和生活现象等获得更好的理解。

    同时我们也要看到,理论是现实情况的简化和抽象模型。无论在游戏中还是生活中,我们不能将同一理论模型不加消化的简单套用。例如在素质拓展课程中,我们便特意设计了多种需要不同理念的项目,既包括以合作共赢为唯一目标的项目,也包括“为了自身利益最大化而追求共赢”的项目,还有充满竞争甚至是纯粹“你死我活”的对抗项目(零和博弈)。一个项目中大家采取的具体策略都有可能适合也有可能不适合另一个项目,但这些“不适合”正是我们学习和体验的重要一部分。我们希望大家能够认识到各种情况以及其模拟的生活情境中的相通和不同之处,勇于思考和实践,迎接个人和团队的挑战,在体验和学习中获得进步。

    参考资料

    • 《行为生态学》,尚玉昌,北京大学出版社,1999年。
    • 2004年重复囚徒困境博弈竞赛官方网站(链接)以及有关文献列表页面(链接)。
    • 中文维基百科“囚徒困境”条目(链接)。

    其他网络资源

    • 一个个人Blog上对打破囚徒困境的分析,包括一些实例和其他博弈模式。链接
    • 一个双人重复囚徒困境博弈游戏的网页,有多种对方策略可选择。链接
    • 重复囚徒困境博弈竞赛进化模拟的网站,可以自定义策略参赛。链接

    November 11

    11月11日及其他

    祝:年年有今日,岁岁有今朝
    这是今天听闻的最欠揍的短信
     
     
     
    扯点其它的事情。
     
    北大正在迎接据说是建校以来第二次的本科生教学评估,传闻不合格将会导致以后上头不给钱。于是从上到下都紧张兮兮。三角地被拆得只剩花花草草了,无数毕业了的愤青或准愤青们大声疾呼一种象征和一个时代的倒掉,另一些没毕业的愤青或准愤青们也跟着嚷嚷。遗憾的是在大学里,要破坏一种传统太容易了,官方略使用胡萝卜加大棒的手段坚持三年,什么校园传统和文化都会随着毕业生的离开而散伙,被社会大流稀释——虽然有留守的研究生,但这个群体似乎根本就不会把什么传下去——只剩下少数留校任教的愤中们在上课时或慷慨激昂或絮絮叨叨或冷嘲热讽表示不满让新来的小孩们知道曾经有过那么一回事。例如,95年把原来的北大BBS(未名空间前身?)搞到关站的那位胡子,不是他我还不知道当年发生过这么一些事。
     
    评估期间另一个举措是上课严禁迟到,教学楼会在早上8点关门直到第一堂课快结束。像我这种人的应对就是一旦有可能迟到了就索性不去了,倒也符合领导要求。可是无数散漫惯了的小孩就不一样了。当助教时带的三个素质拓展体育课班,强调不能迟到不能穿非运动鞋非运动装时,老大顺便还提到这部分是为了以后的师弟师妹们时,研究生班一半人杂乱回答“好”,一半耸耸肩膀;本科生班则是纷纷扬扬一片抱怨,间杂着几个像是自言自语又像是说给我们听的说“真无聊”,还有一个刺头儿女生直接就跳了出来:我觉得学校这纯粹是面子工程,纯属为了检查,真正的一流大学完全不是什么评估就可以达到的,学校应该把精力更多的放在……还没说完老大直接站起来朝她那个方向走了过去,把她吓得退了好几步;然后回头诡异一笑:我只是准备宣布开始上课让大家跟我过来而已,又不是来检查的官员,怕什么怕?
     
    后来我们几个助教和老大讨论,感觉都是本科生里会说会抱怨会骂的人太多了,真的会去用行动表示捍卫或抗议的基本一个也不会有。其他有过外校带课经验的助教还觉得北大尤其如此。相对而言研究生,还有高中生“言行一致”的程度就大了很多。由此想起很久以前跟人的一次争论,大概就是他认为凭什么军训要我们服从那么多不一定合理的命令,作那么多不一定有意义的事情。现在想来,假如像隔壁一样大一入学直接军训乃至梁子他们那个时代的一年军训,恐怕是不会有那么多废话的——不能接受随时可以退学直接走人——上头的命令不一定合理,大声叫嚷几句回头往人群一缩(有时还让大家一起顶缸)的事情太容易做了。或许人都是被惯坏的吧。
     
    一点感叹:千万不要眼高手低,自己掂量着不想去做或者不敢去做的事情还是尽量少发表些“这事不该如何如何”的言论,除非至少能给出一个“这事应该如何如何会更好”的还有点可行性的Protocal。从这个角度而言,有时候自己还不如东门外找每一个过路人宣布自己推翻了相对论的大叔们。
     
    这门素质拓展课还是教给了我很多,以后慢慢讲点烈鸟队的故事,还有助教生活时小孩们的故事。