admin 管理员组文章数量: 1087139
博弈论
博弈是多智能体强化学习中的常用理论。本文介绍几种基本的博弈游戏。
1 囚徒困境
在囚徒困境博弈中,两名犯罪的囚犯一起被警察盘问,每个罪犯都有两种选择:一种是与警察合作来对付同伙;另一种是与同伙串通而对警察撒谎。如果两名罪犯相互配合而不承认犯罪,则只会在监狱里呆几个月的时间。但如果他们中的一个为对付同伙而与警察合作,另一个却维护同伙而对警察撒谎,则这个与同伙合作并欺骗警察的罪犯将会做很长时间的牢。
(1)如果罪犯配合很好,欺瞒了警察,则会同时获得奖励5,并关几个月。
(2)如果一个罪犯向警察认罪,而另一个罪犯撒谎,则前者获得奖励10并释放,后者获得奖励0并获得终身监禁。
(3)如果都向警察认罪,则都会获得奖励1并关几年。
大多数理性的人都会选择(3)而尽量减少在监狱的时间。
选择坦白交代的行为称为纳什均衡(NE)。如果一个具有机器学习能力的智能体不断重复地玩该游戏,
那么会学习到在任何情况下都100%地选择坦白。这就是所谓的纯策略博弈。
2 猜硬币
两个小孩各有一枚硬币,然后各自选择显示硬币正面或反面。如果都同时显示两个正面或反面,则玩家1获胜并得到回报1,而玩家2输且回报为-1。若两枚硬币正反各不相同,则玩家2获胜。每玩一局都有一个玩家会赢而一个玩家会输,这就是所谓的零和矩阵博弈。
该游戏的最优策略,或其纳什均衡,是一种以50%概率选择硬币正面同时50%概率选择硬币反面的混合策略。这称为混合策略博弈。
3 剪刀石头布
剪刀石头布的规则是每次可以出石头(拳头)、剪刀或布的手势。而布能盖住(赢)石头,石头能击毁(赢)剪刀,剪刀能割开(赢)布。如果两个玩家出的一样,那么就是平局。这个游戏是一种混合策略的零和博弈。显然,解决方案应该是随机以33%的概率选择石头、剪刀或布的手势。唯不同的是该游戏可以选择3种行为。
本文标签: 博弈论
版权声明:本文标题:博弈论 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://roclinux.cn/b/1686509999a3947.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论