美国麻省理工学院科研团队19日宣布,其开发的人工智能程序“深度角色”(DeepRole)在一个类似“杀人游戏”或“狼人杀”的在线游戏中胜过人类,成为首个在玩家角色和动机不明的的多玩家游戏中战胜人类玩家的人工智能程序。
研究人员让“深度角色”参与了超过4000轮在线桌游“抵抗组织:阿瓦隆”。在这个游戏中,玩家通过游戏进程推测出其他玩家的身份,同时掩藏自己的身份。结果,不论作为“好人”还是“坏人”,“深度角色”都比人类玩家表现更加出色。
研究显示,通过在算法中使用“演绎推理”,“深度角色”根据观察到的部分行为,推断某一玩家是敌是友,快速学习应该与谁结盟从而获得胜利。
这不是人工智能第一次在游戏中战胜人类。
早在2016年3月,谷歌旗下公司“深层思维”公司开发的人工智能程序“阿尔法围棋”就与围棋世界冠军李世石对弈,并以4比1战胜李世石。
去年12月至今年1月,“深层思维”的另一个人工智能程序“阿尔法星”在经典即时战略电脑游戏《星际争霸2》中,与高水平人类职业选手先后举行了11场比赛,以10比1击败人类选手。
只有在1月24日举行的现场比赛中,“阿尔法星”由于游戏视角受限,人类选手才勉强赢下一场。
与围棋棋盘上所有棋子都对双方可见不同,《星际争霸2》中有“战争迷雾”,一方需要猜测和侦察对方的行动,属于“不完美信息博弈”,并且要求人工智能必须实时做出反应。
“深层思维”公司表示,“阿尔法星”获胜,一个重要基础是它使用了深度神经网络,研究人员通过监督学习和强化学习的方式,直接利用游戏的原始数据来训练,以模仿学习的思路,让模型快速学到高水平人类玩家在游戏中使用的策略和操作。
今年7月,美国卡内基-梅隆大学宣布,该校和脸书公司合作开发的人工智能Pluribus在六人桌德州扑克比赛中击败多名世界顶尖选手,突破了人工智能仅能在国际象棋和围棋等二人游戏中战胜人类的局限。
当时,Pluribus与13名德州扑克高手进行了1万手不限注对局的六人桌比赛,每次比赛中由机器对5名人类选手,结果机器取得胜利。
在比赛中,Pluribus会让自己变得难以预测。例如常规打法是在牌最好的时候押注,但这很快会被对手识破,因此它会“耍点心眼”,不按常理出牌。分析显示,它会做出一些多数人类玩家都认为不好的决策,这在客观上也迷惑了对手。
不过,以前的这些游戏中,人工智能从一开始就知道“谁是敌人、谁是朋友”。相比之下,“深度角色”所面对的情况更为复杂,需要根据观察作出自己的判断。
目前,人工智能的技能仍有提升空间,语言能力将是下一个前沿。在游戏中,人类玩家会说谎,这需要更复杂的交流技巧。只有掌握表达技巧后,人工智能才能参与那些需要对其他玩家进行劝说的复杂社交推理游戏。
下赢围棋、打赢游戏,能给人工智能的发展带来什么呢?
研究人员说,在游戏中训练人工智能,有助于人类积累更多经验,最终设计出能够应对现实生活中复杂问题的程序,从而帮助机器人更好理解人类、向人类学习并与人类共事。
记者:周舟 张家伟
编辑/马晓晴