网界
网络资讯 网界财经 科技人物 数据洞察 行业动态 智能出行 智能手机 数码极客 商业资讯

AI语言模型上演“狼人杀”,谁才是推理之王?

2025-03-08来源:ITBEAR编辑:瑞雪

近日,国外知名科技媒体Tom's Hardware报道了一项别开生面的AI实验。开发者Guzus创新性地搭建了一个平台,让多个AI语言模型在同一空间内展开经典的社交推理游戏“Mafia”,也就是人们熟知的“天黑请闭眼”或“狼人杀”的前身。

在这个平台上,不仅每局游戏的胜负一目了然,连对话记录也详尽无遗。更有趣的是,Guzus还设计了一个排名系统,根据AI们在游戏中的表现,评选出最擅长扮演各种角色的模型。

“Mafia”的游戏规则简单明了:一群村民中隐藏着两名Mafia成员和一名医生。白天,村民们需要通过推理和投票找出Mafia;夜晚,医生可以保护一名村民,而Mafia则暗杀一人。若Mafia被全部找出,村民获胜;反之,若所有无辜村民被杀,Mafia则取得胜利。

当这些AI模型被置于这样的游戏规则之下,一场场充满戏剧性的社交博弈随即上演。在一场游戏中,AI们开始自我介绍并讨论是否公开身份,然而Gryphe / Mythomax-l2-13b模型却突然“自爆”,直接承认自己是Mafia的一员,并透露了自己的目标。

这一举动立即引起了其他AI的警觉,Claude-3.7-sonnet模型迅速指出,这要么是真实身份的暴露,要么就是一种前所未有的奇怪策略。

然而,剧情并未就此结束。当Mythomax被淘汰后,它居然“拖下水”了自己的队友Hermes-3-llama-3-1-405b,直接指认对方是自己的同伙。Mythomax试图用夸张的“团结宣言”来转移注意力,但这场AI间的社交混战已经让人捧腹大笑,尽管它们的推理能力显然还有待提高。

在这场AI的“Mafia”大战中,Claude 3.7 Sonnet模型无疑是最耀眼的明星。Anthropic的最新AI推理模型在扮演Mafia角色时胜率高达100%,即便作为村民,其胜率也遥遥领先其他对手,达到了45%。

Guzus透露,他计划不久后开放该游戏的Github代码仓库,希望这一逻辑能被应用于更多类型的游戏中。目前,该模拟并未在本地AI模型上运行,而是依赖于Openrouter API。但一旦代码开放,项目有望改进为支持本地语言模型集群,前提是用户的硬件能够同时运行多个AI。

阿里通义App焕新升级更名千问 5.0.0版本携三大核心能力强势登场
今日,阿里旗下通义App今日发布更新,名称正式变更为千问App,版本号为5.0.0。 在版本 5.0.0中,千问强调其核心能力包括:“对话问答”“智能写作”“全能相机”三大模块。 据知情人士透露,阿里巴巴计…

2025-11-15

谷歌前工程师再创业!AI数据分析新锐WisdomAI获英伟达等3.55亿融资
WisdomAI面向企业客户推出了AI驱动的对话式商业智能(BI)平台,提供AI数据分析业务,用户只需用自然语言提问便可获取分析后的答案。 WisdomAI称:“过去的BI只提供被动的、静态的仪表板,而Ag…

2025-11-15

百度世界大会发布AI新成果:文心5.0、昆仑芯升级,萝卜快跑领跑全球
李彦宏在大会上表示,“我们用AI重构搜索结果页,不是简单地在搜索结果中插入AI摘要,而是把搜索从一个以文字内容和链接为主的互联网应用,转化为一个以图片视频等富媒体内容为主的AI应用。” 在李彦宏看来,AI数字…

2025-11-14

百度世界大会亮点频出:文心5.0等成果发布,AI重构业务引领生产力革新
李彦宏在大会上表示,“我们用AI重构搜索结果页,不是简单地在搜索结果中插入AI摘要,而是把搜索从一个以文字内容和链接为主的互联网应用,转化为一个以图片视频等富媒体内容为主的AI应用。” 在李彦宏看来,AI数字…

2025-11-14

乌镇峰会:前沿科技碰撞,共绘网络空间命运共同体数智新蓝图
“非洲互联网之父”、加纳科网董事长尼·奎诺表示,像乌镇峰会这样的平台为发展中国家提供了宝贵的发声机会和参与空间;世界知识产权组织总干事邓鸿森表示,乌镇峰会为我们提供全球对话与合作的契机,这种对话与合作不仅是…

2025-11-13