

【编者按】在人工智能浪潮席卷全球的今天,各大AI实验室的竞争已从技术比拼延伸至战略布局与人才争夺。当OpenAI聚焦消费级市场、Anthropic深耕企业服务时,马斯克麾下的xAI却意外地将游戏攻略作为重点攻关方向。近日,一则“工程师被迫暂停核心研究,为老板优化《博德之门》游戏问答”的轶事引发热议——这究竟是科技巨头对用户体验的极致追求,还是顶级人才资源的错配?本文通过独家测试,揭开xAI在游戏攻略领域的真实水平,更折射出AI行业激烈竞争下,技术理想与现实需求间的微妙博弈。在人才频繁流动的当下,这场关于“游戏攻略”的插曲,或许正是AI赛道残酷角逐的生动注脚。
不同的AI实验室有着不同的优先级。例如,OpenAI传统上专注于消费级用户,而其竞争对手Anthropic则倾向于瞄准企业客户。我们最近发现,埃隆·马斯克的xAI一直特别重视视频游戏攻略。
周五,商业内幕网的Grace Kay发表了一份关于xAI(这家近期被SpaceX收购的AI初创公司)的详尽且影响深远的报告,特别强调了马斯克如何让员工的日子不好过。但下面这段轶事尤为突出:
据知情人士透露,去年曾有一次,因为马斯克对聊天机器人回答关于电子游戏《博德之门》详细问题的方式不满意,导致一个模型的发布推迟了数天。他们表示,高级工程师被从其他项目中抽调出来,在发布前改进这些回答。
当然,你可以想象任何一位受人尊敬、经验丰富的工程师的沮丧:他满心以为来上班是要攻克知识与机器智能的根本性问题,结果却被拉去帮一个54岁的人打通他的电子游戏。但这则轶事引出了一个更紧迫的问题:马斯克最终得到他想要的游戏技巧了吗?
为了回答这个问题,我们团队中的RPG爱好者Ram Iyer整理了一套关于《博德之门》的五个通用问题,我们用xAI和三大主流模型进行了一次测试,我决定将这种准基准测试称为“博德之门基准测试”。
为了体现新闻透明度,我已公开所有聊天记录,你可以在这里查看:Grok、ChatGPT、Claude和Gemini。
首先,好消息是:Grok实际上提供了相当不错的信息。它的回答有点堆砌游戏行话——比如用“存档读档大法”代替“保存”,用“DPS”代替“伤害输出”——但只要你明白它在说什么,这些答案既实用又内行。Grok还特别喜欢表格和理论构建,这大概在你的预料之中。
市面上有很多《博德之门》攻略,这些模型大体上参考了相同的资料,所以最大的区别在于风格。ChatGPT偏爱项目符号列表和句子片段,而Gemini热衷于将重要词汇加粗。
最大的惊喜来自Claude,它特别担心提供的信息会破坏我的游戏体验。当我询问好的队伍组合时,它最后建议道:“别太有压力,就玩你觉得有趣的组合吧。”谢谢你,Claude!
需要记住的是,根据商业内幕网的报道,我们知道xAI特别专注于在这个领域达到同等水平。因此,我们不应过度解读以下事实:据报道,在经历了那次冲刺赶工后,Grok给出的建议与其他模型大致相同。不过,知道xAI只要努力就能做到这一点,还是不错的。
播放器加载中…?