

编者按:AI江湖,风云再起!从OpenAI的GPT-5.1惊艳亮相,到马斯克旗下xAI的Grok-4.1火速反击,再到谷歌Gemini 3系列横空出世,这场没有硝烟的“最强AI”争夺战已进入白热化阶段。短短一个月内,王座三度易主,巨头们从昔日的半年一更新,疯狂内卷到如今周更、月更的“闪电战”。然而,频繁的版本迭代背后,是真正的技术飞跃,还是营销驱动的数字游戏?当“刷榜”成为常态,我们不禁要问:这些在专业测试中屡破纪录的AI,究竟离改变普通人生活的“智能革命”还有多远?本文将带你直击这场AI“军备竞赛”的最前线,看透光环下的真实战局。
10月28日,OpenAI宣布推出其AI模型的升级版GPT-5.1。这款以“博士或更高水平”能力著称的GPT-5升级迭代,超越了前代,并在被誉为“AI行业公告牌”的LMSYS聊天机器人竞技场中夺得榜首。对此,埃隆·马斯克的xAI于11月17日发布了Grok-4.1。值得注意的是,其增强了推理能力的“思考”版本,重新夺回了LMSYS聊天机器人竞技场的头把交椅。次日,谷歌以突然宣布Gemini 3系列作为回应。其Pro模型在多项AI基准测试中展现出压倒性性能,被业界誉为“全球最聪明的AI”。同月24日,Anthropic推出了Claude 4.5 Opus,其在编码能力指标上超越了GPT和Gemini。OpenAI随即宣布进入“红色代码”紧急状态,并全力投入AI开发。12月6日,OpenAI发布了GPT-5.2,并宣称:“我们再次超越了Gemini。”
AI模型之间的竞争正日趋白热化。自2022年11月30日OpenAI发布引发AI普及潮的GPT-3.5以来,各大公司原本每6个月到一年更新一次模型。如今,它们将AI模型的升级周期缩短到了每1-2个月,甚至每周。因此,“最强AI”的称号随着每次新发布而不断易主。
◇“最强AI”日新月异
2022年11月,OpenAI推出GPT-3.5,拉开了AI技术大战的序幕。直到2023-2024年,公司们更新模型至少还需要六个月时间。OpenAI在五个月后的2023年3月发布了推理能力显著提升的GPT-4,随后在2024年5月推出GPT-4o,并于2024年12月发布了专注于推理和编码的o1模型。
其他公司也遵循着类似的节奏。谷歌于2023年12月发布Gemini 1.0,随后在3-6个月后将其升级为Gemini 1.5 Pro和高性价比的Flash模型。Gemini 2.0在Gemini 1.0发布一年多后,于2025年2月亮相。Anthropic的Claude和xAI也大约每六个月更新一次模型。
然而,今年发布周期急剧加速。OpenAI在4月、8月、10月和12月都宣布了AI模型升级,对于购物助手等小功能的更新甚至更为频繁。谷歌也保持了强劲势头,在2月发布Gemini 2.0,4月推出Gemini 2.5 Flash,11月又带来Gemini 3.0系列。它还两次推出了图像生成和编辑功能“Nano Banana”。Anthropic的Claude和xAI的Grok今年也经历了多次重大更新。
其结果是,“最强AI”频繁换位。OpenAI的最新GPT宣称夺冠,随即被谷歌的Gemini超越,后者又被Anthropic的Claude或xAI的Grok反超,如此循环往复。xAI在2月发布的Grok-3,在评估数学和博士级科学能力的基准测试中达到了世界第一。Anthropic在11月发布的Claude 4.5 Opus,则录得了顶级的编码性能,在编码方面持续超越OpenAI的GPT和谷歌的Gemini。
◇对碎片化发布与基准测试营销的质疑
随着AI模型竞争加剧,人们的疲劳感和质疑也在增长。批评者指出,旨在频繁展示新模型的“碎片化发布”已成常态。OpenAI不仅发布突破性的GPT模型,还频繁推出“Turbo”等轻量版本以及“Preview”等测试版模型。谷歌的轻量版Gemini“Flash”,常被视为参数调整后的重新包装,而非全面创新。当OpenAI发布GPT-5时,一些人表达了失望:“我们期待的是通用人工智能(AGI),但这并不是AGI。”
用于评估模型的“AI基准测试”的客观性也受到质疑。这些基准测试侧重于推理、数学和科学考试,而非用户体验到的性能,导致模型为特定测试而优化。这形成了一个循环:AI测试本身成了开发目标,公司们利用基准测试进行融资和营销。8月,科学期刊《自然》指出:“许多AI基准测试显示的性能是针对特定测试优化的,而非真实世界的能力。”《商业内幕》在12日报道称:“即使在基准测试中表现最佳的AI模型,其准确率也仅达到69%。”
本文由路知网原创发布,未经许可,不得转载!
本文链接:https://m.yrowe.com/ga/76505.html