Gemini 3 DeepThink 深度体验：AI推理能力的又一次突破

这是一场意料之外,却又在情理之中的突袭。

坦白说,过去的一年里,我们见惯了各家大模型在跑分榜上的"你追我赶",往往只是零点几个百分点的拉锯战。但这次 DeepThink 的发布,给我的感觉完全不同。它不是在现有基础上做简单的加法,而是在尝试重构模型"思考"的方式。

并不只是"慢思考"

如果说之前的 Chain-of-Thought(思维链)是让模型学会"一步一步地想",那么 Gemini 3 DeepThink 带来的则是并行推理(Parallel Reasoning)。

这是一个非常关键的区别。我们在使用之前的推理模型(比如早期的 o1 系列)时,往往能感觉到它们在进行线性的深度挖掘。模型像是一个钻牛角尖的学生,沿着一条逻辑路径死磕到底。这种方式在解决某些问题时很有效,但一旦初始方向错了,就会在错误的道路上越走越远,最终导致幻觉或逻辑崩塌。

Google 这次展示的"并行推理"技术,让模型拥有了"分身术"。在面对一个复杂的数学难题或逻辑陷阱时,DeepThink 不再孤注一掷,而是同时构建多个假设路径。你可以把它想象成一个围棋高手,脑海中同时推演着未来五步的十几种可能性。它会评估每一条路径的可行性,迅速抛弃那些看起来没前途的死胡同,然后集中算力在最有希望的路径上继续深挖。

这种机制带来的直接体感是:它的"纠错率"极高。在我的初步测试中,对于那些故意设置了前提陷阱的逻辑题,DeepThink 很少会直接跳进坑里,因为它在并行思考的过程中,大概率有一条路径已经发现了前提的谬误。

数据背后的真相:当 GPT-5 遇到劲敌

光谈技术原理未免有些空洞,我们来看看实打实的评测数据。Google 这次放出的基准测试成绩非常硬核,特别是对比了 Claude Sonnet 4.5、GPT-5 Pro 甚至 GPT-5.1 这些顶流选手。

下图展示了三个极具代表性的基准测试对比,数据量非常丰富,建议大家仔细看一看:

详细评测数据对比

Google 官方发布的评测数据覆盖了三个关键维度：推理与知识、科学知识和视觉推理能力。下面是完整的数据对比：

1. Humanity's Last Exam（推理与知识测试）

测试条件：Tools off（不使用外部工具）

这项测试被称为"人类的最后考试"，旨在评估模型在开放式问题中的自主推理能力。DeepThink 以 41% 的成绩领跑，比第二名 Gemini 3 Pro 高出 3.5 个百分点，比 GPT-5 Pro 高出整整 10.3 个百分点。

Humanity's Last Exam基准测试结果对比图，展示Gemini 3 DeepThink以41.0%的得分领跑，依次是Gemini 3 Pro (37.5%)、GPT-5 Pro (30.7%)、GPT-5.1 (26.5%)、Gemini 2.5 Pro (21.6%)和Claude Sonnet 4.5 (13.7%)，DeepThink相比最强竞品领先超过10个百分点

2. GPQA Diamond（科学知识测试）

测试条件：Tools off（不使用外部工具）

GPQA Diamond 是研究生级别的科学问题测试，涵盖物理、化学、生物等多个学科。DeepThink 以 93.8% 的准确率位居榜首，在这个高分区间，每提升 1% 都意味着显著减少了专业级幻觉。

GPQA Diamond科学知识测试结果对比图，Gemini 3 DeepThink以93.8%位居榜首，其次是Gemini 3 Pro (91.9%)、GPT-5 Pro (88.4%)、GPT-5.1 (88.1%)、Gemini 2.5 Pro (86.4%)和Claude Sonnet 4.5 (83.4%)，所有模型得分都在80%以上的高分区间

3. ARC-AGI-2（视觉推理谜题）

测试条件：Tools on（允许使用代码执行）

ARC-AGI-2视觉推理测试结果对比图，Gemini 3 DeepThink在Tools on模式下达到45.1%、Tools off模式下31.1%，远超GPT-5.1 (17.6%)、GPT-5 Pro (15.8%)、Claude Sonnet 4.5 (13.6%)和Gemini 2.5 Pro (4.9%)，展现了碾压性的优势

ARC-AGI-2 被认为是最接近测试"通用流体智力"的基准测试，要求模型理解从未见过的抽象视觉模式。DeepThink 的 45.1% 成绩是一个里程碑式的突破，几乎是 GPT-5.1（17.6%）的 2.5 倍，比自家前代 Gemini 2.5 Pro（4.9%）提升了惊人的 820%。

下图是官方发布的综合对比图，三项测试一目了然：

Google官方发布的Gemini 3 DeepThink在三个关键基准测试中的性能对比：1. 在Humanity's Last Exam (Tools off)中,Gemini 3 DeepThink以41%的得分遥遥领先,超过GPT-5 Pro (30.7%)和Claude Sonnet 4.5 (13.7%)。2. 在GPQA Diamond (Tools off)科学知识测试中,Gemini 3 DeepThink以93.8%位居第一。3. 在ARC-AGI-2视觉推理测试中,Gemini 3 DeepThink展现了惊人的优势,Tools on模式下达到45.1%,远超GPT-5.1的17.6%和Claude Sonnet 4.5的13.6%。

让我们把目光聚焦在最具破坏力的几个数据点上。

首先是 ARC-AGI-2。这不仅仅是一个分数,这是一个分水岭。

熟悉 AI 评测的朋友都知道,ARC(Abstraction and Reasoning Corpus)一直是 LLM 的噩梦。它不考死记硬背的知识,考的是纯粹的视觉逻辑和即时学习能力——也就是大家常说的"通用流体智力"。在很长一段时间里,哪怕是最强的模型,在这个榜单上也只能拿到个位数或刚刚出头的分数。

看图中的数据,Gemini 2.5 Pro 只有 4.9%,这基本上就是"完全看不懂"的状态。Claude Sonnet 4.5 和 GPT-5 Pro 提升到了 13-15% 的区间,虽然有进步,但依然属于"蒙对了一些"。

然而,Gemini 3 DeepThink 直接把这个数字拉升到了 45.1%(Tools on,即允许编写代码辅助)。即便是不使用工具(Tools off),它也达到了 31.1%。这几乎是两倍于 GPT-5.1 的表现。这意味着模型不再只是在做文本预测,它真正理解了抽象的规律,并能将这种理解转化为代码来验证自己的猜想。这种能力的跃升,主要就归功于"并行推理"——在面对从未见过的谜题时,尝试多种可能的变换规则,直到找到正解。

再来看看 Humanity's Last Exam。这个名字听起来很中二,但它是目前公认最难的综合推理测试之一,旨在测试模型在没有具体指令下的自主探索能力。

DeepThink 在这里拿到了 41.0%。作为对比,Claude Sonnet 4.5 只有 13.7%,哪怕是目前市面上极强的 GPT-5 Pro 也只跑到了 30.7%。这 10 个百分点的差距在高端局里是非常恐怖的。它说明当问题变得极端复杂、需要跨学科知识和多步跳跃逻辑时,DeepThink 的"多路思考"模式展现出了碾压级的稳定性。

至于 GPQA Diamond(科学知识),虽然大家的差距没有拉得那么大(DeepThink 93.8% vs GPT-5 Pro 88.4%),但这属于"百尺竿头更进一步"。在 90 分以上的区间,每提升 1 分都意味着减少了大量的专业级幻觉。对于需要用 AI 辅助科研的用户来说,这 5% 的准确率提升可能就是"实验成功"与"查错三天"的区别。