DeepSeek V3.2 在最新以Cortex-AGI为基准的排行榜中，是得分最高的开源模型

在备受关注的 Cortex-AGI 综合推理基准测试中，DeepSeek 最新推出的 V3.2 模型以 38.2% 的综合得分，成为当前表现最佳的开源模型。这一成绩凸显了开源模型在复杂抽象推理任务上的显著进步，同时也揭示了其与顶尖闭源模型之间仍存在的性能差距——谷歌的 Gemini 3.0 Pro 以 45.6% 的得分位居总榜首位。

什么是 Cortex-AGI 基准？

Cortex-AGI 并非普通的语言理解或知识问答测试，而是一个专门为评估 AI 模型的抽象推理与泛化能力设计的严谨基准。其核心特点包括：

· 程序生成的逻辑谜题：所有测试题目均为动态生成，确保模型无法通过记忆训练数据“背诵”答案，必须真正依靠推理能力解题。

· 十大渐进复杂度等级：任务难度从基础逻辑关联逐步提升至高度复杂的抽象推理，全面检验模型的推理深度与泛化上限。

· 闭源与开源模型同台竞技：在同一标尺下，公平比较如 Gemini、GPT-4 等闭源模型与各类开源模型的性能表现。

该基准的目标是衡量模型在面对分布外（out-of-distribution）、高抽象度任务时的核心推理能力，这被认为是迈向更通用人工智能（AGI）的关键指标之一。

可以预见，随着开源模型在推理基准上不断逼近闭源模型，两大阵营的竞争将进一步从“规模竞赛”转向“效率与创新竞赛”。对于整个产业而言，更强的开源推理模型将降低高级 AI 能力的应用门槛，加速其在科研、教育、复杂决策支持等领域的落地。

DeepSeek V3.2 在最新以Cortex-AGI为基准的排行榜中，是得分最高的开源模型

相关阅读