
在备受关注的 Cortex-AGI 综合推理基准测试 中,DeepSeek 最新推出的 V3.2 模型 以 38.2% 的综合得分,成为当前表现最佳的开源模型。这一成绩凸显了开源模型在复杂抽象推理任务上的显著进步,同时也揭示了其与顶尖闭源模型之间仍存在的性能差距——谷歌的 Gemini 3.0 Pro 以 45.6% 的得分位居总榜首位。
什么是 Cortex-AGI 基准?
Cortex-AGI 并非普通的语言理解或知识问答测试,而是一个专门为评估 AI 模型的抽象推理与泛化能力设计的严谨基准。其核心特点包括:
· 程序生成的逻辑谜题:所有测试题目均为动态生成,确保模型无法通过记忆训练数据“背诵”答案,必须真正依靠推理能力解题。
· 十大渐进复杂度等级:任务难度从基础逻辑关联逐步提升至高度复杂的抽象推理,全面检验模型的推理深度与泛化上限。
· 闭源与开源模型同台竞技:在同一标尺下,公平比较如 Gemini、GPT-4 等闭源模型与各类开源模型的性能表现。
该基准的目标是衡量模型在面对分布外(out-of-distribution)、高抽象度任务时的核心推理能力,这被认为是迈向更通用人工智能(AGI)的关键指标之一。
可以预见,随着开源模型在推理基准上不断逼近闭源模型,两大阵营的竞争将进一步从“规模竞赛”转向“效率与创新竞赛”。对于整个产业而言,更强的开源推理模型将降低高级 AI 能力的应用门槛,加速其在科研、教育、复杂决策支持等领域的落地。