七家主流大模型 PK 2025 高考数学：仅 DeepSeek、讯飞星火突破140分

AI资讯1年前 (2025)发布 ainav

2,994 0 0

### 七家大模型挑战2025高考数学全国1卷：总体得分与表现分析

在2025年高考数学全国1卷的“考试”中，七家大模型展现了各自的实力。以下是对各家模型的表现、得分情况及优缺点的总结：

—

#### **总体得分情况**
– **DeepSeek**：以143分的成绩位列榜首。
– **讯飞星火**：紧随其后，获得141分，位居第二。
– **GPT o3**：以138分获得第三名。
– 其他模型（如豆包、通义千问等）得分与国际顶尖模型持平，展现了较强的数学能力。

—

#### **领先者的表现**
1. **DeepSeek R1**
– **优势**：在数学能力和思考推理方面表现出色。升级后的版本显著提升了响应速度和准确性。
– **不足**：
– OCR识别效果不佳，在实测中出现题目识别错误，需依赖其他AI将试卷转化为文本后才能作答。
– 推理速度较慢，资源消耗高，可能影响实际教学场景中的应用效率。

2. **讯飞星火 X1**
– **优势**：
– 尽管模型规模较小（70B），但仍以141分的高分紧随DeepSeek。
– 基于全国产算力平台训练，体现了强大的自主技术研发实力。
– 在数学能力上的高效准确得益于讯飞在教育领域长达20多年的资源积累。
– **不足**：版本较早（4月20日升级），与最新的模型相比可能存在性能差距。

—

#### **其他模型的表现**
– **豆包、通义千问等国产大模型**：得分接近国际顶尖水平，展现了与GPT o3等模型竞争的实力。
– **GPT o3**：以138分位居第三，表现出较强的能力，但在数学推理方面略逊于DeepSeek和讯飞星火。

—

#### **意义与展望**
2025年高考数学“考试”不仅是对大模型数学能力的考验，更是AI技术在教育领域应用潜力的一次展示。随着AI数学能力的显著提升，未来如何更好地将AI作为教学工具、拓展其在教育领域的深度应用，将是重要课题。

—

总结来看，DeepSeek和讯飞星火凭借强大的数学能力和技术创新，稳居第一梯队。而其他国产模型的表现则表明，国内大模型在技术上与国际顶尖水平已形成竞争之势。2025年或将成为AI技术全面落地的关键节点，为教育领域带来更多可能性。

# AI资讯