AI数学推理新突破:英伟达推出OpenMath-Nemotron模型,AIME准确率创纪录

AI资讯4天前发布 ainav
4 0

4月25日,科技媒体Marktechpost发表博文,宣布英伟达推出两款专为数学推理设计的先进AI模型——OpenMath-Nemotron-32B和OpenMath-Nemotron-14B-Kaggle。

长期以来,数学推理一直是人工智能领域的重大挑战。传统语言模型虽然擅长生成连贯文本,但在解决复杂数学问题时却显得力不从心。这类任务不仅需要深刻理解抽象概念,还需要进行多步骤的逻辑推导。

据博文介绍,为了解决这一难题,英伟达推出了OpenMath-Nemotron系列模型。这两款模型基于Qwen系列Transformer架构,并通过在专有设计的OpenMathReasoning数据集上进行深度微调,显著提升了数学推理能力。

其中,OpenMath-Nemotron-32B是该系列的旗舰产品,拥有328亿参数量。它采用了BF16张量运算优化技术,在硬件效率方面实现了显著提升。在AIME 2024、AIME 2025、HMMT 2024-25等多个权威基准测试中,该模型均取得了优异成绩。

以工具集成推理(TIR)模式为例,在AIME24测试中,其pass@1准确率达到78.4%。通过多数投票机制,这一数字更是提升至93.3%,展现了强大的推理能力。

AI数学推理新突破:英伟达推出OpenMath-Nemotron模型,AIME准确率创纪录

该模型支持三种推理模式:链式思维(CoT)、工具集成推理(TIR)和生成式选择(GenSelect)。这种多模态设计允许用户根据具体需求,在推理透明度与答案精确度之间找到最佳平衡点,满足科研和生产环境的多样化需求。

另一款模型OpenMath-Nemotron-14B-Kaggle则专注于轻量化设计。它拥有148亿参数,并针对AIMO-2 Kaggle竞赛进行了专门优化。通过精选OpenMathReasoning数据集的子集进行微调,该模型在竞赛中取得了优异成绩。

在AIME24测试中,其CoT模式下的pass@1准确率为73.7%,而GenSelect模式下更提升至86.7%。尽管参数量较低,但该模型仍保持了高质量的数学解题能力,特别适合资源受限或对延迟要求严格的场景。

英伟达为这两款模型提供了完整的开源实现管道,并将其集成到NeMo-Skills框架中。这一框架支持从数据生成、训练到评估的全流程操作,方便开发者快速构建实际应用,轻松获取详细的逐步解答或简洁答案。

此外,两款模型针对NVIDIA GPU(包括Ampere和Hopper架构)进行了深度优化,充分利用CUDA库和TensorRT技术以确保高效运行。借助Triton调度程序和自适应批处理功能,显著提升了推理效率。同时,通过ONNX Runtime等开放标准的支持,进一步增强了模型的可移植性和灵活性。

© 版权声明

相关文章