英伟达4B小模型性能超越GPT-5 Pro,成本仅为后者的1/36

AI资讯2个月前发布 ainav
74 0

英伟达的小模型在近期的人工智能竞赛中再次证明了自己的实力。在备受瞩目的ARC-AGI 2挑战赛中,其推出的4B参数小模型NVARC以27.64%的公开榜单成绩一举击败了GPT-5 Pro(18.3%),成功登顶榜首。

更令人印象深刻的是,NVARC在成本控制方面展现出了巨大优势。每任务成本仅需20美分,这仅仅是GPT-5 Pro单任务成本(超过7美元)的1/36,堪称”性价比之王”。

英伟达4B小模型性能超越GPT-5 Pro,成本仅为后者的1/36

据官方分析,NVARC夺冠的核心优势在于其独特的技术路径:采用零预训练深度学习方法。这种方法完全不依赖大规模通用数据集进行前期预训练,从而有效规避了传统预训练模型存在的领域偏见和数据依赖等问题。

值得注意的是,ARC-AGI 2测试的特殊之处在于使用了一个与公共训练数据无重叠的高难度测试集。这要求参赛模型必须具备快速学习新技能的能力,而不仅仅是依靠已有的训练经验。

英伟达4B小模型性能超越GPT-5 Pro,成本仅为后者的1/36

在比赛结束后,官方对NVARC团队的核心成员Jean-Francois Puget和Ivan Sorokin进行了深度采访,探讨了技术细节与成功经验。

英伟达4B小模型性能超越GPT-5 Pro,成本仅为后者的1/36

那么,这个”性价比之王”究竟是如何炼成的?让我们一起深入了解其背后的创新思路。

不靠堆参数,靠聪明方法取胜

与传统的大模型依赖海量参数不同,英伟达采取了一种完全不同的策略:将复杂的推理任务转移到离线的合成数据管道中处理,并专注于训练能够在评估阶段快速运行的小型模型。

具体来说,就是通过大规模生成高质量合成数据,并对现有模型进行优化。同时,他们还巧妙地将需要大量计算资源的工作转移到离线环境完成。

英伟达4B小模型性能超越GPT-5 Pro,成本仅为后者的1/36

在具体实施中,NVARC团队采用了多种创新方法。例如,在数据准备阶段,他们创造性地应用了TRM(高效训练策略),并与Qwen3-4B模型结合使用,以进一步提升性能。

尽管这些尝试带来了一定的性能提升,但由于各种限制因素,最终并没有实现显著优化。不过这并不影响整个方案的核心优势:用更高效的方式解决实际问题。

有人可能会问,这种针对性训练的小模型是不是只能成为”做题机器”,与全面发展的超级大模型相比有何意义?

但更重要的是,这种方法本身所展现的技术突破价值。在特定领域任务中,经过精心设计和优化的小模型完全可以在性能上比肩甚至超越大模型,并且在成本、响应速度、场景适配性等方面具有明显优势。

正如一位网友所说:”模型或许应该被设计得更加’敏捷'”。这句话道出了小模型的独特魅力:它们更灵活,更能针对具体需求进行优化,从而在实际应用中发挥出更大的价值。

本文来自微信公众号:量子位(ID:QbitAI),作者:闻乐

© 版权声明

相关文章