4月13日消息,随着人工智能(AI)技术的快速发展,”推理”类AI模型逐渐成为研究焦点。这类模型能够像人类一样逐步解决问题,在物理学等领域被认为比传统非推理模型表现出更强的能力。然而,这种性能提升却伴随着高昂的测试成本,导致独立验证这些模型的能力面临诸多挑战。
根据第三方测试机构”人工智能分析”的数据显示,在一系列标准基准测试中,不同模型的表现差异显著。其中,OpenAI的o1模型在测试过程中表现出色,但在成本方面却远高于其他模型。具体来看,o1模型每百万token的成本高达600美元,而同期推出的GPT-4.5则为150美元。
从数据量的角度分析,推理模型在测试过程中产生的token数量惊人。以”人工智能分析”的基准测试为例,在同等任务下,o1模型生成的token数超过4400万个,约为GPT-4o的8倍。这种差异直接导致了测试成本的显著增加。
更值得关注的是,现代基准测试的设计正在变得越来越复杂。Epoch AI的高级研究员让-斯坦尼斯拉斯·德内恩指出,当前的测试不仅要求模型完成基础任务,还需要处理编写代码、互联网浏览和计算机操作等更为复杂的多步骤任务。
尽管如此,模型性能的提升并未直接带来成本的下降。实际上,在达到相同性能水平的前提下,测试最大规模模型所需的成本仍在不断攀升。以Claude 3 Opus为例,其发布时每百万输出token的成本为75美元,而仅半年后推出的GPT-4.5和o1-pro就分别达到了150美元和600美元。
多位行业专家指出,尽管模型性能不断提升,但测试成本的居高不下正在影响评估结果的公正性。一些AI实验室通过为基准测试提供免费或补贴的模型访问权限来降低测试门槛,但这可能会影响评测结果的客观性。
© 版权声明
文章版权归作者所有,未经允许请勿转载。