近日,科技媒体NeoWin报道指出,苹果公司与剑桥大学展开合作,共同研发了一项创新性的AI评估技术。
在大语言模型(LLM)的评估过程中,”LLM-as-a-judge”模式的应用日益普遍。然而,这一方法在长篇事实核验、复杂编码任务和数学运算等高难度工作场景中往往表现出质量不稳定的问题。
针对这一技术瓶颈,苹果和剑桥大学的研究团队推出了一套新型评估系统。该系统通过为AI评审员配备外部验证工具,显著提升了评估的准确性和可靠性。
传统的人工评估面临时间限制、疲劳效应以及主观偏好等问题,而单纯依赖AI又在复杂任务中表现出能力不足。苹果与剑桥大学的合作研究,正是为了克服这些局限性。
该系统采用了模块化的工具集:事实核查工具通过网络搜索验证信息真实性;代码执行工具借助OpenAI的解释器评估代码正确性;数学检验工具则专门用于处理计算和算术问题。
系统设计上充分考虑了灵活性:当外部工具无法提供有效帮助时,会自动切换至基础LLM注释器,以确保在简单任务中的处理效率和准确性。
参考文献
-
外部验证工具能否提升LLM评审质量?
-
苹果官方博客
© 版权声明
文章版权归作者所有,未经允许请勿转载。