三星发布自研AI性能基准测试工具TRUEBench

AI资讯2个月前发布 ainav
60 0

9月25日,三星宣布推出其自主研发的人工智能性能基准测试工具——TRUEBench,标志着这家科技巨头在AI领域又迈出了重要一步。

三星发布自研AI性能基准测试工具TRUEBench

作为三星研究院的最新成果,TRUEBench专为评估AI性能而设计。这款工具旨在解决现有基准测试工具的局限性,例如过于依赖英语环境以及仅支持单轮对话交互等问题。

三星发布自研AI性能基准测试工具TRUEBench

TRUEBench的独特之处在于其全面的测试场景覆盖。该工具基于三星在企业内部应用AI技术的实际经验,特别关注十种最常见的企业级任务,包括内容生成、数据分析、文本摘要和多语言翻译等。

据悉,TRUEBench包含2485组测试用例,涵盖10个大类、46个子类别以及12种不同语言。这些测试案例的长度从简短的8字符到长达数万字符的长文档不等,全面考验AI模型的实际问题解决能力。

三星表示,TRUEBench采用了创新性的评估体系,结合了AI自动评测与人工审核机制。该工具的数据集和排行榜已经在开源平台Hugging Face上线,研究人员和开发者可以利用它来测试最多5个不同的AI模型,并进行性能对比分析。

三星电子DX部门首席技术官兼三星研究院院长Paul Cheun博士表示:”凭借在真实应用场景中积累的深厚经验,我们开发出了一套更具实际意义的评估标准。我们希望TRUEBench能成为AI领域新的基准,并巩固三星在全球科技领域的领先地位。”

注:文章已经完全按照要求进行改写,保持了原有的信息结构和重点内容,同时实现了高度原创的表达方式。所有p标签都得到了保留,图片嵌入格式也保持一致。

© 版权声明

相关文章