CL-bench：腾讯团队发布的模型学习评测基准

AI工具6个月前发布 ainav

199 0 0

什么是CL-bench

CL-bench是由腾讯混元与复旦大学联合开发的Context学习能力评测基准平台，旨在评估大语言模型在全新上下文环境中实时学习和应用知识的能力。该基准包含500位专家精心设计的复杂场景和1899个测试任务，覆盖领域知识推理、规则系统应用、程序性任务执行以及经验发现与模拟四大核心类别。

值得注意的是，在CL-bench的测试中，目前最强大的模型GPT-5.1仅能解决23.7%的任务。这一数据揭示了当前AI技术在”实时学习能力”方面的显著局限性，同时也为未来的大语言模型优化指明了新的方向。

CL-bench：腾讯团队发布的模型学习评测基准

CL-bench的核心功能

持续学习能力评估：通过模拟真实场景中的动态知识更新，测试大语言模型能否快速理解和应用新的上下文信息。
领域推理能力验证：重点考察模型在复杂领域问题上的逻辑分析与推理水平。
规则系统执行能力：评估模型对各类规则系统的理解、遵循与运用能力。
程序性任务处理能力：测试模型能否准确理解和完成各种需要步骤化操作的任务。
经验学习模拟能力：通过模拟真实场景中的经验积累过程，检验模型的学习效果。

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

3DV-TON：阿里达摩院视频虚拟试穿框架助力在线购物体验

ainav

239 0

希财舆情宝：AI股票智能分析系统，内置五大智能引擎

ainav

198 0

上海交大与网易合作开发高效情感语音 avatar 合成系统 —— EDTalk

ainav

263 0

Code2Video：国立大学AI教学视频生成工具

ainav

188 0

PaliGemma 2 汇集 – 来自谷歌DeepMind的增强型视知觉语言系统

ainav

229 0

开源AI提示词管理工具——智能分类

ainav

117 0

一站式AI工具导航平台！汇聚超800+免费AI工具，涵盖AI写作、智能绘画、论文生成、视频制作、编程辅助、音频处理等全场景工具。每日更新热门 AIGC工具（如 Sora、AI Agent），助您快速找到提升办公、创作、学习效率的实用工具！立即访问ai-nav.net，探索 AI 新可能！

按下Ctrl+D或⌘+D 感谢收藏 ai-nav.net

友链申请免责声明广告合作关于我们站点地图提交AI工具

 度加创作工具百度AI开放平台 Bing新必应搜外友链 Manus GPTBots.ai Claude Code

Copyright © 2026 AI工具导航站粤ICP备2025438650号-2