近日消息,据月之暗面 Kimi 官方透露,其首款智能体产品 Kimi-Researcher 已于 6 月 20 日启动小范围灰度测试。
Kimi-Researcher 作为一款基于端到端自主强化学习技术打造的智能体模型,专为深度研究任务设计。该产品不仅具备强大的分析能力,还将在未来逐步实现基础预训练模型及强化学习后模型的开源。
在处理每个问题时,Kimi-Researcher 会采取系统化的执行策略:
-
问题澄清:通过主动提问来明确问题边界,构建清晰的问题框架;
-
深度分析:平均每任务进行 23 次推理步骤,独立完成需求梳理与解决;
-
信息检索:每个任务平均规划 74 个关键词,搜索约 206 个网址,并从中筛选出质量最高的前 3.2% 内容,剔除无效和低质信息;
-
工具调用与结果交付:自动调用浏览器、代码等工具,处理原始数据并生成分析结论,实现从数据处理到最终交付的全流程自动化。
为确保输出质量和信息完整性,Kimi-Researcher 采用分步推理机制,逐步完成思考、检索和内容撰写。
用户将获得两项交付成果:
深度研究报告
-
报告篇幅通常在万字以上;
-
平均每份报告引用约 26 个高质量、可溯源的信息来源;
-
所有引用均嵌入正文,支持点击跳转并高亮原文,方便验证和追溯。
动态可视化报告
-
采用结构化排版和思维导图,突出显示趋势和异常等关键信息;
-
无需阅读全文即可快速掌握整体结构与核心结论;
-
支持在线生成分享链接,方便传播和展示。
在专为 AI 设计的高难度评测基准“人类最后一次考试(Humanity’s Last Exam,HLE)”中,Kimi-Researcher 在完全无结构、无流程设计的条件下取得了如下成绩:
-
Pass@1 准确率:26.9%
-
Pass@4 准确率:40.17%
这一成绩优于 Claude 4 Opus(10.7%)和 Gemini 2.5 Pro(21.6%),略高于 OpenAI Deep Research(26.6%),并与 Gemini-Pro 的 Deep Research Agent(26.9%)持平,达到目前最高水平之一。在红杉中国的 xbench 基准测试中,Kimi-Researcher 在 DeepSearch 任务中的平均通过率达到 69%,领先该榜单中的其他模型。