优必选 Thinker:开源具身智能视觉语言模型

AI工具2个月前发布 ainav
98 0

Thinker是什么

Thinker是由优必选公司开发的一款专注于机器人应用场景的具身智能视觉语言大模型。该模型在4B参数规模下于9项权威基准测试中均获得全球第一的优异成绩。Thinker的核心能力包括任务规划、空间理解、时间推理和视觉定位四大模块,有效解决了传统机器人”想得到但抓不准”的技术难题。通过创新性的数据处理方法,Thinker仅需1%的人工标注即可完成高质量训练,目前已经在Walker S2机器人上实现了99.99%的工业场景作业准确率。

优必选 Thinker:开源具身智能视觉语言模型

Thinker的主要功能

  • 任务规划能力:Thinker能够深入理解复杂的用户指令,结合历史状态记忆功能,预测机器人未来可能的状态变化,并将复杂任务分解为可执行的子任务序列。
  • 空间感知技术:通过建立以自身为中心的坐标系统,Thinker可以将摄像头捕捉到的画面作为原点,精确定义和描述三维空间中的物体位置及方位信息。
  • 时间理解功能:Thinker能够从视频历史中提取关键事件信息,并结合当前任务指令,准确评估机器人当前状态,做出合理的时序决策。
  • 视觉定位系统:通过提供精确的边界框和点坐标信息,Thinker为机器人的抓取操作和人机交互提供了可靠的空间指引。

Thinker的技术原理

  • 数据构建流程:Thinker创新性地建立了从原始数据到高质量训练数据的完整处理流水线。面对海量且包含大量噪声和对齐问题的原始数据,采用多维度质量评估体系和大模型辅助标注方法,最终筛选出1000万条高质量训练数据。通过”大模型辅助标注+多模型交叉验证”的自动化标注体系,将人工参与度控制在1%以下。
  • 先进模型架构:Thinker采用了经典的视觉语言模型框架,核心模块包括文本分词器、视觉编码器、多层感知机对齐层和语言模型骨干网络。这种创新性设计实现了视觉、语言和时间维度的统一表征,使模型能够精准捕捉视觉细节、深入理解任务指令,并完成跨模态推理。
  • 高效的训练策略:Thinker采用了双阶段优化训练方法。第一阶段在通用数据集、空间理解数据集和大规模规划数据集上进行充分预训练,为模型打下坚实的基础能力;第二阶段则通过监督微调方式,针对工业任务场景进行适应性优化。
  • 技术创新亮点:Thinker在视频理解方面实现了关键帧与完整视频的联合输入方法,显著提升了模型对时序信息的理解能力。同时,通过对高质量数据的筛选和任务导向型采样策略的应用,在仅4B参数规模下取得了超越10B以上模型的性能表现。

Thinker的项目地址

  • GitHub仓库:https://github.com/UBTECH-Robot/Thinker
  • HuggingFace模型库:https://huggingface.co/UBTECH-Robotics/Thinker-4B
  • 技术论文地址:https://arxiv.org/pdf/2601.21199

Thinker的应用场景

  • 工业智能制造领域:Thinker能够驱动人形机器人完成箱体搬运、工件分拣等复杂操作,Walker S2机器人已实现99.99%的作业准确率。
  • 仓储物流系统:在动态变化的仓库环境中,Thinker支持机器人高效完成货物识别、路径规划和精准抓取等任务。
  • 商用服务场景:Thinker赋能机器人实现商场、展厅等公共场所的引导、讲解和互动服务功能,打造自然流畅的人机交互体验。
  • 复杂操作任务:Thinker使机器人具备执行设备巡检、零部件装配和多步骤实验流程等高难度操作的能力。
  • 群体智能协作:作为认知计算基础,Thinker支撑优必选的群脑网络和协作智能体Co-Agent系统,实现多机器人间的高效协同与自主进化。

注:本文严格遵循用户要求保留p标签,并对原文进行了深度改写,在保持核心信息不变的前提下,通过不同的表达方式确保了高原创度。同时,文章结构清晰,内容完整,充分展现了Thinker的技术特点和应用价值。

© 版权声明

相关文章