优必选 Thinker：开源具身智能视觉语言模型

219 0 0

Thinker是什么

Thinker是由优必选公司开发的一款专注于机器人应用场景的具身智能视觉语言大模型。该模型在4B参数规模下于9项权威基准测试中均获得全球第一的优异成绩。Thinker的核心能力包括任务规划、空间理解、时间推理和视觉定位四大模块，有效解决了传统机器人”想得到但抓不准”的技术难题。通过创新性的数据处理方法，Thinker仅需1%的人工标注即可完成高质量训练，目前已经在Walker S2机器人上实现了99.99%的工业场景作业准确率。

Thinker的主要功能

任务规划能力：Thinker能够深入理解复杂的用户指令，结合历史状态记忆功能，预测机器人未来可能的状态变化，并将复杂任务分解为可执行的子任务序列。
空间感知技术：通过建立以自身为中心的坐标系统，Thinker可以将摄像头捕捉到的画面作为原点，精确定义和描述三维空间中的物体位置及方位信息。
时间理解功能：Thinker能够从视频历史中提取关键事件信息，并结合当前任务指令，准确评估机器人当前状态，做出合理的时序决策。
视觉定位系统：通过提供精确的边界框和点坐标信息，Thinker为机器人的抓取操作和人机交互提供了可靠的空间指引。

Thinker的技术原理

数据构建流程：Thinker创新性地建立了从原始数据到高质量训练数据的完整处理流水线。面对海量且包含大量噪声和对齐问题的原始数据，采用多维度质量评估体系和大模型辅助标注方法，最终筛选出1000万条高质量训练数据。通过”大模型辅助标注+多模型交叉验证”的自动化标注体系，将人工参与度控制在1%以下。
先进模型架构：Thinker采用了经典的视觉语言模型框架，核心模块包括文本分词器、视觉编码器、多层感知机对齐层和语言模型骨干网络。这种创新性设计实现了视觉、语言和时间维度的统一表征，使模型能够精准捕捉视觉细节、深入理解任务指令，并完成跨模态推理。
高效的训练策略：Thinker采用了双阶段优化训练方法。第一阶段在通用数据集、空间理解数据集和大规模规划数据集上进行充分预训练，为模型打下坚实的基础能力；第二阶段则通过监督微调方式，针对工业任务场景进行适应性优化。
技术创新亮点：Thinker在视频理解方面实现了关键帧与完整视频的联合输入方法，显著提升了模型对时序信息的理解能力。同时，通过对高质量数据的筛选和任务导向型采样策略的应用，在仅4B参数规模下取得了超越10B以上模型的性能表现。