**1月8日重磅发布:阿里云推出革新性多模态交互开发套件**
在今日的阿里云通义智能硬件展上,阿里云全新发布了多模态交互开发套件。这款套件整合了千问、万相、百聆三款强大的通义基础大模型,并预置了十多款生活休闲、工作效率等领域的 Agent 和 MCP 工具,不仅具备听觉和视觉能力,更能进行深度思考与物理世界交互,适用于AI眼镜、学习机、陪伴玩具及智能机器人等多种硬件设备。

**阿里云多模态交互开发套件**旨在为硬件企业和解决方案提供商提供一个低门槛、高响应、多功能的平台,其核心亮点如下:
**广泛芯片适配:快速接入多种终端设备**
该套件在芯片兼容性方面表现卓越,支持市面上主流的30多款ARM、RISC-V和MIPS架构终端芯片平台。这意味着硬件企业可以轻松实现快速接入,满足多样化的设备需求。
**深度模型集成:高效交互体验**
在模型优化方面,套件不仅集成了通义大模型家族,还针对多模态交互场景进行了专门研究,推出了适用于AI硬件交互的专有模型。这套解决方案支持全双工语音、视频和图文等多种交互方式,确保端到端语音交互延迟低至1秒,视频交互延迟仅需1.5秒,提供流畅自然的用户体验。
**丰富工具预置:生态灵活扩展**
套件内置了十多款MCP工具和Agent,覆盖生活、工作、娱乐及教育等多个领域。例如,出行规划Agent可帮助用户轻松实现路线规划、旅行攻略制定以及周边探索等功能。
此外,该套件深度融入阿里云百炼平台生态体系,允许开发者添加其他生态中的MCP和Agent模板,并通过A2A协议兼容第三方Agent。这种设计不仅扩展了应用的可能性边界,还让企业能够灵活构建多样化的业务场景。
在展会现场,阿里云重点展示了针对智能穿戴设备、陪伴机器人及具身智能等领域的创新解决方案。
**应用场景实例:AI眼镜与家庭机器人**
以AI眼镜为例,基于千问VL和百聆CosyVoice模型的组合应用,阿里云构建了从感知、规划到执行的完整交互链条。这套系统能够实现同声传译、拍照翻译、多模态备忘录以及录音转写等多种功能,为用户带来一站式智能体验。
在家庭陪伴机器人领域,阿里云结合千问模型与多模态交互套件,打造出了一款既能实时监测环境异常并及时告警,又能支持基于关键词查找和定位视频的解决方案。用户不仅可以通过对话与机器人互动,还能直接控制家中设备,极大地提升了生活便利性。
此次发布的多模态交互开发套件无疑为硬件行业注入了新的活力,其强大的功能和灵活的扩展能力将帮助开发者快速实现创新应用,推动智能硬件生态的蓬勃发展。