苹果研究:AI仅凭文本描述实现零样本识别多种日常活动

AI资讯3个月前发布 ainav
66 0

11月22日,科技媒体9to5Mac发布了一篇博文,揭示了苹果公司的最新研究成果。据悉,苹果在最新的研究报告中指出,大语言模型(LLM)能够通过分析音频和运动数据的文本描述,精确识别用户正在进行的具体活动。这一技术未来有望被整合到Apple Watch等可穿戴设备中。

这项名为“后期多模态传感器融合”(Late Multimodal Sensor Fusion)的技术,巧妙地结合了大语言模型的推理能力与传统传感器数据。即使在传感器信息不完整的情况下,该技术仍能准确判断用户的活动状态。这种创新的方法不仅提升了设备的感知能力,还为可穿戴设备的智能化提供了新的思路。

研究采用了独特的处理方法:大语言模型并未直接处理原始音频或运动数据,而是接收由专门的小型模型生成的文本描述。这种方法既保护了用户隐私,又验证了LLM在多源文本信息融合与复杂推理方面的能力。

苹果研究:AI仅凭文本描述实现零样本识别多种日常活动

具体而言,音频模型会生成描述声音环境的文字(如“水流声”),而基于惯性测量单元(IMU)的运动模型则输出动作类型的预测文本。这种间接处理的方式既提升了隐私保护水平,又充分展现了大语言模型的强大能力。

为验证这一方法的有效性,研究团队采用了包含数千小时第一人称视角视频的Ego4D数据集,并从中筛选出12种日常活动作为测试样本。这些活动包括吸尘、烹饪、洗碗、打篮球、举重等,每段样本时长均为20秒。

随后,研究人员将小型模型生成的文本描述输入到多个大语言模型中进行测试,其中包括谷歌的Gemini-2.5-pro和阿里的Qwen-32B。测试在“零样本”(无任何示例)和“单样本”(提供一个示例)两种情况下进行,以评估模型的识别准确率。

测试结果显示,在未经针对性训练的情况下,大语言模型仍能显著超越随机猜测水平。其F1分数(衡量精确率和召回率的指标)表现优异。当提供一个参考示例后,模型的准确度进一步提升,显示出强大的学习能力。

苹果研究:AI仅凭文本描述实现零样本识别多种日常活动

这项研究的意义在于,通过LLM进行后期融合,无需为特定场景开发专用模型,从而显著节省了内存和计算资源。苹果公司还公开了实验数据和代码,便于其他研究者进行复现和验证,进一步推动了相关技术的发展。

© 版权声明

相关文章