OmniAudio：阿里通义推出的空间音频生成模型

虚拟现实（VR）: 为VR游戏、虚拟仿真等场景提供沉浸式音频体验。
增强现实（AR）: 在AR应用中实现逼真的声音定位效果，提升用户体验。
影视娱乐: 用于360度视频制作和沉浸式电影等领域。
在线直播: 实现更真实的互动体验。

76 0 0

OmniAudio是什么

OmniAudio是由阿里巴巴达摩院语音实验室开发的一项创新技术，旨在通过处理360度视频内容生成高保真的空间音频（FOA，即基于方向的音频）。该技术专为虚拟现实和沉浸式娱乐体验设计，能够提供更为真实的听觉感受。为了支撑模型训练，OmniAudio团队构建了规模庞大的Sphere360数据集，其中包含超过10.3万个高质量视频片段，并涵盖了288种不同的声音事件类型，总时长达到惊人的288小时。如此丰富的数据资源为模型的深度学习奠定了坚实的基础。

在技术实现上，OmniAudio采用了两阶段训练方法：首先是粗到细的流匹配自监督预训练，利用大规模非空间化音频数据进行无监督学习；其次是基于双分支视频表示的有监督微调，通过对声源方向特征的强化学习，显著提升了模型对声音方位信息的捕捉能力。

OmniAudio的主要功能

生成高精度空间音频： OmniAudio能够从360度视频中提取并生成标准化的三维空间音频信号。这种格式能够精确捕捉声音的方向信息，为用户提供沉浸式的听觉体验。FOA格式采用四个独立声道（W、X、Y、Z）来分别记录声音的不同维度：W声道负责整体声压测量，而X、Y、Z声道则分别对应前后、左右和垂直方向的声音特征。
精准的声源定位： 通过先进的算法处理，OmniAudio在头部转动时仍能保持准确的声音方位感。这意味着用户可以清晰分辨声音来源的方向，在虚拟环境中实现更自然的交互体验。
多场景适应能力： 基于Sphere360数据集的多样性特征，OmniAudio对复杂声学环境具有良好的适应性，能够处理各种现实场景中的声音事件。