端侧音频模型：手机8秒生成11秒语音

AI资讯1年前 (2025)发布 ainav

233 0 0

5月15日消息，知名科技媒体TechCrunch昨日发布了一篇博文，报道了AI初创公司Stability AI的最新动态。该公司推出了一款名为Stable Audio Open Small的新模型，号称是市场上速度最快的立体声音频生成AI解决方案，并且完全可以在智能手机上运行。

与同类产品Suno和Udio相比，Stable Audio Open Small的最大优势在于其无需依赖云端计算能力。得益于高效的模型设计，它能够无缝运行于移动设备端。据官方数据显示，该模型能够在不到8秒的时间内，在手机端生成长达11秒的音频片段，这对于快速制作鼓点或乐器音效等场景极为实用。

在技术实现上，Stability AI与芯片制造商Arm展开了深度合作，专门针对Arm架构的CPU进行了性能优化。这种优化使得模型可以在智能手机上实现完全离线运行。此外，在数据集选择方面，该产品采用了更为谨慎和安全的策略：所有训练数据均来源于Free Music Archive和Freesound等免版税音频库，避免了其他竞争对手因使用含有版权内容的数据而可能面临的知识产权风险。

需要特别指出的是，目前Stable Audio Open Small还存在一些局限性。首先，该模型仅支持英文提示输入；其次，它还无法生成逼真的歌声或完整的高质量音乐作品；此外，由于训练数据主要偏向西方风格，不同音乐类型的表现效果可能存在较大差异。

在使用条款方面，Stability AI设定了明确的分级权限：对于研究人员、爱好者以及年收入低于100万美元的企业，可以免费使用该技术；但对于那些超过这一收入门槛的开发者或组织，则需要购买公司的企业版许可证。