StepFun推出端到端大音频语言模型

AI工具1年前 (2025)发布 ainav

607 0 0

Step-Audio-AQAA是什么

Step-Audio-AQAA是StepFun团队开发的一款革命性端到端音频语言模型，专注于处理音频查询并生成音频回答（AQAA）任务。与传统依赖自动语音识别（ASR）和文本到语音（TTS）的系统不同，该模型可以直接接受音频输入并输出自然流畅的语音回答，从而简化了整个系统的架构流程，并显著降低了级联错误的发生概率。

Step-Audio-AQAA采用了先进的多模态预训练技术，结合监督微调（SFT）、直接偏好优化（DPO）和模型合并等多种训练方法。这些创新使得模型在语音情感控制、角色模仿以及复杂逻辑推理等任务中表现优异。在权威的StepEval-Audio-360基准测试中，该模型在多个关键性能指标上超越了现有的大型音频语言模型（LALM），展现出在端到端语音交互应用中的巨大潜力。

StepFun推出端到端大音频语言模型

Step-Audio-AQAA的主要功能

直接处理音频输入：无需依赖传统的自动语音识别（ASR）和文本到语音（TTS）技术，模型可以直接从原始音频输入生成高质量的语音回答。

…

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

IDM-VTON —— 真实感开源AI虚拟换装平台

ainav

417 0

AI学术插图自动生成工具：北大谷歌联合开发

ainav

96 0

LiveKit 代理 —— 构建多元交互式实时人工智能助手框架

ainav

569 0

百度超级智能体手机版

ainav

241 0

Mini-o3 – 字节&港大脑机接口视觉推理模型

ainav

184 0

AvatarFX：Character.AI的AI视频生成工具

ainav

265 0

一站式AI工具导航平台！汇聚超800+免费AI工具，涵盖AI写作、智能绘画、论文生成、视频制作、编程辅助、音频处理等全场景工具。每日更新热门 AIGC工具（如 Sora、AI Agent），助您快速找到提升办公、创作、学习效率的实用工具！立即访问ai-nav.net，探索 AI 新可能！

按下Ctrl+D或⌘+D 感谢收藏 ai-nav.net

友链申请免责声明广告合作关于我们站点地图提交AI工具

 度加创作工具百度AI开放平台 Bing新必应搜外友链 Manus GPTBots.ai Claude Code

Copyright © 2026 AI工具导航站粤ICP备2025438650号-2