豆包发布四款多功能大模型:语音合成、声音复刻、情感理解与公式朗读

AI资讯1个月前发布 ainav
35 0

10月16日,火山引擎在FORCE LINK AI创新巡展武汉站活动中,重磅推出并升级了四款豆包大模型。其中,豆包大模型1.6 lite豆包语音合成模型2.0豆包声音复刻模型2.0作为全新版本首次发布,而备受关注的豆包大模型1.6则进行了功能升级。

一、功能全面升级:豆包大模型1.6版本

此次升级的核心亮点是引入了多档位思考长度调节机制,为用户提供Minimal、Low、Medium、High四种选择。这一创新设计充分考虑到了企业在不同场景下的多样化需求,能够有效平衡模型效果、运行时延和使用成本之间的关系。

与旧版本相比,升级后的豆包大模型1.6在性能上实现了显著突破:总输出Tokens数量减少了77.5%,思考时间缩短了84.6%,而模型效果则保持不变。这意味着用户能够以更低的成本获得更高效的处理能力。

二、轻量化之选:豆包大模型1.6 lite

火山引擎此次还推出了备受期待的豆包大模型1.6 lite版(Doubao-Seed-1.6-lite),这款更轻量级的产品在性能上实现了重大突破。它不仅推理速度更快,而且具备更高的性价比。

具体来看,在企业级场景测评中,lite版本的模型效果已经超越了此前的旗舰版豆包大模型1.5 pro(Doubao-Seed-1.5-pro)。特别是在使用量最大的0-32k输入区间内,其综合使用成本较1.5 pro版本降低了高达53.3%。

三、语音技术新突破:豆包语音合成与复刻2.0

火山引擎在语音技术领域也取得了显著进展,全新推出的豆包语音合成模型2.0(Doubao-Seed-TTS 2.0)豆包声音复刻模型2.0(Doubao-Seed-ICL 2.0),在情感表达、指令遵循能力以及复杂公式朗读等方面均实现了质的飞跃。

这两款新模型基于先进的豆包大语言模型架构,赋予了合成和复刻的声音以深度语义理解能力。通过自然语言交互方式,用户可以对语速、情绪、声线、音调等要素进行精细调节,极大提升了语音输出的可控性。

特别值得一提的是,在针对中小学至高中阶段的复杂公式朗读测试中,新模型表现优异,准确率高达90%以上,充分展现了其在教育领域的应用潜力。

豆包发布四款多功能大模型:语音合成、声音复刻、情感理解与公式朗读

© 版权声明

相关文章