Mistral AI发布Mistral 3系列模型:从3B到675B参数,Apache 2.0开源

AI资讯2个月前发布 ainav
64 0

12月3日消息,法国人工智能初创企业Mistral AI于当地时间2日正式宣布推出其新一代Mistral 3系列模型。

该系列包括两款具有里程碑意义的创新产品:采用高效架构的Mistral Large大语言模型和三款参数规模分别为14B、8B、3B的小型密集模型。其中,Mistral Large的总参数量高达6750亿个参数(即675B),而活跃参数规模为410亿个。

值得关注的是,Mistral AI在开发过程中采用了创新性的稀疏架构技术。据官方介绍,Mistral Large 3模型使用了3000块英伟达H200 GPU进行训练,成为了全球领先的开源权重模型之一。

Mistral AI发布Mistral 3系列模型:从3B到675B参数,Apache 2.0开源

Mistral AI发布Mistral 3系列模型:从3B到675B参数,Apache 2.0开源

经过精心的后训练优化,该模型在通用提示处理和多语言对话能力方面均达到了行业领先水平。特别是在LMArena OSS非推理模型排行榜中,Mistral Large 3成功登顶第二名,并在总榜单中位列第六。

Mistral AI发布Mistral 3系列模型:从3B到675B参数,Apache 2.0开源

对于参数规模较小的Ministral 3系列,Mistral AI强调其在开源模型中实现了最佳的性价比表现。这些轻量化模型不仅在指令理解和生成能力上与同类产品持平甚至更优,还在输出长度控制方面实现了显著优化——生成的token数量平均减少了一个数量级。

Mistral AI发布Mistral 3系列模型:从3B到675B参数,Apache 2.0开源

所有这些模型及后续衍生版本都将采用Apache 2.0开源许可证进行发布,以促进全球AI技术的协作与进步。

© 版权声明

相关文章