4月12日讯,科技媒体MarkTechPost昨日(4月11日)发表博文,披露英伟达最新推出的Llama-3.1-Nemotron-Ultra-253B-v1。这款拥有高达2530亿个参数的大型语言模型在推理能力、架构效率和生产准备度方面实现了显著突破。
随着人工智能技术在数字基础设施中的广泛应用,企业在计算成本、性能和扩展性之间寻求平衡已成为当务之急。尽管大型语言模型(LLM)的迅速发展显著提升了自然语言理解和对话能力,但其庞大的规模往往导致效率低下,限制了其大规模部署的可能性。
针对这一挑战,英伟达最新发布的Llama-3.1-Nemotron-Ultra-253B-v1(简称Nemotron Ultra)提供了新的解决方案。该模型基于Meta的Llama-3.1-405B-Instruct架构,专为满足商业和企业需求而设计,能够高效处理从工具使用到复杂多轮指令执行等多种任务。
据博文介绍,Nemotron Ultra采用了仅解码器的密集Transformer结构,并通过神经架构搜索(NAS)算法进行了优化。其创新之处在于引入了跳跃注意力机制,在部分层中省略传统的注意力模块或替换成简单的线性层。
此外,该模型采用了前馈网络(FFN)融合技术,将多层FFN合并为更宽但更少的层,从而大幅缩短了推理时间,同时保持了高性能。Nemotron Ultra支持128K token的上下文窗口,能够处理长篇文本内容,特别适用于高级RAG系统和多文档分析任务。
在部署效率方面,Nemotron Ultra同样实现了重要突破。它能够在单个8xH100节点上完成推理任务,这显著降低了数据中心的运营成本,提高了企业开发者对其的可及性。
最后,值得一提的是,英伟达对Nemotron Ultra进行了全面的优化。通过结合先进的算法设计和高效的硬件加速,该模型不仅在性能上表现出色,还在资源利用率方面树立了新的标杆。这一突破性进展无疑将为人工智能技术的进一步发展注入新的活力。