英伟达发布的大语言模型Nemotron-70B-Instruct

AI工具1年前 (2025)发布 ainav

343 0 0

Nemotron-70B-Instruct 是指的什么呢？

Nemotron-70B-Instruct 是由英伟达（NVIDIA）开发的一款大型语言模型，它采用了一种创新性的混合训练技术来提高其在处理指令时的回答质量和一致性。该模型融合了Bradley-Terry方法和回归风格训练的特点，并使用了一个带有偏好标注的HelpSteer2-Preference数据集进行培训，这些偏好标签附有人类撰写的解释说明以提升数据的透明度。Nemotron-70B-Instruct 在各种基准测试中表现优异，在RewardBench上的评分达到94.1分，超越了超过140个开源和闭源模型，仅位于OpenAI的o1模型之后。

Nemotron-70B-Instruct的核心特性

对上下文的把握能够解析对话和文本中复杂的语境信息，并给出恰当而精确的回答。
逻辑分析技能拥有逻辑推断技能，应对需经推理论证的议题。
文字创作能够创作出高水准的文字材料，涵盖解答疑问、编写文章以及给出建议等多种形式。
遵守指示执行任务。改进旨在根据用户指示进行操作，并以有益且安全的模式给出回答。

Nemotron-70B-Instruct的技术机制

结合多种训练方式的方法融合了布拉德利-特里模式与回归分析模式的培训策略。在这一框架中，布拉德利-特里模式通过对比相同提示下的两组回应来进行模型训练；而回归分析则侧重于根据给定提示预测某项回应得分来调整模型参数。
喜好备注在训练数据中融入人类偏好标注，这些标注涵盖偏好的倾向、程度及原因，从而向模型传递更加多元化的学习信息。
激励机制通过运用奖励机制来引导语言生成模型产出更高品质的答案。该奖励系统对产生的内容进行评分，以此指引模型创造更加契合人喜好的回复。
增强学习通过采用强化学习方法，尤其是在模型培训过程中利用基于人类反馈的强化学习(RLHF)，可以显著增强模型的表现力及其对命令执行的一致性。

Nemotron-70B-Instruct 的仓库链接

官方网站项目页面：在NVIDIA的构建页面上可以找到有关LLaMA 3.1 Nemotatron 70B Instruct的信息，网址为https://build.nvidia.com/nvidia/llama-3_1-nemotron-70b-instruct。
HuggingFace的模型集合：访问链接以查看NVIDIA开发的Llama-3.1 Nemotron 70B Instruct模型 – https://huggingface.co/nvidia/Llama-3.1-Nemotron-70B-Instruct