AMD-135M —— AMD首发的小型语言模型

AI工具8个月前发布 ainav

118 0 0

AMD-135M指的是什么？

AMD-135M标志着AMD首次推出的紧凑型语言模型（CLM），旨在为特定应用场景提供效率与资源消耗的平衡点。此模型以LLaMA2架构为基础，在AMD Instinct MI250加速器上进行了训练，并基于670亿个token数据集，提供了两个版本：适用于通用文本处理的AMD-Llama-135M和专用于代码理解及生成任务的AMD-Llama-135M-code。通过采用多token推测解码技术，该模型能够显著加快推理速度并降低内存使用量。在性能测试中，尤其是在自然语言处理任务上，AMD-135M的表现与市场上的同类产品不相上下。例如，在Humaneval数据集的评估过程中，当利用MI250 GPU进行运算时达到了约32.31%的成功率，这无疑证明了其卓越性能。

AMD-135M的核心特性

内容创作能够创建流畅的文本，适用于聊天机器人和内容创作等多种用途。
编程代码创建利用经过微调的AMD-Llama-135M-code模型，实现代码创作与编程援助功能。
对人类语言的解读能力解析输入文字的目的与背景信息，应用于问题回答系统及摘要创建等功能中。
跨平台适用性于多种硬件平台执行，涵盖AMD品牌的图形处理单元及中央处理单元。

AMD-135M的运作机制

猜测译码利用小规模草图模型来产生备选的词汇单元，并借助大规模的目标模型进行校验，从而增强推理过程的效率。
自动回归技术采用传统的生成策略时，每个前向传播步骤只会产生一个token；然而，这一过程可以通过引入预测性解码技术来实现改进。
多重关注机制通过采用多头注意力机制，增强模型识别文本各部分间关联的能力。
地点编码采用相对位置编码（RoPE）以维持序列内词汇的次序信息。
启动函数采用了专门为语言模型定制的Swiglu激活函数。
层级标准化采用RMSNorm（均方根归一化）技术以确保训练流程的稳定性。
结构设计采用LLaMA-2框架构建，包含12个层级与768个隐藏单元等技术参数。

AMD-135M项目的网址

官方网站URLExceptiontaboola：amd引领的135m模型推动了人工智能的发展
HuggingFace的模型集合访问此链接以查看AMD的LLaMA模型系列中的135M参数版本：https://huggingface.co/amd/AMD-Llama-135m

AMD-135M的使用场合

对话机器助手担任聊天机器人后台的角色，具备自然语言的解析和创造功能，以实现与用户之间的交互对话。
内容制作：协助创作，生产文章、叙事或其它文字材料的初步版本。
编码支持依托于AMD-Llama-135M-code的版本，为程序员创作代码段落、提出编码建议及实现自动完成功能提供支持。
文字转换该模型虽然主要是为英语设计的，但是其结构能够适用于其他语言的机器翻译工作。
文章概要生成文本摘要的功能适用于快速浏览新闻、文章和报告的主要内容。

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

美团模型指令遵循评测集

ainav

11 0

在线智能空间规划师——利用AI技术创造多种风格的室内设计方案

ainav

193 0

ChatFlow – 开源AI工作流平台 | 官网/项目地址

ainav

62 0

DINOv3： Meta开源的通用视觉大模型

ainav

17 0

Squibler – 利用AI技术的全方位故事创作工具，适用于小说、短篇及剧本等多种文体的编写

ainav

340 0

钉钉联合通义推出语音识别大模型

ainav

16 0

一站式AI工具导航平台！汇聚超800+免费AI工具，涵盖AI写作、智能绘画、论文生成、视频制作、编程辅助、音频处理等全场景工具。每日更新热门 AIGC工具（如 Sora、AI Agent），助您快速找到提升办公、创作、学习效率的实用工具！立即访问ai-nav.net，探索 AI 新可能！

按下Ctrl+D或⌘+D 感谢收藏 ai-nav.net

友链申请免责声明广告合作关于我们站点地图提交AI工具

 度加创作工具百度AI开放平台 Bing新必应搜外友链 Manus GPTBots.ai Claude Code

Copyright © 2025 AI导航站粤ICP备2025438650号-2