Phi-3指的是什么
Phi-3是微软研究院发布的一款先进小语言模型的新系列产品,该系列包含了phi-3-mini、phi-3-small及phi-3-medium三种不同规模的版本。尽管参数量较小,但这些模型通过优化的数据集和算法设计,在自然语言处理和推理方面达到了与大型模型相当的效果。值得注意的是,拥有仅3.8亿参数的phi-3-mini在多个基准测试中表现突出,超越了众多参数更多的对手,并且其紧凑的设计使其能够在智能手机上运行。Phi-3系列展示了数据工程和模型优化领域的最新成果,为未来开发更加精简高效的人工智能模型开辟了新路径。
研究报告:访问链接以获取详细信息 https://arxiv.org/abs/2404.14219
Microsoft的Phi-3模型可以在Hugging Face的这个链接找到:https://huggingface.co/collections/microsoft/phi-3-6626e15e9585a200d2d761e3
Phi-3模型在Ollama的访问链接:https://ollama.com/library/phi3
Phi-3系列的模型阵容
- Phi-3小型版这款语言模型规模较小,具备3.8亿参数量级。虽然其尺寸不大,但它在多种语言理解任务中的基准测试成绩可与拥有更多参数的Mixtral 8x7B和GPT-3.5等模型相竞争。该设计支持手机应用,并能在采用A16芯片的iPhone 14 Pro及iPhone 15上实现每秒处理约12个token的速度。
- phi-3精简版此模型拥有7亿个参数,采用tiktoken分词器来实现多语言支持,并加入了额外的10%跨语种数据。在MMLU测试中,phi-3-small取得了75.3%的成绩,表现优异,超过了Meta新推出的Llama 3 8B Instruct模型。
- phi-3中等版这款配置了14亿参数的中级规模模型,经过更大范围数据集的训练,在各类评估中表现优于GPT-3.5和Mixtral 8x7b MoE。它在MMLU评测中的成绩达到了78.2%,彰显出其卓越的语言处理技术。
Phi-3的培训技术
- 高精度数据集合在训练Phi-3模型时,采用了包含介于3.3万亿到4.8万亿tokens之间的大型精选数据集,通过细致的数据挑选与净化过程来保障信息的质量及水准。
- 生成合成数据通过运用大规模的语言模型(LLM)来创建模拟数据,这种模拟数据被用来培训模型掌握逻辑思维能力和各种专业知识。
- 逐步培训培训流程包含两大步骤,初期侧重于利用互联网信息来使算法获取广泛的知识基础与提升其语言处理能力;后续阶段在精选网上资料的同时加入人工制造的数据以深化训练效果。
- 数据分析改进培训资料经过调整以达到接近“最佳数据”状态,这表明在挑选资料时,更倾向于选用那些能增强模型推断性能的网络信息。
- 培训后期的优化提升该模型完成预训练后,进一步接受了基于指令的监督微调与偏好优化(DPO),并通过了红队及自动化的安全性检测,旨在增强其安全性能、稳定性及其对各种对话形式的适应能力。
- 保障安全与精准校准在研发Phi-3-mini时,严格依据微软制定的责任感人工智能准则行事。该模型经过了安全校准后的再培训过程,利用了一组侧重于有益和不具危害性的偏好数据集进行训练,并且接受了来自外部专家团队反复审查的考验,以不断发现并实施改进措施。
- 数值化处理为了让模型适应在手机上的运作,Phi-3-Mini支持4位量化技术,这大幅降低了其内存需求。
- 多种语言兼容性支持虽然Phi-3-Mini 主要专注于英语,微软还在研究小型语言模型的多语种适用性,并为此让 Phi-3-Small 模型接受了涵盖更广泛多语种资料的训练。
Phi-3的表现能力
- 性能评测分数请提供需要伪原创改写的内容。由于您当前的消息没有包含具体内容,我暂时无法完成这项任务。如果您能给出具体文本,我会帮助您进行相应的改写工作。phi-微型3于MMLU(大规模多任务语言理解)评估中的表现为69%得分,并在MT-bench测评体系中取得了8.38的成绩。phi-3-compact与phi-3标准版在MMLU测试中获得了75.3%与78.2%的成绩,这体现了随着模型尺寸增大而增强的表现能力。
- 与其他模型的性能比较由于提供的内容为空,没有具体的信息或文本供我进行伪原创的改写。如果有具体的段落或者句子需要处理,请提供详细信息。这样我可以帮助你完成任务。Phi-3系列的性能可与更大参数规模的模型,例如Mixtral 8x7B和GPT-3.5比肩。尤其值得注意的是phi-3小型版虽然其参数量仅为3.8亿,但在多种标准评估中仍超越了拥有8亿参数的Llama 3。在与Meta的Llama-3-8B-Instruct模型进行比较时,phi-3-compact拥有70亿参数的版本在MMLU测试中获得了更高的分数(75.3%对比66%),这体现了Phi-3系列即使在较为紧凑的模型规模下也具备出色的性能表现。
- 在移动装置上执行由于提供的内容仅有冒号,并没有实际的文字信息供我参考和改写,请提供具体需要伪原创的内容。一旦您提供了具体内容,我很乐意帮助您完成这个任务。Phi-3精简版专门针对移动设备优化,并通过4位量化处理,在iPhone 14 Pro及iPhone 15搭载的A16处理器上实现了每秒生成约12个tokens的性能,这是先前的大规模模型所未能达到的效果。
- 掌握多种语言的能力由于提供的内容为空,没有具体文字可供改写。如果有具体的段落或句子需要进行伪原创的处理,请提供详细信息。这样我才能帮助完成任务。phi-3-compact借助tiktoken分词器的应用及添加10%额外的多语言数据,该模型显著提升了其跨语言处理性能,在比较中显示出明显的优势。
Phi-3的限制及待改进之处
- 知识保存界限因为模型规模受限,尤其是像phi-3-mini这样的版本,在储存丰富事实信息上能力不足的问题更加突出。这一局限性在要求深厚背景知识的任务中体现得很清楚,比如其在TriviaQA评估中的得分不高。
- 对搜索引擎的倚重为了解决知识储存方面的局限性,微软建议通过整合搜索引擎的方式来提升模型的表现能力。这意味着,在缺乏外界搜索辅助的情形下,模型或许不能独自给出最优答案或信息。
- 多种语言技能的局限性虽然phi-3-small经过了增强,加入了更多的多语言资料,Phi-3系列的核心语种功能依然以英语为主导。这种局限性可能会对那些要求高度多语言适应性的应用场景构成挑战。
- 执行特定任务的表现对于一些特定任务或数据集而言,Phi-3模型或许尚未展现出最优表现,这种情况可能会通过增加训练数据的质量与数量以及对模型进行更精细的调校来改善。
- 安全性的考验虽然该模型已经过安全方面的改进,但是与众多大规模语言模型相似,Phi-3系列仍有可能面临生成虚假信息、不当内容、加剧偏见或者遇到其他安全风险的问题。
- 设备安装约束尽管Phi-3-Mini可以在智能手机上运作,但在处理那些需大量计算资源的任务时,即便是经过微型化设计的模型仍可能遭遇设备性能瓶颈。
© 版权声明
文章版权归作者所有,未经允许请勿转载。