Phi-3.5 —— 微软最新发布的AI模型，融合了mini架构、MoE技术和视觉处理能力

301 0 0

Phi-3.5代表的是什么？

Phi-3.5是由微软最新发布的一系列AI模型，该系列包括三个特定版本：面向轻量级推理的Phi-3.5-mini-instruct、适用于混合专家系统的Phi-3.5-MoE-instruct以及专为多模态任务设计的Phi-3.5-vision-instruct。这些模型采用了MIT开源许可协议，并提供不同的参数配置，支持长达128k上下文长度的数据处理，显著提升了其在多种语言和连续对话中的性能表现。此外，在一系列基准测试中，Phi-3.5的表现超过了包括GPT4o、Llama 3.1以及Gemini Flash在内的多个竞争对手模型。

对Phi-3.5系列模型的功能特点及性能评价进行阐述

Phi-3.5-lite指导版
- 模型的参数数量Phi-3.5-mini-instruct 的参数量约为 38.2 亿。
- 创作目标此模型特别为了遵循指示而打造，能够胜任迅速的推断工作。
- 背景信息支撑能够处理长达 128k tokens 的上下文，非常适合应对较长的文本信息。
- 使用场合适用于内存或计算能力有限的情境中，能够完成代码编写、解决数学难题及进行逻辑推理等多项工作。
- 表现能力在处理多种语言和连续多轮对话的任务时表现出色，并且在 RepoQA 基准测试中，“长上下文代码理解”的性能指标超过了同规模的其他模型，例如 Llama-3.1-8B-instruct 和 Mistral-7B-instruct。
- 培训要点在为期 10 天的训练周期中，利用了 512 块 H100-80G GPU 来处理总计 3.4 万亿个 token。

Phi-3.5分散式管理指令优化版
- 模型的参数数量Phi-3.5-MoE-instruct 的参数量约为 419 亿。
- 结构特性此模型运用了混合专家系统结构，集成多种类型各异的子模型于一体，每种子模型负责特定的任务处理。
- 情境支撑能够处理长达 128k token 的上下文，非常适合应对复杂多元的语言及多样化的任务情境。
- 展现能力在处理代码编写、数学问题及多种语言的理解上有着卓越的能力，并且在一些专门的评测标准中经常超越大规模模型的表现，特别是在RepoQA评估体系中取得了出色的成绩。
- 多种任务处理能力在包含STEM领域、人文科学及社会科学研究在内的多个学科层级的5-shot MMLU（大规模多任务语言理解）评估中，表现优于GPT-40 mini。
- 培训要点采用了 512 颗 H100-80G 图形处理器，于 23 日间完成了对近 4.9 兆 token 的培训。

Phi-3.5视界指导版本
- 模型的参数数量Phi-3.5-vision-instruct 的参数量约为 41.5 亿。
- 特性整合此模型融合了文本与图像的处理能力，使得它能应对多种类型的数据。
- 适合执行的作业尤其适合用于常规的图像解析、文字识别（OCR）、图形与表格分析及视频概要生成等应用场景。
- 背景信息支撑能够处理长达 128k token 的上下文，使得该模型能有效地应对复杂多帧的视觉相关工作。
- 培训资料该模型经过由合成数据集合精选公开数据集共同培训而成，着重于处理高质量且需要复杂推理的数据。
- 培训要点采用了 256 颗 A100-80G 图形处理器，于六日内完成了对五千亿 token 的训练任务。

Phi-3.5的工程链接

Git存储库：在GitHub上可以找到由微软提供的Phi-3 Cookbook项目页面。链接如下：https://github.com/microsoft/Phi-3CookBook
Phi-3.5-mini-instruct 的模型链接访问此链接以查看微软的Phi-3.5微型指令模型：https://huggingface.co/microsoft/Phi-3.5-mini-instruct
Phi-3.5-MoE-instruct 的模型链接访问此链接以查看微软的模型页面：https://huggingface.co/microsoft/Phi-3.5-MoE-instruct，这里展示了该公司的最新研究进展。
Phi-3.5-vision-instruct 模型的链接位置访问此链接以查看微软的Phi-3.5视觉指令模型: https://huggingface.co/microsoft/Phi-3.5-vision-instruct

掌握Phi-3.5的运用方法

准备工作环境务必使开发环境符合模型执行所需的技术条件，包括Python运行时、必需的库及框架等组件。
获得模型：进入Hugging Face的模型仓库以获取Phi-3.5架构，并下载相关的软件包。
配置所需组件依据模型的相关文档指引，需安装如Transformers库、PyTorch或TensorFlow等必需的依赖项。
启动模型可以通过调用API或者插入特定的代码段来集成Phi-3.5模型。比如说，借助Hugging Face开发的Transformers工具包时，能够凭借指定该模型的名字或是具体存储位置来进行初始化和导入操作。
信息加工：对即将输入的数据进行预备处理，按照模型的具体需求执行诸如词汇分割和编码等工作。
设置模型参数依据使用场景调整模型的参数设置，比如确定上下文的大小或挑选适合任务的设定等。
完成使命利用模型来完成各种任务需求，包括但不限于文本创作、问题回答和文本归类等。