Ollama自研多模态AI引擎：摆脱llama.cpp依赖，本地推理性能大幅提升

115 0 0

昨日（5月16日），科技媒体WinBuzzer发布博文称，开源大语言模型服务工具Ollama推出自主研发的多模态AI定制引擎，实现了对llama.cpp框架的去耦。

llama.cpp项目近期通过libmtmd库集成了完整的视觉支持功能，而Ollama与其关系也成为社区讨论的热点话题。

针对有关技术借鉴的质疑，Ollama团队在Hacker News上作出澄清：其核心开发语言为Go，并完全独立完成开发工作，未直接使用llama.cpp的C++实现。同时，团队对社区提供的反馈表示感谢，并基于此改进了相关技术。

Ollama官方指出，随着主流模型如Meta的Llama 4、Google的Gemma 3、阿里巴巴的Qwen 2.5 VL以及Mistral Small 3.1等参数量的持续增长，现有架构已难以满足日益复杂的推理需求。

为应对这一挑战，Ollama此次推出全新引擎，实现了本地推理精度的重大突破。特别是在处理大尺寸图像生成海量token的场景下，新引擎表现出色。

该引擎通过引入图像处理附加元数据，优化了批量处理和位置数据管理机制，有效避免因不当分割导致的输出质量下降问题。同时，借助KVCache优化技术，显著提升了Transformer模型的推理效率。

新版本还对内存管理进行了深度优化，并新增图像缓存功能，确保处理后的图像可以被重复利用，避免不必要的资源浪费。此外，Ollama与NVIDIA、AMD、Qualcomm、Intel和Microsoft等硬件厂商展开合作，通过对硬件元数据的精准识别，实现更精确的内存估算。

针对Meta Llama 4 Scout（1090亿参数的混合专家模型MoE）等先进模型，新引擎特别支持分块注意力（chunked attention）和2D旋转嵌入（2D rotary embedding）等前沿技术。

展望未来，Ollama计划进一步提升本地AI模型的功能性，包括延长上下文长度、优化复杂推理流程以及实现工具调用的流式响应等功能。这些改进将使Ollama在本地AI服务领域更具竞争力。

文章版权归作者所有，未经允许请勿转载。

ainav

4 0

ainav

5 0

ainav

79 0

ainav

35 0

ainav

95 0

ainav

100 0