昨日(5月16日),科技媒体WinBuzzer发布博文称,开源大语言模型服务工具Ollama推出自主研发的多模态AI定制引擎,实现了对llama.cpp框架的去耦。
llama.cpp项目近期通过libmtmd库集成了完整的视觉支持功能,而Ollama与其关系也成为社区讨论的热点话题。
针对有关技术借鉴的质疑,Ollama团队在Hacker News上作出澄清:其核心开发语言为Go,并完全独立完成开发工作,未直接使用llama.cpp的C++实现。同时,团队对社区提供的反馈表示感谢,并基于此改进了相关技术。
Ollama官方指出,随着主流模型如Meta的Llama 4、Google的Gemma 3、阿里巴巴的Qwen 2.5 VL以及Mistral Small 3.1等参数量的持续增长,现有架构已难以满足日益复杂的推理需求。
为应对这一挑战,Ollama此次推出全新引擎,实现了本地推理精度的重大突破。特别是在处理大尺寸图像生成海量token的场景下,新引擎表现出色。
该引擎通过引入图像处理附加元数据,优化了批量处理和位置数据管理机制,有效避免因不当分割导致的输出质量下降问题。同时,借助KVCache优化技术,显著提升了Transformer模型的推理效率。
新版本还对内存管理进行了深度优化,并新增图像缓存功能,确保处理后的图像可以被重复利用,避免不必要的资源浪费。此外,Ollama与NVIDIA、AMD、Qualcomm、Intel和Microsoft等硬件厂商展开合作,通过对硬件元数据的精准识别,实现更精确的内存估算。
针对Meta Llama 4 Scout(1090亿参数的混合专家模型MoE)等先进模型,新引擎特别支持分块注意力(chunked attention)和2D旋转嵌入(2D rotary embedding)等前沿技术。
展望未来,Ollama计划进一步提升本地AI模型的功能性,包括延长上下文长度、优化复杂推理流程以及实现工具调用的流式响应等功能。这些改进将使Ollama在本地AI服务领域更具竞争力。