腾讯Youtu-Embedding:智能文本处理模型

AI资讯1个月前发布 ainav
39 0

10月14日讯 腾讯优图实验室今日宣布开源Youtu-Embedding,这是一款专为大规模企业级应用设计的通用文本向量模型。该模型在智能客服、问答系统、内容推荐、知识管理等多个领域展现出广泛的应用潜力,尤其适合构建增强型生成检索(RAG)系统。

以下是官方介绍:

文本向量作为驱动智能搜索、生成增强检索(RAG)和推荐系统的核心技术,其质量直接决定了这些系统的性能表现。高质量的向量能够准确捕捉语义信息,并实现高效的语义匹配。

传统信息检索主要依赖倒排索引与关键词匹配,这种方法虽然高效,但存在显著局限性。例如,“汽车保险”和“车辆保障”在语义上高度相关,但由于缺乏共同词汇而难以被传统检索系统匹配。这种基于字面的匹配方式无法真正理解文本的深层含义。

向量模型通过深度神经网络将文本映射到高维空间,使得语义相似的内容在该空间中距离更近。这一机制使模型能够基于语义关联而非简单关键词匹配完成检索任务,显著提升搜索和问答系统的理解能力。在RAG场景下,高质量的向量模型可以为大语言模型提供更精准、更具上下文相关的外部知识,从而生成更准确、更可控的答案。

针对这一技术难题,腾讯优图实验室正式开源Youtu-Embedding模型。这是一款专为企业级应用打造的通用文本表示模型,支持文本检索、意图识别、相似度计算等六大核心任务。在信息检索(IR)、语义相似度评估(STS)、聚类分析、排序优化和分类等多种自然语言处理任务中,该模型均展现出卓越性能。

Youtu-Embedding的核心优势包括:

🏆 顶尖性能:在权威中文向量评测基准CMTEB上以77.46分位居榜首(截至2025年9月),充分验证了其强大的语义表征能力。

🧠 精准的三阶段训练流程:通过”大语言模型预训练-弱监督对齐-协同判别式微调”的系统化训练,将大模型的知识转化为优秀的嵌入生成能力。

⭐ 创新的微调框架:采用统一数据格式、任务差异化损失函数和动态单任务采样机制,有效解决了多任务学习中的负迁移问题。该框架已在多种编码器上得到验证,具有良好的通用性和有效性。

🛠️ 精细化的数据工程方案:结合大语言模型生成技术和高效难负例挖掘策略,为模型构建了高质量的训练数据集.

我们很高兴地宣布,首个20亿参数量的通用语义表示模型已正式开源。模型权重、推理代码及完整训练框架均已开放共享。Hugging Face链接如下:

Hugging Face 链接:https://huggingface.co/tencent/Youtu-Embedding

GitHub 链接:https://github.com/TencentCloudADP/youtu-embedding

© 版权声明

相关文章