新一代编码器模型 ModernBERT —— 由英伟达与Hugging Face等组织共同开放源代码推出

171 0 0

什么是ModernBERT？

由Answer.AI、LightOn、约翰斯·霍普金斯大学、英伟达与HuggingFace共同研发的ModernBERT是一款先进的编码器-only Transformer架构模型，它标志着对传统BERT的一次重要革新。此模型在超过2万亿token的数据集上进行训练，并且能够处理长达8192 token的序列长度，极大地增强了其应对长上下文信息的能力。实验显示，在多项自然语言处理任务中，ModernBERT的表现超越了现有的最佳模型(SOTA)，并且运行速度是DeBERTa的两倍之多，使其在诸如信息检索、文本分类及实体识别等领域展现出卓越的应用潜力。目前该模型已开放源代码，旨在促进学术与工业领域的深入研究和广泛应用。

ModernBERT的核心特性

处理较长的文本内容能够处理最多达8192个token的序列长度，相比传统的模型而言，显著增强了对长篇幅文本的处理能力。
数据查询在处理语义搜索及文档查找的任务时，ModernBERT能够更加高效地对文档与查询进行编码，从而增强检索的精确度。
文档归类涵盖情感分析和内容审查等工作的文本分类任务可以实现迅速处理。
实体检测在执行命名实体识别（NER）的任务时，目标是辨识出文本内具体的实体信息。
查找程序代码在涉及编程语言的任务中同样表现优异，能够高效处理及查找大量的代码资料。
提高效能为了确保高效率，对速度与内存消耗进行了优化处理，从而使该模型的性能更为卓越。

当前讨论的主题是关于ModernBERT的运作机制。

现代Transformers结构通过对Transformer框架的优化，引入了旋转位置编码（RoPE）与GeGLU激活函数，这使得模型在理解及处理长序列信息时表现更为出色。
调整变量设置删除多余的偏差值，更加高效地使用参数资源，并使模型结构更为简洁。
聚焦机制通过结合使用全局与局部注意力机制，增强了模型在处理较长文本时的运算效率。
去除填充与数据封装通过移除填充数据及实现序列压缩，能够显著降低不必要的计算开销，并进一步提升模型在训练与推断过程中的运行效率。
针对硬件的模型构建方案在设计过程中注重提升硬件使用效率，通过构建优化的模型结构来达到提高GPU使用率的目的。
大量训练资料通过在一个包含2万亿token的大型数据集中培训，该模型吸收了互联网文档、软件代码及科研论文等多类信息，从而获得了更为广阔的语言理解与运用技能。

ModernBERT的官方仓库链接

Git存储库：可在GitHub上找到名为”ModernBERT”的项目页面，其地址为https://github.com/AnswerDotAI/ModernBERT。
HuggingFace的模型集合：在Hugging Face平台上，由Answerdotai创建的ModernBert集合可在此找到——https://huggingface.co/collections/answerdotai/modernbert
关于技术的arXiv论文这篇论文可以在网址 https://arxiv.org/pdf/2412.13663 中找到。