

西风 发自 凹非寺量子位 | 公众号 QbitAI欧洲杯体育
时隔6年,一度被以为濒死的“BERT”杀转头了——
更当代的ModernBERT问世,更快、更准、险阻文更长,发布即开源!

旧年一张“大言语模子进化树”动图在学术圈疯转,decoder-only枝繁叶茂,而已经旭日东升的encoder-only却似乎走向没落。

ModernBERT作家Jeremy Howard却说:
encoder-only被低估了。
他们最新拿出了参数诀别为139M(Base)、395M(Large)的两个模子险阻文长度为8192 token,相较于以BERT为首的大巨额编码器,其长度是它们的16倍
ModernBERT越过适用于信息检索(RAG)、分类、实体抽取等任务。
在检索、当然言语流露和代码检索测试中性能拿下SOTA:

着力也很高。
ModernBERT速率是DeBERTa的两倍;在更常见的输入长度夹杂的情况下,速率可达4倍;长险阻文推理比其它模子快约3倍。
要津它所占的内存还不到DeBERTa的五分之一。

Jeremy Howard示意,现时对于生成式模子的热议秘密了encoder-only模子的作用。
像GPT-4这么大模子,太大、太慢、独有化、资本繁华,对好多任务来说并不符合,还有Llama 3.1,参数齐达到了405B。这些模子运行迟缓,价钱繁华,况兼不是你不错限制的。

GPT-4这么的生成模子还有一个舍弃:它们不可事前看到背面的token,只可基于之前已生成的或已知的信息来进行忖度,即只可向后看。
而像BERT这么的仅编码器模子不错同期磋商前后文信息,上前向后看齐行。

ModernBERT的发布诱骗数十万网友在线围不雅点赞。
抱抱脸辩论首创东说念主兼CEO Clem Delangue齐来壮胆,直呼“爱了!!”。

为什么ModernBERT冠以“当代”之名?相较于BERT作念了哪些升级?
杀不死的encoder-only
ModernBERT的当代体现时三个方面:
当代化的Transformer架构越过柔顺着力当代数据限制与起原
底下一一来看。
起始,ModernBERT深受Transformer++(由Mamba定名)的启发,这种架构的初度应用是在Llama2系列模子上。
ModernBERT团队用其更正后的版块替换了旧的BERT-like构建块,主要包括以下更正:
用旋转位置镶嵌(RoPE)替换旧的位置编码,进步模子流露词语之间相对位置关连的发达,也故意于推广到更长的序列长度。用GeGLU层替换旧的MLP层,更正了原始BERT的GeLU激活函数。通过移除无须要的偏置项(bias terms)简化架构,由此不错更有用地使用参数预算。在镶嵌层之后添加一个特别的归一化层,有助于富厚检修。
接着,在进步速率/着力方面,ModernBERT讹诈了Flash Attention 2进行更正,依赖于三个要津组件:
一是使用轮流恬逸力(Alternating Attention),提高处理着力。

二是使用Unpadding和Sequence Packing,减少野心蹧跶。

三是通过硬件感知模子联想(Hardware-Aware Model Design),最大化硬件讹诈率。

这里就概略备伸开了,感敬爱的童鞋不错自行查阅原论文。
最自后看检修和数据方面的更正。

团队以为,encoders在检修数据方面的落伍,实质问题在于检修数据的各种性,即好多旧模子检修的语料库有限,频繁只包括维基百科和竹素,这些数据唯有单一的文本模态。
是以,ModernBERT在检修时使用了多种数据,包括采集文档、编程代码和科学著作,覆盖了2万亿token,其中大部分是唯一无二的,而不是之前encoders中常见的20-40次的重叠数据。
检修经由,团队坚执使用原始BERT的检修配方,并作念了一些小升级,比如移除了下一句忖度宗旨,因为有扣问标明这么的拓荒增多了支拨但莫得较着的收益,还将掩码率从15%提高到30%。
具体来说,139M、395M两个规格的模子齐通过了三阶段检修。
起始第一阶段,在序列长度为1024的情况下检修1.7T tokens。然后是长险阻文恰当阶段,模子处理的序列长度增多到8192,检修数据量为250B tokens,同期通过裁汰批量大小保执每批次处理的总tokens量粗陋交流。终末,模子在500亿个越过采样的tokens上进行退火处理,除名ProLong强调的长险阻文推广理念念夹杂。
一番操作下来,模子在长险阻文任务上发达具有竞争力,且处理短险阻文的能力不受损。
检修经由团队还对学习率进行了越过处理。在前两个阶段,模子使用恒定学习率,而在终末的500亿tokens的退火阶段,经受了梯形学习率政策(热身-富厚-衰减)。
团队还使用两个手段,加快模子的检修经由,一个是常见的batch-size warmup,另一个是受微软Phi系列模子启发,讹诈现存的性能细致的ModernBERT-base模子权重,通过将基础模子的权重“平铺”推广到更大的模子,提高权重运转机的着力。

作家夸耀将将公开checkpoints,以相沿后续扣问。
谁打造的?
前边提到的Jeremy Howard是这项职责的作家之一。
ModernBERT的三位中枢作家是:
Benjamin Warner、Antoine Chaffin、Benjamin ClaviéOn。

Jeremy Howard夸耀,样式领先是由Benjamin Clavié在七个月前启动的,随后Benjamin Warner、Antoine Chaffin加入共同成为样式崇敬东说念主。

Benjamin ClaviéOn、Benjamin Warner,同Jeremy Howard通常,来自Answer.AI。Answer.AI打造了一款能AI解题、意见阐释、追想和复盘测试的阐扬应用,在北好意思较为流行。
Antoine Chaffin则来自LightOn,亦然一家作念生成式AI的公司。
团队示意BERT固然看起来环球评述的少了,但其实于今仍在被凡俗使用:
现时在HuggingFace平台上每月下载次数超6800万。恰是因为它的encoder-only架构相配符合科罚畴前出现检索(举例用于RAG)、分类(举例内容审核)和实体索要任务。
Jeremy Howard示意来岁将检修这个模子的更大版块。

Blog:https://huggingface.co/blog/modernbertModernBERT-Base:https://huggingface.co/answerdotai/ModernBERT-baseModernBERT-Large:https://huggingface.co/answerdotai/ModernBERT-large论文:https://arxiv.org/pdf/2412.13663参考相接:https://x.com/jeremyphoward/status/1869786023963832509