谷歌新模型突破bert局限：nlp版「芝麻街」新成员big bird长这样-pg电子平台

大家好！今天让小编来大家介绍下关于谷歌新模型突破bert局限：nlp版「芝麻街」新成员big bird长这样的问题，以下是酷知号的小编对此问题的归纳整理，让我们一起来看看吧。

　　萧箫发自凹非寺

　　量子位报道公众号 qbitai

　　最新消息，谷歌推出了 nlp 系列「芝麻街」的新成员 big bird。

　　这个在外界眼中看起来有点可爱的动漫小鸟，摇身一变，解决了 bert 模型中的全注意力机制带来的序列长度二次依赖限制，可以兼顾更长的上下文。

　　△ 「芝麻街」中的 big bird

　　众所周知，谷歌开发的 bert，曾经被称为「地表最强」nlp 模型。

　　而 bert，则与美国知名动画片「芝麻街」（sesame street）里的虚拟人物同名。

　　此前，谷歌的「芝麻街」系列已经有 5 个成员（论文链接见传送门），现在 big bird 的到来，意味着谷歌在 nlp 的研究上更进一步。

　　△ 少了一位 elmo

　　来看看 big bird 实现了什么。

　　突破全注意力机制的局限

　　在 nlp 模块表现最好的几种深度学习模型，例如 bert，都是基于transformer作为特征抽取器的模型，但这种模型有它的局限性，核心之一就是全注意力机制。

　　这种机制会带来序列长度二次依赖限制，主要表现在存储方面。

　　为了解决这个问题，团队提出了一种名为 big bird 的稀疏注意力机制。

　　作为更长序列上的 transformers，big bird 采用稀疏注意力机制，将二次依赖降至线性。

　　下面这张图片，展示了 big bird 所用的注意力机制模块构建。

　　其中，白色的部分代表着注意力的空缺。

　　图（a）表示r=2 的随机注意力机制，图（b）表示w=3 的局部注意力机制，图（c）表示g=2 的全局注意力机制，图（d）则是前三者融合起来的 big bird 模型。

　　之所以提出这样的模型，是因为团队希望能在将二次依赖降至线性的同时，big bird 的模型还能最大程度上接近并保持 bert 模型的各项指标。

　　从下图来看，无论是单一采用随机注意力机制、局部注意力机制，还是二者结合的方式，都没有将三者进行结合的效果好。

　　也就是说，随机局部全局的注意力机制融合，最大程度上接近了 bert-base 的各项指标。

　　不仅如此，这种稀疏注意力机制的一部分，还包括了采用o1) 的全局词例（global token），例如 cls。

　　这部分使得长程注意力开销从on√n)降至on)。

　　nlp 问答和摘要任务中超越了 sota

　　模型采用 books、cc-news、stories 和几种数据集对四类模型进行了训练，根据留出法评估，bigbird-etc 的损失达到了最低。

　　从结果来看，big bird 在问答任务中展示出的精度非常不错。

　　下图是 big bird 与 roberta 和 longformer 对比所展现出来的精度效果，可以看见，在各项数据及上，bigbird 的两个模型都展现出了更高的精度。

　　而在对模型进行微调后，可以看见，bigbird-etc 在 hotpotqa 的 sup、naturalq 的 la、triviaqa 的 verified 和 wikihop 上均超越了 sota。

　　与此同时，big bird 在 nlp 的摘要任务中表现也比较亮眼。

　　摘要，顾名思义是从一段长文字中提炼出这段话的核心思想和意义。下面是从三个长文章数据集 arxiv、pubmed 和 bigpatent 中测试的效果。

　　从图中来看，与其他非常先进的 nlp 模型相比，bigbird 极大地提高了摘要任务的各项精度，性能表现非常优异。

　　不仅如此，big bird 被证明是图灵完备的，这也就意味着，一切可以计算的问题，big bird 都能计算，理论上，它能够用来解决任何算法。

　　此外，big bird 在基因组数据处理方面也极具潜力。

　　但虽然如此，也有网友认为，这样的模型与 longformer 在概念上并无本质区别，不能算是一个大突破。

　　你怎么看？

　　作者介绍

　　论文的两位共同一作是 manzil zaheer 和 guru guruganesh，均来自谷歌。

　　△ manzil zaheer

　　manzil zaheer，cmu 机器学习博士，3 篇论文曾经发表于 nips 上，除此之外，在 acl 和 emnlp 等顶会上也发表过相应文章。

　　△ guru guruganesh

　　guru guruganesh，cmu 机器学习博士，主要在近似算法、拉姆齐定理、半正定规划等方向有所研究。

　　传送门

　　「芝麻街」系列论文列表：

elmo:https://arxiv.org/abs/1802.05365
bert:https://arxiv.org/abs/1810.04805
ernie:https://arxiv.org/abs/1904.09223
grover:https://arxiv.org/abs/1905.12616
kermit:https://arxiv.org/abs/1906.01604
big bird:https://arxiv.org/abs/2007.14062

　　— 完 —

以上就是小编对于谷歌新模型突破bert局限：nlp版「芝麻街」新成员big bird长这样问题和相关问题的解答了，谷歌新模型突破bert局限：nlp版「芝麻街」新成员big bird长这样的问题希望对你有用！

免责声明：本站所有文章内容,图片，视频等均是来源于用户投稿和互联网及文摘转载整编而成，不代表本站观点，不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益，请在线联系站长,一经查实,本站将立刻删除。本文链接：https://www.andon8.com/472693.html

谷歌新模型突破bert局限：nlp版「芝麻街」新成员big bird长这样-pg电子平台

相关文章：

相关推荐