加入收藏 | 设为首页 | 会员中心 | 我要投稿 厦门网 (https://www.xiamenwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 移动互联 > 正文

从想法到实干,2018年13项NLP绝美新研究

发布时间:2018-12-31 15:57:28 所属栏目:移动互联 来源:佚名
导读:在即将过去的 2018 年中,自然语言处理有很多令人激动的想法与工具。从概念观点到实战训练,它们为 NLP 注入了新鲜的活力。 前一段时间,Sebastian Ruder 介绍了他心中 10 个最有影响力的想法,并且每一个都提供了具体论文与核心思想。正如 Ruder 所说,他
副标题[/!--empirenews.page--]

在即将过去的 2018 年中,自然语言处理有很多令人激动的想法与工具。从概念观点到实战训练,它们为 NLP 注入了新鲜的活力。

前一段时间,Sebastian Ruder 介绍了他心中 10 个最有影响力的想法,并且每一个都提供了具体论文与核心思想。正如 Ruder 所说,他的清单必然是主观的,主要涵盖了迁移学习和泛化相关的想法。其中有的想法在过去一年非常受关注,大家围绕这些完美的观点展开了很多研究工作与实践。而有的想法并不是当前趋势,不过它们有可能在未来变得流行。因此,机器之心在 Ruder 介绍的基础上,重点关注今年的前沿趋势,并推荐一些真正好用的 NLP 新工具。

在本文中,我们会重点关注 2018 年里的 神经机器翻译 与预训练模型,这两个概念真的非常 Excited!而后对于实战装备,数百种中文预训练词嵌入向量、BERT预训练模型和建模框架 PyText 等工具真的令人忍不住想做一个新颖的 NLP 应用。

1. 神经机器翻译

在 2018 年, 神经机器翻译 似乎有了很大的改变,以前用 RNN 加上注意力机制打造的 Seq2Seq 模型好像都替换为了 Tramsformer。大家都在使用更大型的 Transformer,更高效的 Transformer 组件。例如阿里会根据最近的一些新研究对标准 Transformer 模型进行一些修正。这些修正首先体现在将 Transformer 中的 Multi-Head Attention 替换为多个自注意力分支,其次他们采用了一种编码相对位置的表征以扩展自注意力机制,并令模型能更好地理解序列元素间的相对距离。

有道翻译也采用了 Transformer,他们同样会采取一些修正,包括对单语数据的利用,模型结构的调整,训练方法的改进等。例如在单语数据的利用上,他们尝试了回译和对偶学习等策略,在模型结构上采用了相对位置表征等。所以总的而言,尽管 Transformer 在解码速度和位置编码等方面有一些缺点,但它仍然是当前效果最好的 神经机器翻译 基本架构。

在 Ruder 的介绍中,它非常关注两种无监督机器翻译模型,它们都被接受为 ICLR 2018 论文。如果无监督机器翻译模型是能行得通的,那么这个想法本身就很惊人,尽管无监督翻译的效果很可能远比有监督差。在 EMNLP 2018 中,有一篇论文在无监督翻译上更进一步提出了很多改进,并获得极大的提升。Ruder 笔记中提到了以下这篇论文:

  • 论文:Phrase-Based & Neural Unsupervised Machine Translation

  • 论文链接: https://arxiv.org/abs/1804.07755

这篇论文很好地提炼出了无监督 MT 的三个关键点:优良的参数初始化、语言建模和通过回译建模反向任务。这三种方法在其它无监督场景中也有使用,例如建模反向任务会迫使模型达到循环一致性,这种一致性已经应用到了很多任务,可能读者最熟悉的就是CycleGAN。该论文还对两种语料较少的语言做了大量的实验与评估,即英语-乌尔都语和英语-罗马尼亚语。

从想法到实干,2018年13项NLP绝美新研究

无监督 MT 的三个主要原则:A)两种单语数据集、B)参数初始化、C)语言建模、D)回译。

这篇论文获得了 EMNLP 2018 的最佳长论文奖,它在遵循上面三个主要原则的情况下简化了结构和损失函数。得到的模型优于以前的方法,并且更易于训练和调整。

2. 预训练模型

2018 年,使用预训练的语言模型可能是 NLP 领域最显著的趋势,它可以利用从无监督文本中学习到的「语言知识」,并迁移到各种 NLP 任务中。这些预训练模型有很多,包括 ELMo、ULMFiT、OpenAITransformer 和BERT,其中又以BERT最具代表性,它在 11 项 NLP 任务中都获得当时最佳的性能。不过目前有 9 项任务都被微软的新模型超过。

机器之心曾解读过BERT的的核心过程,它会先从数据集抽取两个句子,其中第二句是第一句的下一句的概率是 50%,这样就能学习句子之间的关系。其次随机去除两个句子中的一些词,并要求模型预测这些词是什么,这样就能学习句子内部的关系。最后再将经过处理的句子传入大型 Transformer 模型,并通过两个损失函数同时学习上面两个目标就能完成训练。

从想法到实干,2018年13项NLP绝美新研究

如上所示为不同预训练模型的架构,BERT可以视为结合了OpenAIGPT 和 ELMo 优势的新模型。其中 ELMo 使用两条独立训练的 LSTM 获取双向信息,而OpenAIGPT 使用新型的 Transformer 和经典语言模型只能获取单向信息。BERT的主要目标是在OpenAIGPT 的基础上对预训练任务做一些改进,以同时利用 Transformer 深度模型与双向信息的优势。

这种「双向」的来源在于BERT与传统语言模型不同,它不是在给定所有前面词的条件下预测最可能的当前词,而是随机遮掩一些词,并利用所有没被遮掩的词进行预测。

此外,值得注意的是,最近微软发布了一种新的综合性模型,它在 GLUE 的 11 项基准NLP 任务中的 9 项超过了BERT,且评分也超过了BERT。除了准确率外,微软的新模型只有 1.1 亿的参数量,远比BERT-Large 模型的 3.35 亿参数量少,和BERT-Base 的参数量一样多。

从想法到实干,2018年13项NLP绝美新研究

在「Microsoft D365 AI & MSR AI」模型的描述页中,新模型采用的是一种多任务联合学习。因此所有任务都共享相同的结构,并通过多任务训练方法联合学习。目前新模型的信息还非常少,如果经过多任务预训练,它也能像BERT那样用于更广泛的 NLP 任务,那么这样的高效模型无疑会有很大的优势。

Sebastian Ruder 非常欣赏 ELMo 的创新性想法,它同样也是今年的论文(NAACL 2018):

  • 论文:Deep contextualized word representations (NAACL-HLT 2018)

  • 论文链接: https://arxiv.org/abs/1802.05365

(编辑:厦门网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读