从经典结构到改进方法，神经网络语言模型综述

发布时间：2019-07-24 12:44:55 所属栏目：建站来源：机器之心编译

导读：作为自然语言处理(NLP)系统的核心组成部分，语言模型可以提供词表征和单词序列的概率化表示。神经网络语言模型(NNLM)克服了维数的限制，提升了传统语言模型的性能。本文对 NNLM 进行了综述，首先描述了经典的 NNLM 的结构，然后介绍并分析了一些主要的改进

副标题[/!--empirenews.page--]

作为自然语言处理(NLP)系统的核心组成部分，语言模型可以提供词表征和单词序列的概率化表示。神经网络语言模型(NNLM)克服了维数的限制，提升了传统语言模型的性能。本文对 NNLM 进行了综述，首先描述了经典的 NNLM 的结构，然后介绍并分析了一些主要的改进方法。研究者总结并对比了 NNLM 的一些语料库和工具包。此外，本文还讨论了 NNLM 的一些研究方向。

什么是语言模型

语言模型(LM)是很多自然语言处理(NLP)任务的基础。早期的 NLP 系统主要是基于手动编写的规则构建的，既费时又费力，而且并不能涵盖多种语言学现象。直到 20 世纪 80 年代，人们提出了统计语言模型，从而为由 N 个单词构成的序列 s 分配概率，即：

从经典结构到改进方法，神经网络语言模型综述

其中 w_i 代表序列 s 中的第 i 个单词。一个单词序列的概率可以被分解为在给定下一个单词的前项(通常被称为上下文历史或上下文)的条件下，与下一个单词的条件概率的乘积。

考虑到很难对上述模型中超多的参数进行学习，有必要采取一种近似方法。N 元(N-gram)模型是一种最为广泛使用的近似方法，并且在 NNLM 出现之前是最先进的模型。一个(k+1)元模型是由 k 阶马尔科夫假设推导出的。该假设说明当前的状态仅仅依赖于前面的 k 个状态，即：

从经典结构到改进方法，神经网络语言模型综述

我们用极大似然估计来估计参数。

困惑度(PPL)[Jelinek et al., 1977] 是一种用来衡量一个概率模型质量的信息论度量标准，是评价语言模型的一种方法。PPL 越低说明模型越好。给定一个包含 N 个单词的语料库和一个语言模型，该语言模型的 PPL 为：

从经典结构到改进方法，神经网络语言模型综述

值得注意的是，PPL 与语料库相关。可以用 PPL 在同一个语料库上对两个或多个语言模型进行对比。

为什么要给 LM 加上神经网络?

然而，N 元语言模型有一个明显的缺点。为了解决这个问题，我们在将神经网络(NN)引入到了连续空间的语言建模中。NN 包括前馈神经网络(FFNN)、循环神经网络(RNN)，可以自动学习特征和连续的表征。因此，人们希望将 NN 应用于 LM，甚至其他的 NLP 任务，从而考虑自然语言的离散性、组合性和稀疏性。

第一个前馈神经网络语言模型(FFNNLM)由 Bengio 等人于 2003 年提出，它通过学习一个单词的分布式表征(将单词表征为一个被称为「嵌入」的低维向量)来克服维数诅咒。FFNNLM 的性能要优于 N 元语言模型。随后，Mikolov 等人于 2010 年提出了 RNN 语言模型(RNNLM)。从那时起，NNLM 逐渐成为了主流的语言模型，并得到了迅速发展。

2012 年，Sundermeyer 等人提出了长短期记忆循环神经网络语言模型(LSTM-RNNLM)用于解决学习长期依赖的问题。为了降低训练、评估以及 PPL 的开销，人们提出了各种各样的改进方案，例如分层的 Softmax、缓存(caching)模型等。最近，为了改进 NNLM，人们引入了注意力机制，取得了显著的性能提升。

经典的神经网络语言模型

1. FFNN 语言模型

Xu 和 Rudnicky 等人于 2000 年试图将神经网络(NN)引入到语言模型(LM)中。尽管他们的模型性能比基线 N 元模型语言模型要好，但是由于没有隐藏层，他们模型的泛化能力较差，无法捕获上下文相关特征。

根据公式 1，LM 的目标等价于对条件概率 P(w_k|w_1 · · · w_(k−1)) 进行估计。但是前馈神经网络(FFNN)不能直接处理变长数据(variable-length data)，也不能够有效地表征历史上下文。因此，对于像 LM 这样的序列建模任务，FFNN 必须使用定长的输入。受到 N 元语言模型的启发(见公式 2)，FFNNLM 将前 n-1 个单词作为了预测下一个单词的上下文。

如图 1 所示，Bengio 等人于 2003 年提出了原始 FFNNLM 的架构。这个 FFNNLM 可以写作：

从经典结构到改进方法，神经网络语言模型综述

其中，H、U 和 W 是层与层之间连接的权重矩阵;d 和 b 是隐藏层和输出层的偏置。

从经典结构到改进方法，神经网络语言模型综述

图 1：Bengio 等人于 2003 年提出的 FFNNLM。

FFNNLM 通过为每个单词学习一个分布式表征来实现在连续空间上的建模。单词表征是语言模型的副产品，它往往被用于改进其它的 NLP 任务。基于 FFNNLM，Mikolov 等人于 2013 提出了两种词表征模型：「CBOW」和「Skip-gram」。FFNNLM 通过将单词转换为低维向量克服了维数诅咒。FFNNLM 引领了 NNLM 研究的潮流。

然而，FFNNLM 仍然具有一些缺点。在训练前指定的上下文大小是有限的，这与人类可以使用大量的上下文信息进行预测的事实是严重不符的。序列中的单词是时序相关的。而 FFNNLM 没有使用时序信息进行建模。此外，全连接 NN 需要学习许多可训练的参数，即使这些参数的数量比 N 元少，但是仍然具有很大的计算开销，十分低效。

2. RNN 语言模型

第一个 RNN 语言模型由 [Mikolov et al., 2010; Mikolov et al., 2011a] 提出，如图 2 所示，在第 t 个时间步，RNNLM 可以写作：

从经典结构到改进方法，神经网络语言模型综述

（编辑：厦门网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/5

尾页

网站要害词SEO排名优化	大中型网站优化怎么操
网站seo优化日常的工作	网站不被收录咋办