pp003.XLNet: Generalized Autoregressive Pretraining for Language Understanding

关键词：预训练模型，自回归语言模型，去噪自编码，Transformer-XL，PLM

摘要：借助于对双向上下文进行建模的能力，基于去噪自编码的预训练模型如BERT相比于基于自回归语言模型的预训练模型拥有更好的性能。但是，依赖于用掩码破坏输入，BERT忽略了被遮盖位置的词的依赖关系并因此遭受了预训练-微调差异的困扰。鉴于这些优缺点，我们提出XLNet，一个广义的自回归预训练方法，该方法（1）通过最大化所有因子分解顺序的排列的期望似然来实现双向上下文学习，并且（2）克服了BERT由于其自回归形式所带来的许多限制。另外，XLNet将最先进的自回归模型Transfomer-XL中的思想整合到了预训练中。根据经验，在可比较的实验设置下，XLNet在多达20个任务上超过了BERT，并且通常有较大优势。这些任务包括问题回答，自然语言推断，情感分析和文档排序。