本周阅读Language Models are Unsupervised Multitask Learners
此文章是GPT-2的发布文章,详细解释了GPT-2的训练过程和原理。
GPT-2是一个1.5B参数的Transformer,在8个测试语言建模数据集中的7个实现了当时最先进的结果。
在GPT-2发布之前,几乎所有的语言模型都只能完成某一类单独的任务,比如情感识别、敏感内容检测等,而openAI希望他们的模型可以完成多种任务,并且不需要为每个任务创建和标记数据集。这实际上就是大预言模型的概念,不过在当时还没有这个概念。
OpenAI认为,以前的NLP模型只是在单个领域上进行单任务训练,这使得NLP模型缺乏泛化性,而他们将常识推理和情感分析这两条路线结合起来,继续推进训练。
首先,作者对GPT-2模型的预训练方法进行了详细介绍。GPT-2本质上就是一个Transformer,并且使用了大规模的语料库进行预训练。
GPT-2模型在预训练阶段中所使用的语料库包括了维基百科、互联网上的网页、新闻报道、小说等多种类型的文本。这些文本经过了一系列的预处理,包括分词、去除标点符号、低频词过滤等操作,最终生成了一个超过800万个文本文档的语料库。
在预训练阶段中,GPT-2模型训练了两种任务模式:掩码语言建模和下一句预测。掩码语言建模任务是指给定一个句子,将其中的某些单词用特殊的标记替换掉,然后让模型根据上下文预测这些被掩码的单词。下一句预测任务是指给定两个相邻的句子,让模型判断这两个句子是否是相邻的。
接着详细介绍了GPT-2模型的预训练过程。预训练过程可以分为两个阶段,分别是无监督预训练和有监督微调。无监督预训练是指在大规模语料库上进行预训练,以学习语言知识和语言规律。有监督微调是指在某个特定任务的数据集上进行训练,以使模型更好地适应某种特定任务。
最后,文章还介绍了GPT-2模型在预训练任务上的表现。GPT-2模型在掩码语言建模和下一句预测任务中表现出了非常出色的性能。在掩码语言建模任务中,GPT-2模型可以准确地预测被掩码的单词,其表现优于当前最先进的模型。在下一句预测任务中,其性能也优于当前最先进的模型。
文章的测试部分展示了GPT-2在文本生成、文本分类、文本摘要、阅读理解、和语言翻译上的性能。