谷歌的研究人员(包括我们自己!)提出了一种新的变换器类型([5] ):Transformer Decoder With Memory Compressed Attention, ou T-DMCA, ou tout simplement transformer, ce dernier devenant ensuite la norme.在此,正如其名称的长版本所显示的,退出编码器,就不能再使用解码器。在生成下一个短语时,我们要考虑到离别短语和已经生成的前几个短语无法构成一个完整的语块。因此,没有必要对 "分离词组 "和 "已确定词组 "进行不同的处理!因此,为了生成下一个短语,前一个短语会通过前文所述的注意机制,对前一个短语的所有内容进行总结。这说明了 "变压器解码器 "部分的含义,但还需要对 "使用记忆压缩注意力 "进行定义。
为了理解这个术语,作者们从一项在图像领域广泛使用的技术中获得灵感:卷积。要在一幅图像上检测出一只动物,必须先确定其组成形式。卷积法会观察一个像素块,例如由 3 个点阵和 3 个冒号组成,并对单个像素进行汇总。要做到这一点,可以有多种方法:利用中值、最大值、最小值......但所有方法都是任意的。因此,我们更倾向于让模型自己学习如何利用所有像素的像素点来估算体积。随后,这些像素将在一个 "内核 "下重新组合,而这个 "内核 "对所有尺寸为 3×3 的分割图像都是相同的。
利用卷积技术绘制图像的神经网络示例
返回文本。入词短语中的嵌入词(每个嵌入词都是一个向量,即一条线),以及已经生成的嵌入词,都可以通过图像的方式,将这些嵌入词置于其他嵌入词之下,形成一个表格。在解码器还未恢复问题短语之前,会对表格进行卷积。我们可以将其视为逐段的迷你摘要。随后,这些迷你摘要将通过解码器的关注机制进行分析,从而生成最终解码器。
这种卷积使输入文件的长度比以前大大增加:根据作者的说法,这些文件可能比以前长三倍。
2018 年,openAI 提出了 gpt 的首个版本([6]),该版本致力于开发一种能够执行各种任务的文本生成模型:回答问题、阅读文档、比较文档或回答 QCM。其算法基于两个理念:预训练和微调。
预训练:gpt 是 Generative Pre-trained Transformer 的缩写。前一步骤的目的是按照前一步骤中的描述创建一个变换器。
微调:微调的目的是在新数据上继续学习现有模型,并确定标签的目标。
左侧:基础变压器。向右:针对某一操作的不同微调技术
例如,为了对逻辑分析(英文为 entailment)进行微调,prémisse 和 l'hypothèse 被视为一个单独的短语,由一个特殊的特征分隔开来。一旦按照这种方式确定了这个问题,就可以继续对整个模型进行学习,以便继续输入短语的下一个动机(就像在预培训中一样),同时也可以正确地回答逻辑归纳问题。
这种与微调相关的预训练技术使作者能够在 75% 的测试中提高技术水平,这些测试包含 12 个数据集。
稍后请阅读本文的第 4 部分 !
发现最新资讯、深度文章、网络研讨会视频,以及55数据的各项活动。