在本系列的 4 篇文章中,我们将介绍机器学习算法在 chatGPT 上的每一次演变。
点击这里查看本系列文章的第一部分。
Le mécanisme d'attention ([3]) a d'abordé été utilisé pour les tâches de traduction.这些算法以 RNN 为基础。要翻译的短语先进入一个 RNN(编码器),由它生成短语的摘要,然后再进入第二个 RNN(解码器)。为了翻译,解码器需要提供两个信息:编码器生成的全局摘要和解码器生成的过程摘要。在对一个词语进行翻译时,注意力应集中在该词语最相关的部分,而不是基于对该词语的全局总结,以获得更精确的结果。
在翻译过程中,该模型不仅可以获取现有的两份摘要(编码器和解码器的摘要),还可以获取所有嵌入的对白。根据正在进行的翻译的摘要,它还会为每个句子中的词语给出一个重要分值,以确定其是否有助于生成下一个句子。随后,我们将根据每个短语的嵌入词对正在进行的研究的重要性来编写一份新的摘要。这个关注点可以提高模型的性能,尤其是在长短句上,但也包括长文档......为此,我们还需要做两方面的改进!
重申:在有注意力的 RNN 编码器-解码器中,下一个动机基于两个简述(编码器的简述和解码器的简述)和解码器简述与编码器每个动机的嵌入之间的注意力计算。为了编写这份摘要,我们将介绍两种情况:
1. 编码器:每一个动机都不能获得正在运行的摘要
2. 解码器:每一个动机都能获得正在运行的摘要 ET à l'embedding de chaque mot de l'encoder。
Attention is all you need ([4]) est un article publié par des chercheurs de Google en 2017, qui, comme son nom l'indique, mise tout sur l'attention.Finis les RNN, place à l'attention et uniquement à l'attention.Le modèle fonctionne toujours sur un principe d'encoder et decoder.
编码器的作用是将每一个标记转换为一个包含其周边的向量。为此,首先将每个标记转换为嵌入式标记,然后根据注意力原则将其与短语中的其他嵌入式标记(包括自己)进行比较:如果某个动机很重要,那么它在最终向量中的作用就会更大。在编码器结束时,每个动机都会根据注意力原则转换成一个向量。
Le rôle du decoder est similaire au decoder des RNN mais avec le principe de l'attention.Le résumé du décodage en cours est remplacé par une attention.嵌入已生成的第二个短语时,会考虑所有已生成的短语,评估它们的重要性,然后生成自己的简述。随后,该简述将对编码器短语中的所有词语使用同样的关注方法,并生成最终向量,作为生成下一个词语的基础。
谷歌的研究人员称这种模式为 "转换"(transformer )。
À retenir : dans un transformer le prochain mot se base sur un seul résumé créé en 3 étapes:
这些步骤(注意力、编码器、解码器)需要多次执行,以便让模型有更多的时间来学习总结。这就是深度学习或深度神经网络,因为这些模型包含大量成功的计算。
这一修改改进了长句的艺术表现力,但这并不是我们想要的,因为这些文件太长了!
请稍后阅读本文的第 3 部分 !
发现最新资讯、深度文章、网络研讨会视频,以及55数据的各项活动。