期待获得更多专家见解?

立即订阅55数据月度精选Tea O'Clock

点击订阅

De 0 à ChatGPT - Partie 4

罗曼-沃洛普
发布于
31/7/2023
在本系列的 4 篇文章中,我们将介绍机器学习算法在 ChatGPT 上的发展历程。

点击这里查看本系列文章的第一部分,点击这里查看第二部分。

第 2 次会议:GPT-2(2019 年)

对于 GPT-2 ([7]), pas de révolution algorithmique.开放人工智能研究人员的目标是开发一种算法,它能有效地处理不同的任务,而无需对其中的每一个任务进行明确的训练。我们的方法依赖于两个方面:数据和标记。

数据。到目前为止,我们已经讨论了很多旨在改进模型的数学方法,但却没有讨论这些模型所依据的数据。在 gpt-2 项目中,作者们致力于创建尽可能大的输入数据集。目前已有一些数据库,如Common Crawl,它们在互联网上 "抓取 "了少量数据。问题是,互联网上的大部分内容质量很差,而且难以理解。因此,我们无法在此基础上建立相关算法,而验证这样一个庞大的数据集需要大量时间。解决方案:向免费社区发出呼吁。 作者们认为,在 Reddit 社交网络上发布并获得至少 3 个 "赞"(相当于 "like")的链接是有价值的。他们共搜索到 4,500 万个链接,经过几次数据清理后,得到 800 万个文件。

Token. Nous avons jusqu’ici assez peu abordé les tokens, sauf pour en donner une définition simplifiée, où un mot équivaudrait à un symbole et donc à un token . En réalité, la tokenisation a plusieurs facettes. Elle peut se faire au niveau du mot (word-based tokenization) ou au niveau du caractère (character-based tokenization). L’inconvénient de la tokenisation au niveau du caractère est que chaque token n’ayant pas de sens propre et les séquences étant extrêmement longues, il est  difficile de générer un texte cohérent. La tokenisation au niveau du mot présente elle aussi des inconvénients : l’ampleur du vocabulaire implique que beaucoup de mots soient très rarement représentés. Il est donc difficile d’obtenir un algorithme plus général. Pour pallier à celà, les auteurs ont travaillé sur une alternative à un niveau intermédiaire, entre le mot et le caractère, appelé “subword tokenization”. Leur technique se base sur le “byte pair encoding”. L’idée est que les mots fréquents ont leurs propres tokens alors que les mots rares sont découpés en plusieurs tokens. Un caractère spécial,mettons </f>, est ajouté après chaque mot réel pour en marquer la fin. Ce “</f>” permettra notamment de distinguer le token “eur</f>” qui peut arriver dans le mot “tracteur” et le mot “euro” ; “eur” devra être complété par un autre token pour fermer le mot “euro”, alors que “tract”+”eur</f>” sera suivi d’un espace. À titre d’exemple, “anticonstitutionnellement” devient “anticonstitutionnellement</f>” puis est (potentiellement) transformé en 3 tokens : “anti”, “constitution”, “nellement</f>”.

在此基础上,再对算法进行一些微小的修改,投入几百万欧元,再加上 150 万个参数,就能得到 GPT-2,这是一种独一无二的算法,它对各种难题的处理能力与对特定算法的处理能力一样出色。

第三部分:GPT-3(2020 年)

通过 GPT-3([8]),OpenAI 继续寻求创建一种通用语言算法,能够以尽可能少的指令完成简单的任务。为此,作者们继续在 "语境学习 "上下功夫,即一种语言模式能够以最少的语境,在不对其算法进行特殊诱导的情况下,对一项练习做出正确的回答。作者区分了 3 种情况来测试这一模式:

  1. few-shot: on donne quelques exemples en entrée du modèle, celui-ci doit poursuivre correctement tout seul
  2. 单例:只举一例,请正确填写
  3. 零拍摄:没有实例,但模型仍可正确响应

这种情况也被称为 "上下文训练",它有别于微调,即在测试之前先给模型提供一个数据集,然后再对其进行训练。在这种情况下,所提供的示例很简单(就像一个短语的开头),但却不会改变模型的参数。


关于模型本身,与 gpt-2 相比没有重大变化。真正的区别是什么?参数增加了(1.75 亿对 GPT-2 的 1.5 亿),输入的文本也增加了。Les auteurs ont également testé différentes variables avec plus ou moins de paramètres pour en mesurer l'impact sur la performance du modèle.

Neuvième partie : GPT-3.5, InstructGPT, chatGPT, GPT-4, ...

从现在开始,openAI 关于界面算法的交流变得更加浮躁。所有这些都是 GPT-3 的改进变体问题,但我们并不确切知道它们所做的修改是什么。我们认为,输入数据的格式和数量、模型的参数数量以及模型的诱导技术都是 openAI 必须改进的重点。虽然 instructGPT 是一个基于顺序指令的结构化版本,但 GPT-4 是目前 openAI 最先进的版本,能够生成长时间的信息对话,并能处理文本和图像。

在 chatGPT / instructGPT 版本和 GPT-3 以前的版本之间存在一个显著的差异:模式的学习。从历史上看,模态的目的是预发下一个命令,从而 "简单 "地完成文件,而不是回答问题。如果您向 GPT-2 提出一个问题,它就有可能用另一个类似的问题来回答......这是非常有趣的。例如,如果问 "Peux-tu m'écrire un poème ?",可以说 "Voici un poème que j'aime beaucoup :" 并要求对方回答。这样做比较好,但仍然不够实用。为了从文本补全算法过渡到问题/回复算法,在模型学习过程中增加了 3 个步骤。:

  1. 监督微调(SFT):以问题--回答的形式,从少量高质量文档(可能是人类编写的)开始,对模型的学习进行微调。
  2. 奖励模型:从 SFT 模型开始,我们要求算法生成多个对同一问题的回答。然后,人类对这些回答进行从好到差的排序。我们利用这些标签来引导模型标注它所生成的文本注释。
  3. 强化学习:使用允许记录应答质量的模型,对算法的应答进行微调,以生成更贴切的应答。

这就是随后面向广大公众制作的最终模型,它能够回答图片中幽默部分的问题,如下面的例子。

结论 :

有关文本数据处理的机器学习研究是当今世界研究领域最热门的研究方向之一。在过去的 15 年中,有许多不同的算法被提出来,以改进算法的性能。现在,研究的主要方向是增加算法的长度,利用建模技术更好地理解语言。L'incroyable performance des outils mis à disposition du grand public tend à donner raison à cette direction, très coûteuse en apprentissage (plusieurs millions voire dizaine de millions de dollars) et donc réservée aux GAFAM et associées.下一次算法创新会是什么时候?

[7]语言模型是无监督的多任务学习者; [8]语言模型是少量学习者; [9]GPT-4 技术报告

这是罗曼-沃洛普四篇系列文章的第二部分。

所有文章

相关文章

De 0 à ChatGPT - Partie 3

6 分钟
罗曼-沃洛普

De 0 à ChatGPT - Partie 2

6 分钟
罗曼-沃洛普

De 0 à ChatGPT - Partie 1

8 分钟
罗曼-沃洛普

期待获得更多专家见解?
立即订阅55数据月度精选Tea O'Clock!

发现最新资讯、深度文章、网络研讨会视频,以及55数据的各项活动。

名*
姓氏*
公司*
首选语言*
电子邮件*
谢谢!

您的订购要求已被充分考虑。
糟糕!提交表格时出了点问题。