期待获得更多专家见解?

立即订阅55数据月度精选Tea O'Clock

点击订阅

De 0 à ChatGPT - Partie 1

罗曼-沃洛普
发布于
3/7/2023
从机器学习开始。机器学习的一个主要分支是寻找一个模型,从输入的信息出发,生成一个排序内容:这就是监督学习。例如,我们可以要求对一张图片进行标注,以便了解图片中包含的是一只狗还是一辆车;我们可以要求根据过去的结果、商店的规模、销售额的变化来估算一家商店的营业额......原则其实一直都是一样的:要生成一个标签,就必须假设这个标签与入口信息之间存在着一种暂时无法确定的关系。这种关系将通过一个数学函数来定义,而这个函数需要估计参数的数量。为了做到这一点,我们需要以我们掌握的已标注的数据为基础,寻找一种数学关系,使我们能够以最简洁的方式重新标注这些数据。每种类型的问题(图像、文本、产品建议、营销建模......)都有自己的运作模式,我们将集中讨论与文本有关的问题。在本系列的 4 篇文章中,我们将介绍机器学习算法在 chatGPT 上的每一次演进。

1 - 通过嵌入为一个主题赋予数学意义

在 "经典 "使用的情况下,我们在输入时会用到一些信息(一个财务指标、一个店铺规模、一个雇员人数、一个支出金额)。这些数字可以按顺序排列(4 比 2 大),也可以按等级排列(4 比 2 大 2 倍)。至于词语,情况就更复杂了。chien "比 "chat "大,而 "chien "比 "chat "大 2 倍。这些词语只是一种符号。或者说,为了能够生成一个标签,所有的数学关系都必须能够比较它们之间的信息,从而确定近似的概念。

第一种解决方案:将其转换为二元向量。假设法语中有 100 个单词。我们为每个词语设定一个仲裁值,例如 "chien "就是第 27 个词语。然后,每个动机都由一个向量(一个单线表)来表示,向量中不能包含 0,除非是在与该指数相对应的情况下。在我们的例子中,"chien "一词在第 27 个位置上是 1,在其他位置上是 0。我们称这种表示法为 "标记"。

得到的结果可以用数学模型来处理。然而,这种定义对模型的影响微乎其微,因为所有的词语都与其他词语保持着相同的距离。"Chien "与 "chat "和 "voiture "完全不同。

在研究领域中已经出现了多种演变,但最有效的是嵌入法。这种方法是寻找一个比词汇总量(在我们的例子中为 100 个)更小的向量,它能正确地反映词汇之间的距离。为了学习这个向量,我们需要研究前标记和标签之间的数学关系。2013 年,Google 的研究人员([1])开发了一种算法,该算法通过预置一个短语词组来研究这种关系,并在此词组中加入一个动机。所获取的语句(其标记)是模型的入口信息,而标签则是其余的标记。从效果上看,标出 2 个前后相继的词语可能是一项非常复杂的工作,但就目前而言,我们正在寻找一种能够很好地表达词语的方法。

该模型由两部分组成:一部分是根据输入标记生成一个小尾数向量,另一部分是提供该向量代表词典中每个标记的概率。

为了使结果可视化,我们可以在维度 2 中应用算法(见下图),但在实际应用中,为了提高再现的质量,我们最好在更高的维度(约 500 维)上进行操作。由于这些维度并不具有真正的人类感知,因此算法的工作是分析在类似语境中使用的词语。

代表不同国家的词汇与其他国家的词汇相距甚远,也与它们之间的首都相距甚远。此外,我们还注意到这些词语之间存在着某种地理上的一致性。

计算嵌入的方法已经发生了很大的变化,但思路依然如故:将标记转换为更小的向量,然后通过机器学习进行简单的处理。

2 - 生成文本

随着递归神经网络(RNN,Recurrent Neural Network)的出现,文本生成技术取得了长足进步。RNN 的意思是 "循环神经网络"(Recurrent Neural Network,简称 RNN),它是一个你可能已经参与过的游戏:一个人选择一个词语,然后他的同伴会重新输入第二个词语,接着他的同伴会在输入第三个词语之前重新输入这两个词语,如此反复,直到这个短语结束。RNN 的想法与下面的修改相似:在开始游戏之前,每个游戏者都不去听前一个人的总结。从他的简历开始,他就会添加一个短语,创建一个新的简历,然后传给他的同伴。

每条指令都要经过一段计算,然后转化为嵌入指令,并在第二段计算中与前一位棋手的摘要进行比对。监督的任务是正确地生成下一个动机。

这些方法使我们得以改善技术现状,但却无法为漫长的历史提供足够简洁的总结。我们还做了许多修改,特别是 LSTM([2]长时短记忆)的出现,它们(如其名称所示)的目的是建立一个长时记忆......但这对于处理重要文件来说,时间太长了。

‍Àretenir : 在 RNN 中,一个运动后会有一个运动摘要。这些简述可以生成下一个动机。

[1] 词语和短语的分布式表示及其构成性[2] LSTM 可解决困难的长时滞问题

请稍后阅读本文的第二部分!

所有文章

相关文章

L’internalisation des solutions de mesure et optimisation de l’efficacité marketing : 5 facteurs clés de succès – Partie 5

6 分钟
阿尔诺-家长

市场营销效率测量和优化解决方案的内部化:实现卓越运营的机遇?

10 分钟
阿尔诺-家长

De 0 à ChatGPT - Partie 2

6 分钟
罗曼-沃洛普

期待获得更多专家见解?
立即订阅55数据月度精选Tea O'Clock!

发现最新资讯、深度文章、网络研讨会视频,以及55数据的各项活动。

名*
姓氏*
公司*
首选语言*
电子邮件*
谢谢!

您的订购要求已被充分考虑。
糟糕!提交表格时出了点问题。