在 "经典 "使用的情况下,我们在输入时会用到一些信息(一个财务指标、一个店铺规模、一个雇员人数、一个支出金额)。这些数字可以按顺序排列(4 比 2 大),也可以按等级排列(4 比 2 大 2 倍)。至于词语,情况就更复杂了。chien "比 "chat "大,而 "chien "比 "chat "大 2 倍。这些词语只是一种符号。或者说,为了能够生成一个标签,所有的数学关系都必须能够比较它们之间的信息,从而确定近似的概念。
第一种解决方案:将其转换为二元向量。假设法语中有 100 个单词。我们为每个词语设定一个仲裁值,例如 "chien "就是第 27 个词语。然后,每个动机都由一个向量(一个单线表)来表示,向量中不能包含 0,除非是在与该指数相对应的情况下。在我们的例子中,"chien "一词在第 27 个位置上是 1,在其他位置上是 0。我们称这种表示法为 "标记"。
得到的结果可以用数学模型来处理。然而,这种定义对模型的影响微乎其微,因为所有的词语都与其他词语保持着相同的距离。"Chien "与 "chat "和 "voiture "完全不同。
在研究领域中已经出现了多种演变,但最有效的是嵌入法。这种方法是寻找一个比词汇总量(在我们的例子中为 100 个)更小的向量,它能正确地反映词汇之间的距离。为了学习这个向量,我们需要研究前标记和标签之间的数学关系。2013 年,Google 的研究人员([1])开发了一种算法,该算法通过预置一个短语词组来研究这种关系,并在此词组中加入一个动机。所获取的语句(其标记)是模型的入口信息,而标签则是其余的标记。从效果上看,标出 2 个前后相继的词语可能是一项非常复杂的工作,但就目前而言,我们正在寻找一种能够很好地表达词语的方法。
该模型由两部分组成:一部分是根据输入标记生成一个小尾数向量,另一部分是提供该向量代表词典中每个标记的概率。
为了使结果可视化,我们可以在维度 2 中应用算法(见下图),但在实际应用中,为了提高再现的质量,我们最好在更高的维度(约 500 维)上进行操作。由于这些维度并不具有真正的人类感知,因此算法的工作是分析在类似语境中使用的词语。
代表不同国家的词汇与其他国家的词汇相距甚远,也与它们之间的首都相距甚远。此外,我们还注意到这些词语之间存在着某种地理上的一致性。
计算嵌入的方法已经发生了很大的变化,但思路依然如故:将标记转换为更小的向量,然后通过机器学习进行简单的处理。
随着递归神经网络(RNN,Recurrent Neural Network)的出现,文本生成技术取得了长足进步。RNN 的意思是 "循环神经网络"(Recurrent Neural Network,简称 RNN),它是一个你可能已经参与过的游戏:一个人选择一个词语,然后他的同伴会重新输入第二个词语,接着他的同伴会在输入第三个词语之前重新输入这两个词语,如此反复,直到这个短语结束。RNN 的想法与下面的修改相似:在开始游戏之前,每个游戏者都不去听前一个人的总结。从他的简历开始,他就会添加一个短语,创建一个新的简历,然后传给他的同伴。
每条指令都要经过一段计算,然后转化为嵌入指令,并在第二段计算中与前一位棋手的摘要进行比对。监督的任务是正确地生成下一个动机。
这些方法使我们得以改善技术现状,但却无法为漫长的历史提供足够简洁的总结。我们还做了许多修改,特别是 LSTM([2]长时短记忆)的出现,它们(如其名称所示)的目的是建立一个长时记忆......但这对于处理重要文件来说,时间太长了。
Àretenir : 在 RNN 中,一个运动后会有一个运动摘要。这些简述可以生成下一个动机。
发现最新资讯、深度文章、网络研讨会视频,以及55数据的各项活动。