树的内核：量化树结构化数据之间的相似性

发布时间：2020-12-14 01:59:47 所属栏目：大数据来源：网络整理

导读：一个深入的树内核的信息概述，无论是理论还是实践。包括一个案例和一些代码后的讨论。网络和图形是一种节点形式的结构化数据类型，它们之间的关系描述为链接，或边缘。图中的节点和边可能有几个属性，可能是数字或分类，甚至更复杂。今天，大量的数据是可

一个深入的树内核的信息概述，无论是理论还是实践。包括一个案例和一些代码后的讨论。

网络和图形是一种节点形式的结构化数据类型，它们之间的关系描述为链接，或边缘。图中的节点和边可能有几个属性，可能是数字或分类，甚至更复杂。

今天，大量的数据是可用的网络或图形的形式。例如，万维网，其网页和超链接，社会网络，语义网络，生物网络，科学文献的引用网络，等等。

36大数据专稿，本文由36大数据翻译组-云泥，任何不标明译者和出处以及本文链接http://www.36dsj.com/archives/43411 的均为侵权。

数（数据结构名词）

树状图是一种数据结构，它是由n（n>=1）个有限节点组成一个具有层次关系的集合。把它叫做“树”是因为它看起来像一棵倒挂的树，也就是说它是根朝上，而叶朝下的。它具有以下的特点：

每个节点有零个或多个子节点；没有父节点的节点称为根节点；每一个非根节点有且只有一个父节点；除了根节点外，每个子节点可以分为多个不相交的子树；

树是一种特殊类型的图形，很自然地适合于表示多种类型的数据。树木的分析是计算机和数据科学中的一个重要领域。在这篇文章中，我们将看看树链接结构的分析。特别是，我们将专注于树的内核，一种方法用来比较树图形彼此，使我们能够量化的测量它们的相似性或差异。这是一个重要的过程，对于很多如分类和数据分析的现代应用。

结构化数据的无监督分类

分类是机器学习和数据分析的重要组成部分。在一般情况下，分类可以监督或无监督。在监督分类中，分类是已知的，一个分类模型是从训练数据中构造的。这个训练数据已经给了正确的分类。通过对比，无监督分类试图找出分类，其中没有已知的部分，分组数据分类基于一些相似性的措施。无监督分类法可以与图的理论相结合去识别相似的树网络。树数据结构用于几个域模型对象。在自然语言处理（NLP），例如，解析树被建模为有序，标记树。在自动推理，许多问题都被搜索解决了，搜索空间被代表为一棵树，其顶点与搜索状态，和边缘代表的推理步骤。另外，半结构化数据，如HTML和XML文档，可以模拟为有序，标记的树。

这些领域可以通过非监督分类技术进行有效的分析。在自然语言处理（NLP），分类可以用来自动将一组句子分成问题，命令和语句。同样的，相似网站群可以通过HTML源识别分类方法识别。在每一种情况下，我们所需要的是一种衡量”相似”的两个树是彼此的方法。

维数灾难

大多数分类算法需要将数据转化成矢量形式，表示在特征空间中的数据的特征值，使数据可以在特征空间利用线性代数分析。在结构化或半结构化数据，如树木，所得到的向量维数（即特征空间中的特征数）可能会很高，由于特征空间必须保留结构信息。

这可能是一个显著的缺点，考虑到许多分类技术是不能够有效地扩展维度输入。换句话说，它们的分类能力随着输入维数的增加而降低。这个问题被称为”维数灾难”。

要想知道这个性能下降的原因，考虑维度D的一个空间X。假设X包含一组均匀分布的点。如果X的维度数量增加，必要的保持相同密度的点的数量必须成倍的增加。换句话说，输入的维数越大，数据稀疏的可能性越大。一般情况下，稀疏的数据集并没有给出足够的信息，以建立一个良好的分类，因为对于检测算法数据元素之间的相关性太弱。

维数灾难

每个特征空间上面都包含了八个数据点。在一维空间上，很容易辨认出左边一组5个点，和右边一组3个点。在更高功能上（例如，维度）伸展这些点使它更难找到这些组。在实际应用中，特征空间可以很容易地拥有数百个维度。

一个结构化的数据矢量化是合适的，当有关该域的信息可以有效地用于选择一个可管理的功能集时。当这些信息不可用时，它是可以用使用的技术直接处理结构化数据，不需要执行在向量空间中的操作。

核方法

核方法避免了将数据转换成矢量形式的需要。它们所需要的唯一信息是一个集合数据中的每一对的相似性的度量。这种度量被称为内核，并确定它的函数称为内核函数。特征空间中的核方法寻找线性关系。在功能上，它们相当于特征空间中的点积的2个数据点，而真正的功能设计，在内核功能设计可能仍然是一个有用的步骤。然而，内核方法避免直接操作在特征空间，因为它可以表明以取代点产品的内核功能是可能的，只要核函数是对称的，正定函数可以作为输入的原始空间数据。

使用内涵函数的优点是，一个巨大的特征空间，可以分析与计算复杂度不依赖于特征空间的大小，但是内核功能的复杂性，这意味着内核的方法是没有灾难的维数。

如果我们考虑一个有限的数据集组成的氮的例子，我们可以得到一个通过生成一个内核矩阵，完整的在数据中的相似性表示，其大小始终是nxn。在每个个性化的例子，这个矩阵是独立的大小。此属性是有用的，当一个小的数据集的例子有一个大的特征空间进行分析。

在一般情况下，内核的方法是基于对数据问题的不同答案。而不是映射到特征空间的输入点，数据表示通过成对比较的内核矩阵，和所有相关的分析可以进行内在矩阵。

许多数据挖掘方法都可以核化。分类树结构的数据情况下用内核的方法，如，支持向量机器，它可以定义一个有效（正定）核函数K：T×T→R，也被称为树核。在设计切实有用的树的内核，一个将需要它们是可计算在多项式时间内的树的大小，并能够检测同结构图。这种树的内核被称为完全树核。

树核

现在，让我们来介绍一些有用的树核，用于测量树的相似性。其主要思想是计算每一对树的内核，以便建立一个内核矩阵，然后可用于分类组的树。

字符串内核

首先，我们就爱你过要开始一个简短的介绍字符串的内核，这将有助于我们引入另一个内核的方法，是基于转换成字符串树。

让我们来定义numy（S）为一个字符串中的子串出现的次数与Y，|s|表示字符串的长度。我们将在这里描述的字符串内核被定义为：

其中F是在S1和S2出现的子字符串的集合，参数作为一个权重参数（如，强调重要的子字符串）。我们可以看到，这个内核对他们有许多共同的子字符串时提供了更高的价值。

基于树转换成字符串的树核

我们可以使用这个字符串内核来构建一个树内核。这个内核背后的想法是，将两根树转换成2个字符串，用系统的方法将树的结构编码，然后将上面的字符串内核应用到它们中。

我们将两根树转换成两根弦：

让T表示一个目标树和标签（NS）在T标签节点。NS字符串标签（NS）是指T扎根在NS的子树的字符串表示。所以如果是T的根节点，tag（nroot）是整个树T的字符串的表现形式。

接下来，让字符串（t）=tag（nroot）表示T的字符串。我们将递归地应用下面的步骤，在一个自下而上的方式获得字符串（T）：

?如果节点NS是一个叶状结构，让tag(ns) = “[” + label(ns) + “]”（在这里+是字符串串联运算符）。

?如果节点NS不是叶状结构，并且有C子n1,n2,…,nc,sort tag(n1),tag(n2),tag(nc)在词汇以获得tag(n1*),tag(n2*),tag(nc*),让let tag(ns) = “[” + label(ns) + tag(n1*) + tag(n2*) + … + tag(nc*) + “]”。

下面的图，显示了这课树对字符串转换的一个例子。其结果是一个字符串的起始开口分隔符如”[“和结束的结束一样，”]”,每一个嵌套的双对应子树扎根在一个特定的节点的分隔符。