多应用+插件架构,代码干净,二开方便,首家独创一键云编译技术,文档视频完善,免费商用码云13.8K 广告
## 基于边重构的优化问题 总体见解: 基于节点嵌入建立的边应尽可能与输入图中的边相似。 第三类图嵌入技术通过最大化边重建概率,或最小化边重建损失,来直接优化基于边重建的目标函数。 后者进一步分为基于距离的损失和基于边距的排名损失。 接下来,我们逐一介绍这三种类型。 ### 最大化边重建概率 见解: 良好的节点嵌入最大化了在图中观察到的边的生成概率。 良好的节点嵌入应该能够重新建立原始输入图中的边。 这可以通过使用节点嵌入最大化所有观察到的边(即,节点成对接近)的生成概率来实现。 节点对 ![](https://img.kancloud.cn/07/40/0740edb420c2cc4fd3da7398d2deb689_17x31.png) 和 ![](https://img.kancloud.cn/99/ca/99ca1db217ecc34711addcbc6a025696_19x31.png) 之间的直接边,表示它们的一阶邻近度 ,可以使用嵌入来计算 ![](https://img.kancloud.cn/07/40/0740edb420c2cc4fd3da7398d2deb689_17x31.png) 和 ![](https://img.kancloud.cn/99/ca/99ca1db217ecc34711addcbc6a025696_19x31.png) 的联合概率: ![](https://img.kancloud.cn/78/35/783541a960c19be006ffd518a44406d2_194x36.png) (13) 上述一阶邻近度存在于图中的任何一对连接节点之间。 为了学习嵌入,我们最大化了在图中观察这些邻域的对数似然。 然后将目标函数定义为: ![](https://img.kancloud.cn/c2/d3/c2d36a8b76d089325fa7bc2e72b776d7_251x41.png) (14) 同样,![](https://img.kancloud.cn/07/40/0740edb420c2cc4fd3da7398d2deb689_17x31.png) 和 ![](https://img.kancloud.cn/99/ca/99ca1db217ecc34711addcbc6a025696_19x31.png) 的二阶邻近度是条件概率 ![](https://img.kancloud.cn/99/ca/99ca1db217ecc34711addcbc6a025696_19x31.png) 由 ![](https://img.kancloud.cn/07/40/0740edb420c2cc4fd3da7398d2deb689_17x31.png) 使用 ![](https://img.kancloud.cn/7e/e4/7ee443153fbc64825deddfa561048c6b_17x31.png) 和 ![](https://img.kancloud.cn/ca/69/ca6908bfe386dfa505a0d35496086fde_19x31.png) 生成: ![](https://img.kancloud.cn/8c/5d/8c5d02dc3a76ce1fc11e51af175ba06b_195x49.png) (15) 它可以被解释为在图中随机游走的概率,它开始于 ![](https://img.kancloud.cn/07/40/0740edb420c2cc4fd3da7398d2deb689_17x31.png) 结束于 ![](https://img.kancloud.cn/99/ca/99ca1db217ecc34711addcbc6a025696_19x31.png)。 因此图嵌入目标函数是: ![](https://img.kancloud.cn/e1/13/e1137128437dda483efa54f71d5d137b_272x41.png) (16) 其中 ![](https://img.kancloud.cn/8b/58/8b5820e22a5a6057861257779fd86d48_17x15.png) 是从图中采样的路径中,![](https://img.kancloud.cn/43/6f/436fc652f90e79f5c8b1adecb88e1d7b_169x32.png) 的集合。即来自每个采样路径的两个端节点。 这模拟了二阶邻近度,作为从 ![](https://img.kancloud.cn/ab/b5/abb5085132b0722e654036c06cced1f0_80x16.png) 到 ![](https://img.kancloud.cn/6f/7a/6f7a9795625ec2ea546f5debd48d6217_70x16.png) 的随机游走的概率。 ### 最小化基于距离的损失 见解: 基于节点嵌入计算的节点邻近度,应尽可能接近基于观察到的边计算的节点邻近度。 具体来说,可以基于节点嵌入来计算节点邻近度,或者可以基于观察到的边凭经验计算节点邻近度。 最小化两种类型的邻近度之间的差异,保持了相应的邻近度。 对于一阶邻近度,可以使用公式 13 中定义的节点嵌入来计算它。 经验概率是 ![](https://img.kancloud.cn/29/85/2985761db07aadc82eba3f1782822b77_209x36.png) ,其中 ![](https://img.kancloud.cn/fd/83/fd83546f54c9db2710a940a65131073f_27x30.png) 是边 ![](https://img.kancloud.cn/4e/16/4e1609b8055408feedc3dcf076c15ca3_23x31.png) 的权重。![](https://img.kancloud.cn/3f/96/3f9692ffd6249cbf254f22efc5a6f390_29x36.png) 和 ![](https://img.kancloud.cn/fc/b3/fcb3dabca8ac1ed1c148974466f61e86_29x36.png) 两者之间的距离越小,就能保持更好的一阶邻近度。 使用KL-散度作为距离函数来计算 ![](https://img.kancloud.cn/3f/96/3f9692ffd6249cbf254f22efc5a6f390_29x36.png) 和 ![](https://img.kancloud.cn/fc/b3/fcb3dabca8ac1ed1c148974466f61e86_29x36.png) 间的差异,并且省略了一些常量,在图嵌入中保留一阶邻近度的目标函数是: ![](https://img.kancloud.cn/05/69/0569b2e86d457fef9ec76e2c0fd5e59f_286x41.png) (17) 同样,![](https://img.kancloud.cn/07/40/0740edb420c2cc4fd3da7398d2deb689_17x31.png) 和 ![](https://img.kancloud.cn/99/ca/99ca1db217ecc34711addcbc6a025696_19x31.png) 的二阶邻近度是由节点 ![](https://img.kancloud.cn/07/40/0740edb420c2cc4fd3da7398d2deb689_17x31.png) 生成的条件概率 ![](https://img.kancloud.cn/99/ca/99ca1db217ecc34711addcbc6a025696_19x31.png)(公式 15)。 ![](https://img.kancloud.cn/64/ff/64ff7f1ea911d037c43063f5a4a5dec4_74x36.png) 的经验概率计算为 ![](https://img.kancloud.cn/b0/07/b007421a253038e01ddfd11498be188b_140x36.png),其中 ![](https://img.kancloud.cn/3f/88/3f88318930c13151b7acf63b275ad159_119x31.png) 是节点的出度(无向图的情况中是度) ![](https://img.kancloud.cn/07/40/0740edb420c2cc4fd3da7398d2deb689_17x31.png)。与公式 10 相似,计算公式 15 非常昂贵。 再次将负采样用于近似计算来提高效率。 通过最小化 ![](https://img.kancloud.cn/c9/29/c929242e3208d6273d5ee35d90a872af_74x36.png) 和 ![](https://img.kancloud.cn/03/80/03807b7f994350e5a71221f75c7dc04e_74x36.png) 之间的 KL 差异,保持二阶邻近度的目标函数是: ![](https://img.kancloud.cn/5e/d9/5ed9b363ca4f39f1e5ea596378a6f87e_284x41.png) (18) **表8:**基于边重建的图嵌入。 ![](https://img.kancloud.cn/bb/37/bb37b1bebee8adc299fc2821ea185e16_87x32.png) 是指公式 14,16~19 之一。例如 ,![](https://img.kancloud.cn/63/d4/63d456bef2ad5aee0a5200a164e96dc4_41x41.png) (word-label)是指 公式 18,带有单词节点和标签节点。 ![](https://img.kancloud.cn/08/43/084325a374d761f39c72e0b9862b2ac5_25x30.png) 表示节点 ![](https://img.kancloud.cn/07/40/0740edb420c2cc4fd3da7398d2deb689_17x31.png) 的类型。 | GE算法 | 目标 | 邻近度阶数 | | --- | --- | --- | | PALE [18] | ![](https://img.kancloud.cn/72/de/72de460f266e7f6968f34e918a05930b_43x41.png) (节点,节点) | 1 | | NRCL [4] | ![](https://img.kancloud.cn/dc/94/dc948499715ef45a966cbc95736b026a_46x30.png) (节点,邻居节点)+ ![](https://img.kancloud.cn/b4/63/b4636a53741812a77d097d6ae690d6df_17x15.png) (属性损失) | | PTE [124] | ![](https://img.kancloud.cn/63/d4/63d456bef2ad5aee0a5200a164e96dc4_41x41.png) (单词,单词)+ ![](https://img.kancloud.cn/63/d4/63d456bef2ad5aee0a5200a164e96dc4_41x41.png) (单词,文档)+ ![](https://img.kancloud.cn/63/d4/63d456bef2ad5aee0a5200a164e96dc4_41x41.png) (单词,标签) | | | APP [3] | ![](https://img.kancloud.cn/ea/3f/ea3f7dcfb692a36d5fb7bd4dbec295e3_43x41.png) (节点,节点)) | | | GraphEmbed [83] | ![](https://img.kancloud.cn/63/d4/63d456bef2ad5aee0a5200a164e96dc4_41x41.png) (单词,单词)+ ![](https://img.kancloud.cn/63/d4/63d456bef2ad5aee0a5200a164e96dc4_41x41.png) (单词,时间)+ ![](https://img.kancloud.cn/63/d4/63d456bef2ad5aee0a5200a164e96dc4_41x41.png) (单词,位置)+ ![](https://img.kancloud.cn/63/d4/63d456bef2ad5aee0a5200a164e96dc4_41x41.png) (时间,地点)+ ![](https://img.kancloud.cn/63/d4/63d456bef2ad5aee0a5200a164e96dc4_41x41.png) (位置,位置)+ ![](https://img.kancloud.cn/63/d4/63d456bef2ad5aee0a5200a164e96dc4_41x41.png) (时间,时间) | 2 | | [41,42] | ![](https://img.kancloud.cn/63/d4/63d456bef2ad5aee0a5200a164e96dc4_41x41.png) (车站,公司), ![](https://img.kancloud.cn/63/d4/63d456bef2ad5aee0a5200a164e96dc4_41x41.png) (车站,角色), ![](https://img.kancloud.cn/63/d4/63d456bef2ad5aee0a5200a164e96dc4_41x41.png) (目的地,出发地) | | PLE [84] | ![](https://img.kancloud.cn/dc/94/dc948499715ef45a966cbc95736b026a_46x30.png) (提示,类型)+ ![](https://img.kancloud.cn/63/d4/63d456bef2ad5aee0a5200a164e96dc4_41x41.png) (提示,特性)+ ![](https://img.kancloud.cn/63/d4/63d456bef2ad5aee0a5200a164e96dc4_41x41.png) (类型,类型) | | IONE [26] | ![](https://img.kancloud.cn/63/d4/63d456bef2ad5aee0a5200a164e96dc4_41x41.png) (节点,节点)+ ![](https://img.kancloud.cn/b4/63/b4636a53741812a77d097d6ae690d6df_17x15.png) (锚对齐) | | HEBE [45] | ![](https://img.kancloud.cn/63/d4/63d456bef2ad5aee0a5200a164e96dc4_41x41.png) (节点,超边中的其他节点) | | GAKE [38] | ![](https://img.kancloud.cn/ea/3f/ea3f7dcfb692a36d5fb7bd4dbec295e3_43x41.png) (节点,邻居上下文)+ ![](https://img.kancloud.cn/ea/3f/ea3f7dcfb692a36d5fb7bd4dbec295e3_43x41.png) (节点,路径上下文)+ ![](https://img.kancloud.cn/ea/3f/ea3f7dcfb692a36d5fb7bd4dbec295e3_43x41.png) (节点,边上下文) | | CSIF [64] | ![](https://img.kancloud.cn/ea/3f/ea3f7dcfb692a36d5fb7bd4dbec295e3_43x41.png) (用户对,扩散内容) | | ESR [69] | ![](https://img.kancloud.cn/ea/3f/ea3f7dcfb692a36d5fb7bd4dbec295e3_43x41.png) (实体,作者)+ ![](https://img.kancloud.cn/ea/3f/ea3f7dcfb692a36d5fb7bd4dbec295e3_43x41.png) (实体,实体)+ ![](https://img.kancloud.cn/ea/3f/ea3f7dcfb692a36d5fb7bd4dbec295e3_43x41.png) (实体,单词)+ ![](https://img.kancloud.cn/ea/3f/ea3f7dcfb692a36d5fb7bd4dbec295e3_43x41.png) (实体,场地) | | LINE [27] | ![](https://img.kancloud.cn/36/72/36727f7b6ab395aff0be176b3c624d2a_41x41.png) (节点,节点)+ ![](https://img.kancloud.cn/63/d4/63d456bef2ad5aee0a5200a164e96dc4_41x41.png) (节点,节点)) | | EBPR [71] | ![](https://img.kancloud.cn/b4/63/b4636a53741812a77d097d6ae690d6df_17x15.png) (AUC 排名)+ ![](https://img.kancloud.cn/ea/3f/ea3f7dcfb692a36d5fb7bd4dbec295e3_43x41.png) (节点,节点)+ ![](https://img.kancloud.cn/ea/3f/ea3f7dcfb692a36d5fb7bd4dbec295e3_43x41.png) (节点,节点上下文) | 1 和 2 | | [94] | ![](https://img.kancloud.cn/dc/94/dc948499715ef45a966cbc95736b026a_46x30.png) (问题,答案) | 1,2 和 更高 | ### 最小化基于边距的排名损失 在基于边距的排名损失优化中,输入图的边指代节点对之间的相关性。 图中的一些节点通常与一组相关节点相关联。 例如,在cQA网站中,一组答案被标记为与给定问题相关。 对损失的见解是直截了当的。 见解: 节点的嵌入更类似于相关节点的嵌入,而不是任何其他不相关节点的嵌入。 ![](https://img.kancloud.cn/e7/93/e79379c274684b94560bfe3344cd7448_59x32.png) 表示节点 ![](https://img.kancloud.cn/07/40/0740edb420c2cc4fd3da7398d2deb689_17x31.png) 和 ![](https://img.kancloud.cn/99/ca/99ca1db217ecc34711addcbc6a025696_19x31.png) 的相似性得分, ![](https://img.kancloud.cn/ab/67/ab67ebe442169c0bddac99ca59d8d23b_28x37.png) 表示与 ![](https://img.kancloud.cn/07/40/0740edb420c2cc4fd3da7398d2deb689_17x31.png) 相关的节点集, ![](https://img.kancloud.cn/d6/e1/d6e1fb953b3b097b1afd6125e8819635_28x37.png) 表示不相关的节点集。 基于边距的排名损失定义为: ![](https://img.kancloud.cn/cb/c0/cbc0f71742464299898afd89b549c68c_420x51.png) (19) 其中 ![](https://img.kancloud.cn/84/b4/84b4ef9d60485e76b697fe833d824cce_13x31.png) 是边距。 减少损失排名,可以促进 ![](https://img.kancloud.cn/47/0d/470dfcb5364b655242ebc320ca13bdc7_63x37.png) 和 ![](https://img.kancloud.cn/60/a9/60a95fc1cff8c57a9fb31adaa0d5df31_63x37.png) 之间的巨大边距,从而保证 ![](https://img.kancloud.cn/07/40/0740edb420c2cc4fd3da7398d2deb689_17x31.png) 的嵌入更接近其相关节点而不是任何其他不相关节点。 在表 8 中 ,我们基于其目标函数和保留的节点邻近度,总结了基于边重建的现有图嵌入方法。 通常,大多数方法使用上述目标函数之一(公式 14,16~19)。 [71]优化 AUC 排名损失,这是基于边距的排名损失的替代损失(公式 19 )。 请注意,当在图嵌入期间同时优化另一个任务时,该任务特定的目标将被纳入总体目标中。 例如,[26]旨在对齐两个图。 因此,网络对齐的目标函数与 ![](https://img.kancloud.cn/63/d4/63d456bef2ad5aee0a5200a164e96dc4_41x41.png)(公式 18)一起优化。 值得注意的是,大多数现有知识图嵌入方法选择优化基于边距的排名损失。 回想一下知识图 ![](https://img.kancloud.cn/93/81/93813561d7c4a4c5407befea94a96eb0_15x30.png) 由三元组 ![](https://img.kancloud.cn/f4/fb/f4fbad8bac836529b9acbe99b5514876_74x30.png) 组成,表示头部实体 ![](https://img.kancloud.cn/4d/02/4d02d731fbc012f45588375ef38a6fe5_14x15.png) 通过关系 ![](https://img.kancloud.cn/6b/28/6b2823984fcc41cb05e3436a8f946d06_12x17.png) 链接到尾部实体 ![](https://img.kancloud.cn/59/6d/596d1b97dea72e9c93ca706efbe4a66d_10x17.png)。 嵌入 ![](https://img.kancloud.cn/93/81/93813561d7c4a4c5407befea94a96eb0_15x30.png) 可以解释为,保留真正三元组的排名 ![](https://img.kancloud.cn/f4/fb/f4fbad8bac836529b9acbe99b5514876_74x30.png) ,优于 ![](https://img.kancloud.cn/93/81/93813561d7c4a4c5407befea94a96eb0_15x30.png) 中不存在的假的三元组 ![](https://img.kancloud.cn/85/55/85557367d8ab3acf919f63cc33602ae2_83x32.png)。 特别是在知识图嵌入中,类似于公式 19 的 ![](https://img.kancloud.cn/47/0d/470dfcb5364b655242ebc320ca13bdc7_63x37.png),能量函数 ![](https://img.kancloud.cn/75/ce/75ce8c1596c9fa927802ca5583dd3da9_54x32.png) 为三元组 ![](https://img.kancloud.cn/f4/fb/f4fbad8bac836529b9acbe99b5514876_74x30.png) 而设计。 这两个函数之间略有不同。![](https://img.kancloud.cn/47/0d/470dfcb5364b655242ebc320ca13bdc7_63x37.png) 表示节点嵌入 ![](https://img.kancloud.cn/07/40/0740edb420c2cc4fd3da7398d2deb689_17x31.png) 和 ![](https://img.kancloud.cn/ac/30/ac3090483a579daa9ef0171aed562aaa_23x37.png) 之间的相似性得分,而 ![](https://img.kancloud.cn/75/ce/75ce8c1596c9fa927802ca5583dd3da9_54x32.png) 是嵌入 ![](https://img.kancloud.cn/4d/02/4d02d731fbc012f45588375ef38a6fe5_14x15.png) 和 ![](https://img.kancloud.cn/59/6d/596d1b97dea72e9c93ca706efbe4a66d_10x17.png) 在关系 ![](https://img.kancloud.cn/6b/28/6b2823984fcc41cb05e3436a8f946d06_12x17.png) 方面的距离得分。![](https://img.kancloud.cn/75/ce/75ce8c1596c9fa927802ca5583dd3da9_54x32.png) 的一个例子是 ![](https://img.kancloud.cn/d0/30/d030229602b446ad34ce4d19dc1a217e_93x32.png),其中关系表示为嵌入空间中的变换 [91]。![](https://img.kancloud.cn/75/ce/75ce8c1596c9fa927802ca5583dd3da9_54x32.png) 的其他选项总结在表 9 中。 因此,对于知识图嵌入,公式 19 变为: ![](https://img.kancloud.cn/33/51/3351a96a94b347a9a6d4cc906889a114_390x69.png) (20) 其中 ![](https://img.kancloud.cn/53/b8/53b8bc31110f63d0a87ba1f675d0fbd3_15x15.png) 是输入知识图中的三元组。 现有的知识图嵌入方法主要是在他们的工作中优化公式 20。它们之间的区别在于 ![](https://img.kancloud.cn/75/ce/75ce8c1596c9fa927802ca5583dd3da9_54x32.png) 的定义,如表 9 所示。 知识图嵌入相关工作的更多细节,已在 [13] 中进行了详细的回顾。 **表9:**使用基于边距的排名损失的知识图嵌入。 | GE算法 | 能量函数 ![](https://img.kancloud.cn/1f/51/1f51a72f3a6032fa296781b933200599_53x32.png) | | --- | --- | | TransE [91] | ![](https://img.kancloud.cn/d0/30/d030229602b446ad34ce4d19dc1a217e_93x32.png) | | TKRL [53] | ![](https://img.kancloud.cn/be/d0/bed09c9229f4b70776b28652b6fcd671_139x32.png) | | TransR [15] | ![](https://img.kancloud.cn/02/90/02905b798cc097afce7d89ce9a8941a1_134x34.png) | | CTransR [15] | ![](https://img.kancloud.cn/5d/e6/5de643fc2b88aad7416c820da75b8000_233x34.png) | | TransH [14] | ![](https://img.kancloud.cn/fd/1d/fd1d0b52841c30ddb65eb29a412530df_256x35.png) | | SePLi [39] | ![](https://img.kancloud.cn/c5/a9/c5a98f9bb10c0527e625a9795eb24bcf_147x35.png) | | TransD [125] | ![](https://img.kancloud.cn/a6/dd/a6dd82b60d5347951dbf7cc1be547935_146x34.png) | | TranSparse [126] | ![](https://img.kancloud.cn/6c/03/6c0328ab8a9a633e3936d4da500b53b5_209x35.png) | | m-TransH [127] | ![](https://img.kancloud.cn/0d/1b/0d1b7736cdbe0ed78ed1895d610b8aef_325x36.png) | | DKRL [128] | ![](https://img.kancloud.cn/98/b1/98b1672c313a6fe27627d774f73c2135_319x32.png) | | ManifoldE [129] | 球面: ![](https://img.kancloud.cn/4a/58/4a586014c28545d120a7916f136283a4_157x34.png) | | | 超平面: ![](https://img.kancloud.cn/9b/9f/9b9f523b30f37709faab27a21735ca88_247x35.png) | | | ![](https://img.kancloud.cn/6b/10/6b10584a2706314d0e769a301c1e90ed_15x31.png) 是希尔伯特空间的映射函数 | | TransA [130] | ![](https://img.kancloud.cn/27/90/27905bd786b95118531a0fda1b01bbec_82x32.png) | | puTransE [43] | ![](https://img.kancloud.cn/27/90/27905bd786b95118531a0fda1b01bbec_82x32.png) | | KGE-LDA [60] | ![](https://img.kancloud.cn/d0/30/d030229602b446ad34ce4d19dc1a217e_93x32.png) | | SE [90] | ![](https://img.kancloud.cn/97/3e/973e99789a092ada10f5559638a7649e_107x32.png) | | SME [92]线性 | ![](https://img.kancloud.cn/9e/96/9e96973c6ff1edd4fd6102ab81322824_294x35.png) | | SME [92]双线性 | ![](https://img.kancloud.cn/9e/96/9e96973c6ff1edd4fd6102ab81322824_294x35.png) | | SSP [59] | ![](https://img.kancloud.cn/4c/e0/4ce00f7a5cb0436d8a080d2b006c5f40_158x35.png),![](https://img.kancloud.cn/a8/e6/a8e6d09ab1ad0d1c809968a7912e92f1_142x35.png) | | NTN [131] | ![](https://img.kancloud.cn/97/ce/97ce717792232e673126618afa596f02_261x35.png) | | HOLE [132] | ![](https://img.kancloud.cn/50/57/5057710fbfcd6a366a1ad3f2dfb1dcc9_64x35.png) ,其中 ![](https://img.kancloud.cn/92/a6/92a6f324cb83fb9e01c532d51db5a2fc_12x17.png) 是环形相关度 | | MTransE [133] | ![](https://img.kancloud.cn/d0/30/d030229602b446ad34ce4d19dc1a217e_93x32.png) | 请注意,一些研究联合优化排名损失(公式式20 )和其他目标来保留更多信息。 例如,SSP [59]使用公式 20 联合优化了主题模型的丢失,将文本节点描述用于嵌入。 [133]对单语关系进行分类,并使用线性变换来学习实体和关系的跨语言对齐。 还存在一些工作,为三元组 ![](https://img.kancloud.cn/f4/fb/f4fbad8bac836529b9acbe99b5514876_74x30.png) 定义匹配度分数而不是能量函数。 例如,[134]定义了双线性分数函数 ![](https://img.kancloud.cn/ad/bb/adbb437292ab21f09b76afe50d1b0f64_58x35.png) 它增加了常态约束和交换约束,在嵌入之间加入类比结构。 ComplEx [135]将嵌入扩展到复数域并将 ![](https://img.kancloud.cn/ad/bb/adbb437292ab21f09b76afe50d1b0f64_58x35.png) 的实部定义为得分。 总结:基于边重建的优化适用于大多数图嵌入设定。 据我们所知,只有非关系数据(第 3.1.4 节)和整图嵌入(第 3.2.4 节)尚未尝试过。 原因是重建手动构造的边不像其他图那样直观。 此外,由于该技术侧重于直接观察到的局部边,因此不适合于整图嵌入。 ## 图核 见解: 整个图结构可以表示为一个向量,包含从中分解的基本子结构的数量。 图核是 R-convolution 核的一个实例[136],它是定义离散复合对象上的核的通用方法,通过递归地将结构化对象分解为“原子”子结构,并比较它们的所有对[93]。 图核将每个图示为向量,并且使用两个向量的内积来比较两个图。 图核中通常定义了三种类型的“原子”子结构。 Graphlet。graphlet 是一个大小为 K 的感应的和非同构子图 [93]。 假设图 ![](https://img.kancloud.cn/93/81/93813561d7c4a4c5407befea94a96eb0_15x30.png) 被分解为一组 graphlet ![](https://img.kancloud.cn/56/69/5669143146e841d8f5bbd30e2ba388ca_125x32.png)。然后 ![](https://img.kancloud.cn/93/81/93813561d7c4a4c5407befea94a96eb0_15x30.png) 嵌入为标准化计数的`d`维向量(表示为 ![](https://img.kancloud.cn/cd/22/cd22bc9442ee0a6261491573f66d8d3a_21x31.png))。 该 ![](https://img.kancloud.cn/4e/a2/4ea21ae287e2c9238a3fde1912e6e391_10x17.png) 的维度 ![](https://img.kancloud.cn/cd/22/cd22bc9442ee0a6261491573f66d8d3a_21x31.png) 是 ![](https://img.kancloud.cn/93/81/93813561d7c4a4c5407befea94a96eb0_15x30.png) 中 Graphlet ![](https://img.kancloud.cn/63/38/6338e60eb3be79159234f505112229ae_22x30.png) 的出现频率。 子树模式。 在此核中,图被分解为其子树模式。 一个例子是 Weisfeiler-Lehman 子树[49]。 特别是,在标记图(即,具有离散节点标签的图)上进行重新标记的迭代过程。 在每次迭代中,基于节点及其邻居的标签生成多集标签。 新生成的多集标签是一个压缩标签,表示子树模式,然后用于下一次迭代。 基于图同构的 Weisfeiler-Lehman 检验,计算图中标签的出现等同于计算相应的子树结构。 假设 ![](https://img.kancloud.cn/4d/02/4d02d731fbc012f45588375ef38a6fe5_14x15.png) 在图上执行重新标记的迭代 ![](https://img.kancloud.cn/93/81/93813561d7c4a4c5407befea94a96eb0_15x30.png) 。 它的嵌入 ![](https://img.kancloud.cn/cd/22/cd22bc9442ee0a6261491573f66d8d3a_21x31.png) 包含 ![](https://img.kancloud.cn/4d/02/4d02d731fbc012f45588375ef38a6fe5_14x15.png) 块。 该 ![](https://img.kancloud.cn/4e/a2/4ea21ae287e2c9238a3fde1912e6e391_10x17.png) 中的维度 ![](https://img.kancloud.cn/1a/4b/1a4b638c70c7b3cac13db476a488223e_12x31.png) 第一块 ![](https://img.kancloud.cn/cd/22/cd22bc9442ee0a6261491573f66d8d3a_21x31.png) 是频率 ![](https://img.kancloud.cn/4e/a2/4ea21ae287e2c9238a3fde1912e6e391_10x17.png) -th标签被分配给一个节点 ![](https://img.kancloud.cn/1a/4b/1a4b638c70c7b3cac13db476a488223e_12x31.png) 第二次迭代。 随机游走 。 在第三种类型的图核中,图被分解为随机游走或路径,并表示为随机游走的出现次数[137]或其中的路径[138]。 以路径为例,假设图 ![](https://img.kancloud.cn/93/81/93813561d7c4a4c5407befea94a96eb0_15x30.png) 被分解成 ![](https://img.kancloud.cn/a9/5a/a95a6b70fecd0e89d85d2fb1e3942ce7_13x15.png) 个最短路径。将第`i`个路径表示为三元组 ![](https://img.kancloud.cn/5a/32/5a32936da1e5c06a08ded9acfabf49b3_91x30.png),其中 ![](https://img.kancloud.cn/fb/e9/fbe914e3aed448b4ae9773095e161035_16x30.png) 和 ![](https://img.kancloud.cn/72/ac/72ac07ed01b746a1019c0ec3c340960c_16x30.png) 是起始节点和结束节点的标签, ![](https://img.kancloud.cn/45/fd/45fd1eb5b26859b51b17a24992954e61_19x31.png) 是路径的长度。 然后 ![](https://img.kancloud.cn/93/81/93813561d7c4a4c5407befea94a96eb0_15x30.png) 表示为`d`维向量 ![](https://img.kancloud.cn/cd/22/cd22bc9442ee0a6261491573f66d8d3a_21x31.png),其中第`i`个维度是 ![](https://img.kancloud.cn/93/81/93813561d7c4a4c5407befea94a96eb0_15x30.png) 中第`i`个三元组的频率。 简介:图核专为整图嵌入(Sec.3.2.4)而设计,因为它捕获整个图的全局属性。 输入图的类型通常是同构图(第 3.1.1 节)[93]或带有辅助信息的图(第 3.1.3 节)[49]。 ## 生成模型 生成模型可以通过规定输入特征和类标签的联合分布来定义,以一组参数为条件[139]。 一个例子是 Latent Dirichlet Allocation(LDA),其中文档被解释为主题上的分布,主题是单词上的分布[140]。 采用生成模型进行图嵌入有以下两种方法。 ### 潜在语义空间中的图嵌入 见解: 节点嵌入到潜在的语义空间中,节点之间的距离解释了观察到的图结构。 第一种基于生成模型的图嵌入方法,直接在潜在空间中嵌入图。 每个节点表示为潜在变量的向量。 换句话说,它将观察到的图视为由模型生成的。 例如,在LDA中,文档嵌入在“主题”空间中,其中具有相似单词的文档具有类似的主题向量表示。 [70]设计了类似LDA的模型来嵌入基于位置的社交网络(LBSN)图。 具体来说,输入是位置(文档),每个位置包含访问该位置的一组用户(单词)。 由于某些活动(主题),用户访问相同的位置(单词出现在同一文档中)。 然后,模型被设计为将位置表示为活动的分布,其中每个活动具有对用户的吸引力分布。 因此,用户和位置都表示为“活动”空间中的向量。 ### 包含潜在语义的图嵌入 见解: 图中接近且具有相似语义的节点的嵌入应该更紧密。 可以通过生成模型,从节点描述中检测节点语义。 在这一系列方法中,潜在语义用于利用辅助节点信息进行图嵌入。 嵌入不仅由图结构信息决定,而且由从其他节点信息源发现的潜在语义决定。 例如,[58]提出了一个统一的框架,它共同集成了主题建模和图嵌入。 其原理是如果嵌入空间中两个节点接近,它们也具有相似的主题分布。 设计从嵌入空间到主题语义空间的映射函数,以便关联两个空间。 [141]提出了一种生成模型(贝叶斯非参数无限混合嵌入模型),以解决知识图嵌入中的多关系语义问题。 它发现了关系的潜在语义,并利用混合关系组件进行嵌入。 [59]从知识图三元组和实体和关系的文本描述中嵌入知识图。 它使用主题建模来学习文本的语义表示,并将三元组嵌入限制在语义子空间中。 上述两种方法的区别在于嵌入空间是第一种方式的潜在空间。相反,在第二种方式中,潜在空间用于整合来自不同来源的信息,并有助于将图嵌入到另一个空间。 简介:生成模型可用于节点嵌入(Sec.3.2.1)[70]和边嵌入(Sec.3.2.2)[141]。 在考虑节点语义时,输入图通常是异构图(第 3.1.2 节)[70]或带有辅助信息的图(第 3.1.3 节)[59]。 ## 混合技术和其它 有时在一项研究中结合了多种技术。 例如,[4]通过最小化基于边的排序损失来学习基于边的嵌入(第 4.3 节),并通过矩阵分解来学习基于属性的嵌入(第 4.1 节)。 [51]优化基于边距的排名损失(第 4.3 节),基于矩阵分解的损失(第 4.1 节)作为正则化项。 [32]使用LSTM(第 4.2节)来学习cQAs的句子的嵌入,以及基于边际的排名损失(第[4.3](#sec:ml)节)来结合好友关系。 [142]采用CBOW / SkipGram(第 4.2 节)进行知识图实体嵌入,然后通过最小化基于边际的排名损失来微调嵌入(第 4.3 节)。 [61]使用word2vec(第 4.2 节)嵌入文本上下文和TransH(第 4.3 节)嵌入实体/关系,以便在知识图嵌入中利用丰富的上下文信息。 [143]利用知识库中的异构信息来提高推荐效果。 它使用TransR(第 4.3 节)进行网络嵌入,并使用自编码器进行文本和视觉嵌入(第 4.2 节)。 最后,提出了一个生成框架(第 4.5 节),结合协同过滤与项目的语义表示。 除了引入的五类技术之外,还存在其他方法。 [95]提出了根据原型图距离的图的嵌入。 [16]首先使用成对最短路径距离嵌入一些标志性节点。 然后嵌入其他节点,使得它们到标志性子集的距离尽可能接近真实的最短路径。 [4]联合优化基于链接的损失(最大化节点的邻居而不是非邻居的观测似然)和基于属性的损失(基于基于链接的表示学习线性投影)。 KR-EAR [144]将知识图中的关系区分为基于属性和基于关系的关系。 它构造了一个关系三元编码器(TransE,TransR)来嵌入实体和关系之间的相关性,以及一个属性三元编码器来嵌入实体和属性之间的相关性。 Struct2vec [145]根据用于节点嵌入的分层指标,来考虑节点的结构性标识。 [146]通过近似高阶邻近矩阵提供快速嵌入方法。 ## 总结 我们现在总结并比较表10中所有五类图嵌入技术的优缺点。 **表10:**图嵌入技术的比较。 | 类别 | 子类别 | 优点 | 缺点 | | --- | --- | --- | --- | | 矩阵分解 | 图拉普拉斯算子 | 考虑全局节点邻近度 | 大量的时间和空间开销 | | | 节点邻近矩阵分解 | | | 深度学习 | 带有随机游走 | 有效而强大, | a)仅考虑路径中的局部上下文 | | | | b)难以发现最优采样策略 | | | 没有随机游走 | | 高计算开销 | | 边重构 | 最大化边重建概率 | | 仅使用观察到的局部信息来优化 | | | 最小化基于距离的损失 | 相对有效的的训练 | 例如边(一跳的邻居) | | | 最小化基于边距的排名损失 | | 或者排序节点对 | | 图核 | 基于graphlet | 有效,只计算所需的原子子结构 | a)子结构不是独立的 | | | 基于子树模式 | | b)嵌入维度指数性增长 | | | 基于随机游走 | | | 生成模型 | 在潜在的空间中嵌入图 | 可解释的嵌入 | a)难以证明分布的选择 | | | 将潜在语义合并到图嵌入中 | 自然地利用多个信息源 | b)需要大量训练数据 | 基于矩阵分解的图嵌入,基于全局成对相似性的统计量学习表示。 因此,它可以胜过某些任务中基于深度学习的图嵌入(涉及随机游走),因为后者依赖于单独的局部上下文窗口 [147,148]。 然而,邻近度矩阵构造或矩阵的特征分解时间和空间开销大[149],使得矩阵分解效率低且对于大图不可扩展。 深度学习(DL)已经在不同的图嵌入方法中显示出有希望的结果。 我们认为DL适合于图嵌入,因为它能够自动识别复杂图结构中的有用表示。 例如,具有随机游走的DL(例如,DeepWalk [17],node2vec [28],metapath2vec [46])可以通过图上的采样路径自动利用邻域结构。 没有随机游走的DL可以模拟同构图中可变大小的子图结构(例如,GCN [72],struc2vec [145],GraphSAGE [150]),或者异构图中类型灵活的节点之间的丰富交互(例如,HNE [33],TransE [91],ProxEmbed [44]),变为有用的表示。 另一方面,DL也有其局限性。 对于具有随机游走的DL,它通常观测同一路径中的节点的局部邻居,从而忽略全局结构信息。 此外,很难找到“最优采样策略”,因为嵌入和路径采样不是在统一框架中联合优化的。 对于没有随机游走的DL,计算成本通常很高。 传统的深度学习架构假设输入数据在1D或2D网格上,来利用GPU [117]。 然而,图没有这样的网格结构,因此需要不同的解决方案来提高效率[117]。 基于边重建的图嵌入,基于观察到的边或排序三元组来优化目标函数。 与前两类图嵌入相比,它更有效。 然而,使用直接观察到的局部信息来训练这一系列方法,因此所获得的嵌入缺乏对全局图结构的认识。 基于图核的图嵌入将图转换为单个向量,以便于图级别的分析任务,例如图分类。 它比其他类别的技术更有效,因为它只需要在图中枚举所需的原子子结构。 然而,这种“基于结构袋”的方法有两个局限[93]。 首先,子结构不是独立的。 例如,大小为`k+1`的 graphlet 可以从大小为`k` graphlet 的派生,通过添加新节点和一些边。 这意味着图表示中存在冗余信息。 其次,当子结构的大小增加时,嵌入维度通常呈指数增长,导致嵌入中的稀疏问题。 基于生成模型的图嵌入可以自然地在统一模型中利用来自不同源(例如,图结构,节点属性)的信息。 直接将图嵌入到潜在语义空间中,会生成可以使用语义解释的嵌入。 但是使用某些分布对观察进行建模的假设很难证明是正确的。 此外,生成方法需要大量的训练数据来估计适合数据的适当模型。 因此,它可能不适用于小图或少量图。