融合时空注意力和异构图卷积网络的信息扩散预测方法

发布时间：2025-05-16 15:21

1.本发明涉及信息传播领域，尤其涉及一种融合时空注意力和异构图卷积网络的信息扩散预测方法。

背景技术：

2.社交网络如今成为人们日常生活中不可或缺的一部分，它的出现使人们之间的交流更加方便，人们可以更容易的发布或传递某些信息。无线通信技术和互联网的飞速发展以及通信设备的便捷化和智能化极大的促进信息传播与信息交互变得更加快速、便捷。在线社交网络预测传播在实际应用中发挥着举足轻重的作用，有效的根据现实情况预测未来趋势来采取行动，阻止了虚假信息的传播并有效的进行相关工作的实施。
3.信息预测即是研究信息在人们之间是如何传播的，并据此判断接下来信息的发展趋势，人们根据发展趋势采取一定措施促进传播或抑制，在最短的时间内实现最好的预测是信息预测达到的最理想的状态。信息扩散预测是一项重要而具有挑战性的任务，它旨在预测信息级联的未来属性或行为，例如预测传播范围大小或预测下一个受感染的用户。目前信息扩散预测研究的应用也很普遍，包括流行病学、病毒式营销、媒体广告和新闻的传播。对信息预测分析建模，不仅有利于发现社交网络中传播的特点和演变规律，而且有利于了解社交网络或病毒式营销中信息传播的演化趋势，从而达到对信息进行有效干预和实时控制。
4.对于信息扩散预测的研究，一些学者主要利用用户之间的社交关系网络，即社会影响力，进行信息扩散预测，还有一些学者主要利用用户以往的扩散行为学习用户表示，提出一些有关扩散路径的模型进行预测。从用户的扩散行为图中可以看出该用户最近的感兴趣话题以及关注对象，人们往往对自己感兴趣的事情有更大的转发可能，通过分析用户扩散行为可以分析该用户是否对该类信息感兴趣，从而大大提高预测该信息预测的准确率。以往的扩散行为路径可以反映出一定时间内消息的传播路径趋势，因此这些模型在一定程度上能够很好的预测出用户扩散序列，根据扩散序列追溯，大大提高信息扩散传播的准确率，了解信息的传播趋势之后才能更好的决定对信息进行传播或抑制。
5.除了根据用户以往的扩散行为进行信息的扩散预测以外，一些学者也利用用户的影响力来进行信息预测。根据用户同质性，一般情况下，相似的个体更容易有相同的兴趣爱好，同样的情况下更容易采取相似的行为。根据“物以类聚，人以群分”的原理，相同领域的研究者更容易建立社交关系，参加相同的学术报告或会议等，同理他们有更大的可能性成为朋友。根据用户的影响力，社会关系会影响个体特征，根据影响力的不同，影响范围也不一样，从而预测到的信息传播序列也不同，得到的信息传播趋势也不尽相同，根据这个假设，许多研究利用用户间的社交网络学习用户之间的同质性和影响力，来提高预测性能。除此之外，时间对信息的扩散也有影响，发生在最近的信息往往使人们记忆深刻，发生在时间久远的信息可能会使人们忽略，比如处于热搜的信息则更容易使人们关注或转发，过了这个时间段，热搜则会慢慢的淡出人们的视线，那么多年之后该消息可能会销声匿迹，到那时
该消息的影响力则是微乎及微的。信息是具有时效性的，因此在考虑信息预测时，时间对提高信息传播预测准确率也很重要。
6.以往的大多数研究人员关注传统的关系模型，早期的研究工作假设在信息扩散过程中存在一个先验的扩散模型，如独立级联模型或线性阈值模型。虽然这些模型能够很好的拟合了用户之间的影响关系，但是不可避免的引入了噪声、部分关系特征，而且这些关系通常不能够学习复杂的、深度的关系特征。现实生活中的用户的社交网络都涉及实例之间复杂的依赖关系，这些方法的有效性依赖于先验信息扩散模型的假设，但是这些假设在实践中是很难去验证的，使得信息预测的准确性不高。

技术实现要素：

7.本发明旨在至少解决现有技术中存在的技术问题，特别创新地提出了一种融合时空注意力和异构图卷积网络的信息扩散预测方法。
8.为了实现本发明的上述目的，本发明提供了一种融合时空注意力和异构图卷积网络的信息扩散预测方法，包括以下步骤：
9.s1，利用多层图卷积网络学习行为图的最终用户表示或影响力图结构的最终用户表示；
10.s2，进行实时预测信息，将时间序列嵌入到异构图；
11.s3，用多头注意力网络机制进行信息扩散预测；
12.s4，对步骤s3进行优化。
13.s5，将扩散预测的信息进行展示。
14.进一步地，所述s1中的学习的机制包括：
[0015][0016][0017]
其中，是第n+1层用户关注关系的用户表示；
[0018]
σ(
·
)为激活函数；
[0019]
f
a
表示影响力图中的关注关系的邻接矩阵；
[0020]
x
(n)
表示第n层的用户表示；
[0021]
是第n层用户关注关系的可学习参数；
[0022]
是第n+1层用户转发关系的用户表示；
[0023]
表示t
i
时刻的转发关系的邻接矩阵；
[0024]
t
i
是用户异构网络的时间间隔；
[0025]
是第n层用户转发关系的可学习参数。
[0026]
进一步地，所述s1中的用户表示融合包括：
[0027]
s
‑
a，计算节点v
i
影响力中的关注关系和行为图中的转发关系之间的权重大小；
[0028]
s
‑
b，采用注意力网络进行节点的特征学习，将得到的权重矩阵和用户关系表示进
行哈达玛积得到最后的用户表示。
[0029]
进一步地，所述s2中的时间序列嵌入的方法包括：
[0030]
近似策略或注意力机制策略；
[0031]
所述注意力机制策略包括：
[0032]
t'＝mixtogether(t
i
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
[0033][0034][0035]
其中，t'为将时间间隔转化为时间嵌入后的结果表示；
[0036]
mixtogether(
·
)为将时间间隔嵌入的函数；
[0037]
α
i
为权重系数；
[0038]
softmax(
·
)为归一化函数；
[0039]
表示t
i
时刻的用户表示；
[0040]
k
i
是一个掩码矩阵；
[0041]
v'最终的用户表示；
[0042]
t表示一共有t个时刻。
[0043]
进一步地，所述s3中的信息扩散预测的公式为：
[0044][0045][0046]
其中，softmax(
·
)为归一化函数；
[0047]
v'表示扩散序列；
[0048]
·
t
表示矩阵的转置；
[0049]
d
r
＝d/g，d是用户嵌入表示的维度，g是多头注意力的头数；
[0050]
c
ij
是一个掩码矩阵；
[0051]
m表示最终预测的用户表示；
[0052]
表示对b
h
进行拼接，b
h
表示第h头注意力，b
h
∈[b1,b2,...,b
g
]；
[0053]
是可学习参数，表示d
×
d
r
维的实数；
[0054]
得到预测到的m之后，使用两层全连接神经网络计算信息扩散的概率为：
[0055]
p＝w'σ(w
″
m
t
+λ1)+λ2ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(11)
[0056]
其中，p表示信息扩散的概率；
[0057]
w'、w
″
是可学习参数，是可学习参数，表示|v|
×
d维的实数；d维的实数；表示d
×
d维的实数；
[0058]
d是用户嵌入表示的维度；
[0059]
|v|表示用户的个数；
[0060]
λ1是第一可学习参数，λ2是第二可学习参数，λ1、λ2均为常数；
[0061]
·
t
表示矩阵转置。
[0062]
进一步地，所述s4中进行优化的方法包括：
[0063][0064]
其中，n表示扩散时间间隔数；
[0065]
|v|表示用户个数；
[0066]
p
ik
表示v
i
和v
k
之间发生转发行为的概率，v
i
表示第i个用户，v
k
表示第k个用户；
[0067]
log(
·
)为对数函数；
[0068]
表示p
ik
的估计值；
[0069]
χ表示可学习的参数即模型中需要学习的所有参数；
[0070]
优化器计算公式如下所示：
[0071][0072][0073]
θ
t+1
＝θ
t
+δx
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(16)
[0074]
其中，l
t
表示梯度h(t)的二阶矩；
[0075]
β2表示引入的二阶矩衰减参数，是一个常数；
[0076]
表示将参数β2带入l无穷范式的结果；
[0077]
v
t
‑2表示前t
‑
2时刻的梯度平方累加和；
[0078]
h(t)是t时刻的参数梯度；
[0079]
|h(t)|
∞
表示将参数|h(t)|带入l无穷范式的结果；
[0080]
ε为滑项参数；
[0081]
η表示梯度h(t)的一阶矩的偏正矫正；
[0082]
θ
t+1
表示t+1时刻的优化结果即最终的优化结果；
[0083]
θ
t
表示t时刻的优化结果。
[0084]
进一步地，还包括步骤s5，将扩散预测的信息进行展示。为防止虚假信息的继续蔓延，针对虚假信息向用户发出提示。
[0085]
综上所述，由于采用了上述技术方案，本发明的有益效果是：
[0086]
(1)利用gcn对异构网络中的用户关注关系和转发关系的结构特征进行学习，为了有效利用注意力机制将学习到的用户表示融合起来，提出了一种新的社交网络用户表示融合的方法。
[0087]
(2)为了提高对用户上下文编码、学习以及捕获上下文依赖信息的效率，提出了带有maskattention的多头注意力机制。
[0088]
(3)为了有效提高信息扩散预测精度，构建了一种基于时空注意力机制异构图卷
积网络 asthgcn模型。提出的asthgcn模型利用注意力机制和图卷积神经网络，融合了时间因素、影响力和扩散行为等空间因素的影响。
[0089]
本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。
附图说明
[0090]
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：
[0091]
图1是信息扩散过程示意图。
[0092]
图2是本发明提出的asthgcn模型框架图。
[0093]
图3是本发明t
i
时刻用户的矩阵存储示意图。
[0094]
图4是本发明信息扩散过程示意图。
[0095]
图5是本发明图卷积学习用户关注关系示意图。
[0096]
图6是本发明在douban、memetracker、twitter数据集上msle指标示意图。
[0097]
图7是本发明在异构图、行为关系、社交网络、时间注意力机制、启发式融合机制等模块的消融实验示意图。
[0098]
图8是本发明在不同时间间隔数的asthgcn模型性能指标对比分析示意图。
[0099]
图9是本发明在不同头数的asthgcn模型性能指标对比分析示意图。
[0100]
图10是本发明不同维度性能指标对比分析示意图。
具体实施方式
[0101]
下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。
[0102]
1相关工作
[0103]
已有的社交网络信息扩散预测的研究工作目前有两种方法。一种是基于对用户行为的研究进而对信息预测，另一种是基于用户的影响力关系进行研究。
[0104]
1.1基于用户行为的方法
[0105]
基于用户行为的方法是根据给定用户的行为扩散序列来学习用户人际关系，从而进行信息传播预测。用户行为在一定程度上反映了用户行为对信息的感兴趣程度以及信息的传播趋势，通常用用户的发布行为，用户的关注行为，用户的转发行为进行量化。以往的研究者经常采用建立在先验模型上的传统模型，例如独立级联模型和线性阈值模型。在传统关系模型研究中，传统的传播模型更加适于均匀网络而无法有效应用于现实(非均匀无标度)社交网络中，因为它不能够学习复杂的深度的关系特征。虽然这些模型也可以拟合用户之间的关系，但是引入了一些噪音、部分关系特征，现实社交扩散网络是错综复杂的，这些方法的有效性取决于信息扩散模型的假设，其假设的真实性和有效性不易验证。需要预先为传统模型传入足够参数，例如必须预先为ic模型指定网络中每个链路的扩散概率，而现实中任何真实网络上通过链路的扩散概率都无法事先知道的，因此具有一定局限性。
[0106]
近年来，随着深度学习技术在计算机视觉等领域应用越来越娴熟。一些研究采用
深度学习从以往的用户扩散行为预测。例如deepcas第一次提出通过随机游走将级联图转为节点序列，以端到端的形式提供学习级联图表示的算法进行预测。deephawkes忽略级联图中的结构信息，将级联图转换成描述用户之间信息传播过程的扩散路径，利用端到端的深度学习的预测力对信息级联信息预测。topo
‑
lstm扩展了原有的lstm模型，考虑扩散时间和其复杂结构的扩散过程，以动态有向无环图dag作为输入，并为dag中每个节点生成拓扑感知嵌入作为输出来学习信息扩散序列的链式结构。cyan
‑
rnn和deepdiffuse将时间戳考虑在内，进行信息的传播预测，cyan
‑
rnn 将链式结构对应一个扩散树，并提出一种基于注意力的rnn模型在级联中捕获交叉依赖进行信息预测。还有一些基于注意机制的模型，如dan、hi
‑
dan、ndm。用户的扩散行为不仅有利于学习其社交关系，而且有利于了解用户对该消息的感兴趣程度，进而决定其是否对类似消息进行关注或转发等操作，因此这些模型能够很好的预测出用户扩散序列，预测信息的传播趋势。
[0107]
现有基于用户行为的方法都将该问题归结为一个序列预测任务，根据已有的用户扩散行为序列，探索时间序列如何影响未来的信息扩散。但是用户之间的社交关系及其影响力也是影响信息扩散的很大的影响因素，因此，不考虑用户影响力的方法的准确率有所欠缺，不能够准确的判断出信息的扩散趋势。
[0108]
1.2基于用户影响力的模型
[0109]
基于用户影响力模型是通过信息传播的特征确定该模型的影响概率参数进行对信息扩散预测。根据用户同质性，相似的个体更容易有相同的兴趣爱好，对相似的信息更倾向于采取相似的行动。在社交网络模型中，不同个体之间的社交影响力是不同的，例如抖音大v和微博大v、普通用户、著名的明星的影响力，每个个体之间的影响力不同，产生的信息预测序列也就不同，一般知名度越高，影响力越大，其信息扩散概率就大，更有利于信息的扩散。因此根据用户影响力进行信息预测是有依据的。现有一些研究是基于用户影响力的信息预测方法，例如，coupledgnn使用两个耦合图神经网络捕捉节点之间的相互作用，利用信息发起者和社交网络关系来预测信息传播。 hdgnn扩展异构gnns结合时间演化的特性，结合节点之间的复杂关系对信息进行动态预测。 dyhgcn提出一种异构图卷积网络来考虑社交网络和扩散路径网络进行信息预测。hdd利用元路径表示学习方法对异构网络进行编码进行信息扩散，chen等人在一种在端到端的深度学习框架下提出cascn的半监督方法，该方法结合级联的方向性和时间衰减效应，避免复杂的特征，只学习结构特征和时序特征来预测信息扩散，使预测性能得到进一步提高，作者将其推广到其他场景应用。
[0110]
日常生活中，基于用户影响力的研究工作是非常有必要的，现实生活中商家为了使商品更好的宣传，赚取更高的收益，往往会邀请有影响力的明星进行代言，其影响力可以使他的粉丝看到该商品，当商品的曝光率达到一定量，销量也会上升，即经过该明星推荐的商品的传播概率越大，商家就会得到越多的利益。但是这种只考虑用户的影响力，不考虑用户行为或信息的时效性的因素，不能捕捉到全局关系，不能很好地模拟扩散序列的复杂性，信息预测的准确率也会下降。
[0111]
2初步介绍
[0112]
本节主要将扩散问题形象化，提出一种基于时空注意力异构图卷积网络模型进行信息传播预测。首先，该模型采用多层图卷积神经网络学习用户的扩散行为和影响力结构图，然后将其结果融合起来作为用户表示，并将时间序列嵌入到该异构图中，最后提出用多
头注意力机制进行信息传播预测。
[0113]
给定一个用户集(节点集)v＝{v1,v2,v3,...v
n
}和一个信息集m＝{m1,m2,m3,...m
k
}，这里n 指用户的个数，k表示信息的个数，假设信息m
k
在节点v之间传播。本发明专利将每条信息看作一个文件，信息m
k
在用户之间的传播可以看做节点不断被激活的过程。信息的扩散过程可以记录为其中表示用户v3在时刻转发或发布了信息m
k
，表示用户在时刻转发或发布了信息m
k
，n
m
表示消息m
k
的级联数，亦扩散序列的最大长度。表示某用户转发信息d
k
的时刻是t
c
，转发集是个元组，表示用户v
c
在时刻转发或发布了信息m
k
，其中表示用户v
c
转发信息m
k
，v
c
表示第c个用户。为了将时间序列考虑在信息预测之中，假设某个节点只能被激活一次，信息扩散过程如图1所示。
[0114]
图1中，左侧是信息m1,m2,m3的传播过程，消息m1的传播过程可以表示为即用户v1在时刻转发信息m1，用户v2在时刻转发信息m1，用户 v3在时刻转发信息m1。图1右侧上方是用户的社交关系影响力图，下方是用户扩散行为图，根据已有的行为图和影响力图预测某一个用户的行为或某条信息的传播趋势。黑色实线表示当t时刻时用户的行为图，红色虚线描述的是用户v5在t时刻信息的基础上，t'时刻可能发生的转发行为和可能感染的用户节点。
[0115]
信息扩散预测是根据第t时刻的扩散情况，结合其他因素对t+1时刻的信息扩散情况进行预测。本发明专利是根据已知t时刻信息在用户之间的传播行为图和用户的社交关系影响力图分布情况，对t+1时刻用户的行为进行预测，判断其将信息会沿着某条路径在何时转发给哪些用户等内容。
[0116]
正如上图1所示，信息扩散过程中传递了很多信息，比如用户何时转发信息，转发了哪条信息等一系列问题。本发明专利中认真分析信息传播的因素，主要结合用户的影响力和用户扩散行为以及时间因素进行考虑，来进行信息预测问题的研究。在图1右侧中，影响力图和行为图均为信息传播提供依据，例如，假设t时刻时用户v5接收到信息，那么t+1时刻信息会传播到哪里呢？从图中可知没有用户从v5转发信息，所以所有用户成为下一个被激活的用户的可能性相同，但是从影响力图中可以得知，v2，v6对v5有关注行为，又因为每个节点只有一次激活机会，因此信息下一时刻有更大的可能传播到v2，v6，使其成为下一个被激活的节点。又因为v3转发了两次v2的信息，从影响力图中得知v3关注v6，所以信息也有可能经过v2或v6传播到v3。因此综合考虑影响力跟用户扩散行为可以使用户可能扩散路径考虑全面，大大提高了信息预测的准确率。
[0117]
3提出的模型
[0118]
s1，构建具有转发关系和关注关系的异构网络，使用gcn建模用户的行为图和影响力图得到更好的用户结构学习，并将学习到的用户表示用注意力机制进行融合。
[0119]
s2，利用时间注意力机制等方法将时间嵌入到异构网络中，获得更准确的用户表示。
[0120]
s3，最后采用具有mask attention的多头注意力机制学习上下文信息进而实现对
信息扩散预测，同时解决了当前扩散路径的上下文依赖问题。
[0121]
3.1模型架构
[0122]
本发明专利使用基于深度学习用于信息预测的asthgcn框架如图2所示。该框架主要分三个部分结合用户的影响力图、行为图以及时间因素对信息进行实时预测。首先，将利用多层图卷积网络学习行为图和影响力图结构的最终用户表示融合起来，其次为了进行实时预测信息，将时间序列嵌入到异构图，使用户表示更加全面完整，最后采用多头注意力网络机制进行信息预测并解决上下文依赖问题。
[0123]
3.2学习用户表示
[0124]
俗话说“物以类聚，人以群分”，具有同质性的人往往具有相似的兴趣，如果说某个微博大 v或者某个著名明星转发了一个微博，那么他的粉丝将有极大的可能性去转发这条微博，由此可知，一个人的影响力将十分有利于预测用户是否转发或发布此信息。除此之外，如果一个用户曾经转发过类似的信息，说明其对此类内容或该用户感兴趣，在接下来的时间里也有可能对该类信息或该用户进行转发或发布，因此用户以往的转发或发布行为也有利于信息的预测。因此本发明专利结合用户的影响力关系以及行为关系学习用户的表示，以便达到对信息进行准确的实时预测。
[0125]
本发明专利采用的网络是异构网络，如图1所示该网络具有一种节点(用户)和两种类型的关系(关注关系和转发关系)。在某一时刻t
i
,i∈[1,n]时，用邻接矩阵表示异构图各种信息，如图3所示，其中f
a
∈r
|v|
×
|v|
表示影响力图中的关注关系的邻接矩阵，表示t
i
时刻的转发关系的邻接矩阵，|v|表示用户的个数。本发明专利将用户之间的影响力关系储存为一个有向无权的影响力图，同时将每个时刻用户的转发情况存储为一个有向加权的行为图。为了更好的表示信息扩散的过程，本发明专利将每个时间间隔t
i
中用户的异构扩散图表示如图4所示。
[0126]
在构建信息结构之后，本发明专利采用多层图卷积神经网络对信息的影响力和扩散行为等空间因素进行结构学习，学习到用户结构特征，并将其融合到新的异构图中。对影响力和扩散行为的研究是在空间维度上的，不同用户之间的相互关系这种影响是比较复杂的，是潜移默化的，是影响信息预测准确率的一大因素，用户的影响力可以直接影响信息传播的广度，而用户的扩散行为根据扩散序列可以学习用户的社交关系，分析其影响力关系进行扩散，使消息得到尽可能转发或者推荐给影响力大的用户使其转发，从而使消息得到快速传播。如图5所示，本发明专利使用多层图卷积网络来自适应的捕捉用户之间的动态社交关系和转发关系，根据已有的社交关系情况，采用图卷积网络学习到更多用户的特征，得到更完整的用户结构表示。
[0127]
将影响力图中的关注关系和行为图中的转发关系分别采用多层图卷积网络学习用户结构表示，形成具有全部特征的新的关注关系和转发关系的用户结构表示，其学习机制如下。
[0128][0129]
[0130]
其中，x
(n)
表示第n层的用户表示，是可学习参数，是第n层用户关注关系的可学习参数，是第n层用户转发关系的可学习参数。t
i
∈r
d
是用户异构网络的时间间隔，d是用户嵌入表示的维度，n表示gcn的层数，是第n层用户关注关系的用户表示，是第n层用户转发关系的用户表示，x
(0)
∈r
|v|
×
d
是正态分布随机初始化的用户嵌入。σ(
·
)采用 relu激活函数，其效果相比其他的激活函数更好，它克服了梯度消失的问题，并且训练速度快。
[0131]
3.3用户表示融合机制
[0132]
从影响力图中得到关注关系和从行为图中得到转发关系在得到用户关注关系和转发关系这两个重要因素之后，接下来讨论如何融合这两种关系。以微博大v为例，大v转发的内容可以让更多的人看到，其影响力可以趋势更多的关注者关注或转发此事件。其次，信息如何使这些影响力大且会转发的大v看到呢？如果这名大v此前有转发过类似的文章、视频或关注此话题的用户，那么此刻再次看到则会有更大的可能性进行二次转发，因此关注关系和转发关系都是十分重要的。为了更好的融合这两种因素，产生更加准确的输出，本发明专利采用注意力与用户关系结合，对于节点v
i
首先计算其影响力中的关注关系和行为图中的转发关系之间的权重大小，采用注意力网络进行节点的特征学习，将得到的权重矩阵和用户关系表示进行哈达玛积得到最后的用户表示。
[0133]
e
ij
＝a(wh
i
||wh
j
),j∈x
t
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0134]
α
ij
＝softmax(e
ij
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
[0135][0136]
其中，a(
·
)表示将高维节点特征映射为实数，wh
i
||wh
j
表示对wh
i
和wh
j
进行拼接，h
i
、h
j
是用户关注关系和转发关系的特征矩阵，w是可学习参数，是一个常数；α
ij
表示关注关系和转发关系之间的注意力权重系数，softmax(
·
)为归一化函数，exp(
·
)为以自然常数e为底的指数函数， leakrelu(
·
)为泄露修正线性单元。其中，
⊙
为哈达玛积，表示t
i
时刻第n+1层的用户表示，α
ia
表示用户v
i
的关注关系权重大小，α
it
表示用户v
i
的转发关系权重大小；x
t
表示获取到的转发关系；是第n+1层用户关注关系的用户表示，是第n+1层用户转发关系的用户表示。从不同的异构动态图中学习用户表示的算法如下算法1所示。
[0137][0138]
在算法1中，先从影响力图和行为图中构建关注关系矩阵和转发关系矩阵f
a
和利用多层图卷积网络对关注关系和转发关系进行特征学习，运用注意力机制计算权重，将其融合成新的用户表示，将时间划分为若干时间间隔，接着将每个时间间隔学习到的新的用户表示用注意力机制将其融合到新的异构图中，得到所有时刻的用户表示。
[0139]
3.4时间嵌入策略
[0140]
融合影响力关系和行为关系得到用户表示之后，接下来要实时进行信息预测，就要将时间嵌入到信息中，本发明专利采取了两种不同的时间嵌入策略。其中行为关系即扩散行为。
[0141]
3.4.1近似策略
[0142]
近似策略是对于每一个处于扩散中的用户，其每个时间间隔内用户的行为关系图均不同，但是人们的关注点和兴趣不会瞬间改变，时间是持续连续的，因此预测某个时刻的扩散图时，直接指定最近的某个时刻(文中采用前一时刻)的扩散图作为用户最终的用户表示。例如，当预测 t∈[t7,t8)的信息传播时，可以根据t7时刻的信息传播预测t时刻信息传播趋势。
[0143]
3.4.2注意力机制策略
[0144]
近似策略只是指定某一时刻的用户表示作为最终的用户表示，并不能充分利用此段时间内用户行为对第t时刻进行更加准确的用户表示学习，因此本发明专利采用注意力机制从时间序列上所有时刻的用户表示来推测第t时刻的用户表示。图注意力机制的目的是将各个时间点的节点表示特征聚合到中心顶点上学习新的节点特征表达。
[0145]
从上述步骤中可知，给定一个用户v，可以得到多层图卷积网络学习到的用户所有时间间隔内某用户表示时间间隔内某用户表示表示第t
l
时刻的第i层图卷积得到
的用户表示；得到用户表示如果用户在某一时刻t
i
转发消息，转发消息的时间为 [t
i
,t
i+1
)，此时考虑前t
i
时刻之前用户的行为影响，设计了一种基于注意力机制的时间嵌入方法如下。
[0146]
t'＝mixtogether(t
i
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
[0147][0148][0149]
其中，t'为将时间间隔转化为时间嵌入后的结果表示，α
i
是公式7计算的权重系数，t表示一共有t个时刻。v'为最终的用户表示即时间嵌入后的用户表示；
[0150]
上式中是一个掩码矩阵，当t'＜t
i
时，即k
i
＝
‑
∞，表示softmax函数是个零权重，超过时间范围即关闭注意力。mixtogether函数是将时间间隔嵌入，该嵌入是正态分布初始化的。经过各时间嵌入权重与用户相乘便得到最终用户表示v'。最终进行时间嵌入的算法如下所示。
[0151][0152]
在算法2中，先用mixtogether函数将此刻之前的用户时间嵌入进去，生成每个时刻的用户嵌入权重，通过掩码矩阵k判断是此刻的用户嵌入是否有效，通过这样计算出的权重得到的用户表示更加切合用户转发时刻的状态，有利于信息下一步预测的进行。
[0153]
3.5信息传播预测
[0154]
获得用户节点表示后，为了更好的进行信息预测同时捕获上下文依赖信息，可以将获得的用户表示构建为一个扩散序列v
′
＝{v1',v'2,...,v'
n
}，注意力网络使用一个共享参数的线性映射对节点进行增维，执行mask attention操作将得到的用户节点表示与注意力机制结合，其中mask attention 指注意力机制的运算只在符合条件的节点上运行，并非是对所有节点进行运算。信息预测的公式为：
[0155][0156]
[0157]
其中，．
t
表示矩阵的转置，m表示最终预测的用户表示，b表示一个矩阵。上式中矩阵c
ij
，是一个掩码矩阵，当i>j时，即c
ij
＝
‑
∞，表示softmax函数是个零权重，超过时间范围即关闭注意力，从而达到只对符合条件的节点进行运算，其中是可学习参数，d
r
＝d/g，g是多头注意力的头数。
[0158]
得到预测到的m之后，使用两层全连接神经网络计算信息扩散的概率为
[0159]
p＝w'σ(w
″
m
t
+λ1)+λ2ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(11)
[0160]
上式中，表示信息扩散的概率，w'、w
″
是可学习参数，λ1，λ2是可学习参数，均为常数；|v|表示用户的个数，d是用户嵌入表示的维度，σ(
·
)是激活函数，本发明专利采取的是relu激活函数。．
t
表示矩阵转置。
[0161]
本发明专利采用的损失函数是交叉熵损失函数作为目标函数，公式如下所示。
[0162][0163]
其中，|v|表示用户个数，p
ik
表示v
i
和v
k
之间发生转发行为的概率，表示p
ik
的估计值。当p
ik
＝0时，表示不发生信息扩散，当p
ik
＝1时，表示发声扩散行为，χ表示可学习的参数即模型中需要学习的所有参数，由adamax优化器更新，优化器计算公式如下所示。
[0164][0165]
l
t
＝max(β2*v
t
‑1,|h(t)|)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(14)
[0166][0167]
θ
t+1
＝θ
t
+δx
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(16)
[0168]
其中，l
t
表示优化器更新规则的系数，max(
·
，
·
)表示取两者中的最大值，β2表示引入的参数， l
t
的值通过公式(13)(14)均可求得，(14)是(13)的化简版，表示l无穷范式带入得h(t)是 t时刻的参数梯度，二阶动量v(t)是梯度平方累加和，上式中ε是为了上述分母为0的一个平滑项参数，β2∈[0.9,0.999]，ε＝10
‑9。θ
t+1
表示t+1时刻的优化结果即最终的优化结果。
[0169]
4实验与结果分析
[0170]
在本节中，主要介绍在实验中使用的数据集，先进的deepdiffuse基准模型，消融实验以及参数调优实验。这将作为与本发明专利提出的asthgcn模型进行作对比，进一步介绍了用于评估 asthgcn模型性能的评估指标。
[0171]
4.1实验准备
[0172]
本发明专利采用了douban、twitter、memetracker三个公共数据集。三个数据集的数量统计数据如下表1所示，表中user表示用户数量，link表示用户关注关系的数量，cascades表示用户转发序列的数量，avg.length表示信息转发序列的平均长度。
[0173]
表1数据集
[0174]
databasedoubantwittermemetrackeruser23123126274709link348280309631nullcascades10602344212661avg.length271432601624
[0175]
twitter是一个提供微博客服务的社交媒体网络，从twitter数据集中提取出2010年10月的 12627个用户和带有关注关系和扩散序列的推文，其中包含消息正文的url，每个url都是信息的唯一标记，用户的影响力关系是推特上的关注关系。
[0176]
memetracker1包含很多个在线主流社交媒体活动，本发明专利采用的数据集是从在线网络上收集了数百万的新闻故事和博客文章，将每个网站或博客的url都被视为一个用户，跟踪每一个常见的引用和短语在用户之间的运用，这个数据集中没有社交图。
[0177]
douban是一个可以分享书籍或电影内容的社交服务网络平台，将每本书或电影看做一个信息，当用户读到这本书，那么这个用户就会被激活，当两个或多个用户多次激活相同的书或电影超过 20次，将认为他们两个是同质性的人。
[0178]
遵循以前的实验设置，随机抽样80％的数据进行训练，10％用于验证，10％用于测试。
[0179]
4.2基准方法
[0180]
本发明专利列举了几个最先进的基准方法，与本发明专利提出的asthgcn模型进行比较。
[0181]
deepdiffuse：是一个利用节点序列和注意机制并考虑用户激活时间戳的一个基于lstm模型，该模型可根据先前的级联序列预测某个用户何时被激活。
[0182]
topo
‑
lstm：是一个使用有向无环图(dag)结构基于lstm探索信息扩散的模型，该模型将动态dag作为lstm模型的输入，以嵌入函数计算的概率作为每个时间的感染概率，来生成具有拓扑感知的嵌入作为输出。
[0183]
ndm:是一个不需要扩散图，采用卷积网络和自我注意力机制建模进行缓解长期依赖的问题的模型。
[0184]
snidsa:是一种具有结构注意力的新型顺序神经网络，它不仅利用递归神经网络对序列信息进行建模，而且利用了门控机制的捕获用户间的结构性依赖。
[0185]
forest：是一种在强化学习的指导下预测信息流行度的多尺度扩散预测模型。该模型提取潜在的社交图信息，利用强化学习整合宏观预测。
[0186]
dyhgcn：是一种采用gcn学习用户社交图和扩散图结构特征进行动态信息预测的一种模型，该模型时间采用硬选择策略模型(dyhgcn
‑
h)或软选择策略模型(dyhgcn
‑
s)进行信息预测。
[0187]
本发明专利方法(asthgcn_a，asthgcn_t)：asthgcn_a是本发明专利提出模型采用近似策略时间嵌入策略，asthgcn_t是采用的时间注意力机制将时间嵌入的方法。
[0188]
4.3评价指标和实验设置
[0189]
根据以前的研究，可以有任意数量的潜在候选对象，信息扩散预测可以看做下一个受感染用户的检索任务。因为snidsa和topolstm这两个模型数据集中都需要一个潜在的
社会图，而 memetracker数据集没有社交图，因此做memetracker数据集对比实验中，没有把这两种模型考虑在内。
[0190]
本发明专利采用一种直观的评估方法就是利用信息检索中的排名指标。将未被感染节点按照感染概率进行排序，使用两种广泛流行的评估方法hits@n和map@n以及msle均值平方对数误差指标来评估asthgcn模型的性能。实验设置n＝10，50，100进行评估。
[0191]
本发明专利采用gpu(geforcertx3060)、pytorch1.9.1框架进行了实验实现，使用adamax 优化器进行小批量梯度下降更新参数，选择的参数设置如表2所示，进行对测试集进行测试评估 asthgcn模型的性能。
[0192]
表2参数设置
[0193]
parametersvaluebatch size16learning rate0.001ββ∈[0.9,0.999]dropout rate0.1optimizeradamaxnum epoch50kernel size128d_model64time_step8n_heads14
[0194]
4.4实验结果与参数设置实验
[0195]
在这个部分设置比较试验，将deepdiffuse等各个模型的实验结果进行比较，并进行对参数设置的分析对比实验。
[0196]
4.4.1实验结果
[0197]
提出asthgcn模型和基准模型在douban等三个数据集上的实验结果分别为表3、表4、表 5所示。表中显示了所有模型的评估指标，从表中看到在hits@n，map@n指标中均可以看到 asthgcn模型的优越性，结果表明asthgcn模型可以成功的进行信息传播预测。
[0198]
由表3、表4、表5中可以看出，在asthgcn实验未提交之前，dyhgcn是最先进的模型。从结果可以看到asthgcn始终优于最先进的方法，得到如下结论：
[0199]
表3在douban数据集上的实验结果
[0200][0201]
表4在memetracker数据集上的实验结果
[0202][0203][0204]
表5在twitter数据集上的实验结果
[0205][0206]
(1)与snidsa、forest这些基于用户影响力研究的模型比较，asthgcn
‑
a模型在 hits@10指标上有将近5％的提升，在twitter和douban数据集上，asthgcn模型在hits@50和 hits@100指标上有11％的绝对提升。在三个数据集上map@10均有4％的绝对提升。snidsa、 forest只考虑用户的影响力，根据用户的社交关系进行信息预测，而不考虑用户的扩散行为的影响，由于用户的扩散行为往往意味着用户近期的兴趣爱好以及感兴趣话题，因此本发明专利 asthgcn模型将这些因素考虑进去，加大信息传播中更细粒度的研究，提高了信息预测准确率。
[0207]
(2)与deepdiffuse、topolstm、ndm这些基于用户扩散行为研究的模型比较，asthgcn 模型在hits@10指标上有10％的绝对提升，在douban和twitter数据集中，hit@50有17％的提高， hit@100有20％的绝对提升。在map@的评价指标上有7％的绝对提升。deepdiffuse、topolstm、 ndm模型根据用户以往的扩散行为对信息进行预测，而没有考虑用户的影响力等因素，用户影响力可以反应信息传播能力和速度，实验证明，用户影响力因素对研究信息预测是十分重要的。
[0208]
(3)与最先进的dyhgcn模型比较，asthgcn
‑
t模型在hits@指标上有5％的绝对提升，在map@指标上有3％的提升。dyhgcn模型和asthgcn模型同时都考虑了用户的转发关系和关注关系以及时间因素，然而asthgcn模型对用户关系结构学习融合时考虑了用户上下文的依赖关系，采用注意力机制与图卷积相结合的方法学习用户表示使信息预测性能得到进一步提升，实验证明，用户上下文依赖关系对信息预测性能的影响是十分显著的。
[0209]
接下来对三个数据集的均值平方对数误差(msle)指标进行实验，其结果为了方便比较如下雷达图6所示。
[0210]
在douban等三个数据集上的实验结果msle，其分数越低越好。由于topolstm模型的实验分数大于10，明显高于其他模型分数，为了更加方便观察，因此并未在图中显示出来，由于 memetracker模型中没有社交图，snidsa不适用于该数据集，所以设置该msle值为0。通过观察asthgcn模型的msle的实验结果是最小的，说明其性能是最好的，这跟上述叙述
中， asthgcn模型将用户的行为关系以及影响力关系等空间因素以及时间因素均考虑其中，并采用注意力机制将用户表示融合一起等模型思想的运用息息相关，表明了asthgcn模型的有效性和准确性。
[0211]
4.4.2消融实验
[0212]
为了研究asthgcn模型中每个因素的有效性，本发明专利在dyhgcn模型的基础上进行一些额外的消融实验，来验证每个因素的性能。本发明专利从以下各个方面进行消融实验：
[0213]
·
异构图：去除异构图中的编码模块，仅仅使用同构网络来研究用户表示。
[0214]
·
行为关系：去除异构图中的行为关系，并去除用户表示学习的卷积操作，只考虑用户的扩散行为关系。
[0215]
·
社交网络：去除异构图中的社交影响力关系，并去除用户表示学习的卷积操作，只考虑用户的影响力关系。
[0216]
·
时间注意力机制嵌入：考虑时间注意力机制时，可以考虑采用近似策略进行时间嵌入。
[0217]
·
用户表示融合方法：考虑用户注意力融合机制时，可以采用启发式策略融合进行。
[0218]
经过在twitter和douban数据集上进行了asthgcn模型异构图等各个模块的消融实验，实验结果如图7所示。从图7中可知，asthgcn中各个模块的应用都是十分必要的，各个模块都在一定程度上提高了。首先，当去除异构图中的编码模块时，仅仅使用同构网络来研究用户表示进行信息预测时，性能比asthgcn明显下降，asthgcn模型在twitter数据集上提高了7个点，在douban数据集上提高了十个点。这表明异构网络对于信息预测有促进作用。其次，在分别缺乏行为关系、社交关系以及时间注意力机制嵌入时间因素等实验中，这三者均可以在原有基础上提高信息预测性能，然而这与asthgcn模型性能相比明显不足，这表明只有将这些影响因素全部组合考虑进去，才可以显著的提高信息预测的性能。最后验证了经过启发式融合机制的模型指标比采用时间注意机制显著下降6个点，充分表明了采用时间注意机制融合的优势，时间注意机制可以更加全面的进行用户表示融合，从而提高模型性能。总而言之，asthgcn模型的每一个模块对于整个信息预测性能均有提升，asthgcn模型的研究是十分有意义的。
[0219]
4.4.3参数调优实验
[0220]
在本节中，利用twitter数据集进行一些参数设置的不同选择及其性能分析，主要对注意力头数以及时间划分间隔数进行实验，验证其最优的参数设置。
[0221]
时间间隔数的影响：本发明专利考虑信息传播的时间因素，将扩散时间序列划分为多少个时间间隔数，或许会或多或少的直接或间接影响asthgcn模型性能。随着时间间隔数的增多，用户可以学习更细粒度的表示，因此学习到的用户表示更加全面，但是由于参数的设置会影响最终性能，因此进行参数调优实验。实验结果如图8所示。
[0222]
从图8中可以看出，asthgcn模型的性能随着时间间隔划分数的增加而增加，但是当时间间隔增大到8时，asthgcn模型的性能开始骤降，随后随时间划分间隔数的变化其性能的变化有限。这是因为当将用户时间序列划分的间隔数越大时，用户表示的越全面，学习到的用户特征就会更加周全，当间隔数更多时，学习到的性能变化有限，从而整个信息传播
过程中的性能指标变化也有限，因此本发明专利选取时间间隔数为8。
[0223]
多头注意力机制头数影响：asthgcn模型利用多头注意力机制不同head在计算时经过不同的投影得到更多的特征，从而影响信息传播的预测性能。多头注意力机制头数的设置会影响模型的性能指标，因此本发明专利进行了参数调优实验，其实验结果如图9所示。
[0224]
可以看出，随着注意力机制头数的增加，asthgcn模型的性能不断提升，这是因为随着头数的增大，捕获到的信息会更加全面，更加准确。当注意力头数到14时，asthgcn模型的性能达到最佳，随着头数的继续更大，性能开始骤降。这是因为当注意力机制头数过多时，模型训练过拟合导致了性能下降。
[0225]
模型维度的影响：本发明专利研究了节点v维度的表示是如何影响模型性能的。当 d∈{16,32,64,128}时，验证asthgcn模型方法的性能。其实验结果如图10所示，随着维度增大，性能不断增强。但是在douban数据集上可以看出当维度为64时，asthgcn模型性能最佳，当维度增大时，性能明显下降，可能是数据集太大使其过拟合导致。然而在memetracker数据集上，当维度为128时性能才达到收敛，性能增幅逐渐平缓，可能因为他们有更大的数据集，综合三个数据集上性能结果看，本发明专利将提出的asthgcn模型维度设置为64。
[0226]
5结论
[0227]
本发明专利研究了异构网络的影响力关系和扩散行为关系等空间因素，以及时间因素对信息传播扩散的影响，设计了一种基于时空注意力机制图卷积网络的信息预测模型。asthgcn模型综合对影响力、扩散行为和时间因素的考虑以及注意力机制融合算法的应用，使用户融合和用户表示更加全面更加准确，提高了信息预测的准确率，此外，具有mask attention的多头注意力机制解决了时间戳信息预测与信息上下文依赖问题。在三个数据集上的实验结果表明，与其他基准模型相比，asthgcn模型的性能是最佳的。主要结论如下：(1)通过对具有影响力和扩散行为的异构网络研究，学习用户特征并将其融合至异构图中，学习到的用户表示更加符合现实生活，有效的提供了信息预测研究的用户样本。(2)在用户结构学习过程中融合用户上下文的依赖关系，采用注意力机制与图卷积相结合的方法学习用户表示使信息预测性能得到进一步提升完全，达到更加准确的用户输出，以达到信息预测准确率更高的目的。
[0228]
尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

网址：融合时空注意力和异构图卷积网络的信息扩散预测方法 http://c.mxgxt.com/news/view/1230793

⬅️上一篇：Gartner 发布2022年新

➡️下一篇：Gartner – 2022年新

融合时空注意力和异构图卷积网络的信息扩散预测方法

相关内容

随便看看

最新实时动态

热点实时动态

专题

推荐实时动态