基于社交网络的信息扩散分析研究*
1 引 言
伴随信息技术的变革式发展, 社交媒体使人们突破时间和空间的限制进行沟通和分享信息成为可能。微博以其文本简短、发布便捷等特点, 可以满足人们发布、获取和传播信息等多元化需求, 同时用户对微博进行转发、评论和点赞的行为可以促进信息在社交网络的大规模扩散。在社交网络迅速发展的背景下, 企业将社交网络媒体视为发布新产品和获取市场反馈的重要平台。因此研究社交网络中的信息扩散具有很强的现实意义。
本文通过对拥有全球各个国家活跃用户的社交平台Twitter收集数据, 以企业手机营销信息为例, 对企业营销信息的扩散特点进行分析, 研究Twitter用户行为数据组成的网络拓扑图, 验证其是否符合无标度网络特性。并使用适用于隐性关系网络信息扩散(如转发、评论关系)的独立级联模型模拟企业手机营销信息的扩散状态, 对不同信息扩散节点进行扩散模拟, 尝试寻找企业精准投放营销信息的目标节点。
2 相关研究
“六度分离”理论是社会学家Milgram[1]在1967年提出的, 基于这一理论的在线社交网络拉近了人们的距离, 同时也促进了信息的扩散。相比于传统的社交网络而言, 它拥有更大的网络规模, 同时也有更为复杂的结构, 这引起了国内外研究人员的广泛关注。在线社交网络通常被抽象为一个图结构, 而用户则是图中的节点, 用户之间的关系可以抽象为图中的连边。每个用户节点都可以分为活跃状态与非活跃状态, 初始时刻网络中除了源节点以外所有节点都处于非活跃状态, 随着信息的扩散, 一旦某个节点接收到了信息就会从非活跃状态转变为活跃状态[2]。
在线社交网络具备与生俱来的自由性和开放性, 其信息扩散模式也产生了很多具有实际应用背景的问题。比如, 微博、人人网等网站在增加用户数量的同时也在积极地寻找稳定的商业模式, 而在用户群中进行广告投放和产品服务的商业推广无疑是一种可能的选择, 实际的应用中运营者会希望所投放的广告能够在用户群中产生更大的扩散传播效应、能够影响更多的用户。那么, 如何在社交网络中投放信息能够使得信息扩散范围更大就是一个具有实际应用背景的研究问题。
目前, 信息扩散是在线社交网络的研究热点之一, 信息扩散最早来自于社会学家, 传染病学家, 经济学家对创新扩散、传染病和产品在真实社会网络中的扩散等方面的研究, 信息扩散研究涉及网络拓扑分析、文本内容分析、大规模数据处理等问题。为了能够模拟社交网络中信息的扩散过程, 研究者提出很多描述社交网络中信息扩散过程的模型[3]。其中, 比较公认的信息扩散模型分别是: 独立级联模型(Independent Cascade Model, ICM)[4]、线性阈值模型(Linear Threshold Model, LTM)[5]和传染病模型(Epidemics Model, EM)[6]。很多学者在经典信息扩散模型基础上进行了算法优化研究[7,8,9,10]。但是, 当前模型的验证方法主要是采用随机的现实数据进行验证, 更为科学的方式应是筛选典型的传播实例, 形成统一标准的测试集, 例如是选取小世界网络数据还是无标度网络数据, 选择只有人与人之间产生朋友关系的显性网络还是由用户评论创造的隐性关系网络。很少有学者根据网络类型的特点评判不同传播模型的优劣, 以更好地模拟信息扩散的内部机制。Akrouf等[11]通过对Flickr用户之间的关系网络和YouTube视频用户评论网络的节点集进行信息扩散过程和预测影响力的分析, 证明独立级联模型(ICM)更适合由用户评论创造的隐性关系网络。此外, 在研究信息扩散问题中, 一些学者选取影响力高的节点作为初始激活节点, 从而模拟他们的信息扩散过程。如李隆[12]采用度数中心性(Degree)、紧密中心性(Closeness)和中介中心性(Betweenness)大的节点作为初始激活节点集。刘晓芳等[13]提出节点出度越大则该节点影响力越大的假设并完成验证。除此之外, 个体影响力度量指标还包括HITS、PageRank等[14,15]。因此选取有效的信息扩散模型及初始扩散节点对于进行科学的信息扩散预测显得尤为重要。
本文采用独立级联模型对Twitter上华为手机营销信息进行扩散模拟, 除了模拟信息的扩散状态, 还分别探讨不同的节点, 即具有高总度数(Degree)、高入度(Indegree)、高出度(Outdegree)、高中介中心性(Betweenness) 和高PageRank的节点对信息扩散范围的影响。方便企业精准投放营销信息, 从而达到信息扩散最大化。
3 网络拓扑结构分析
3.1 数据采集
Twitter是非常受欢迎的社交媒体和社交网络, 拥有遍布全球各个国家的活跃用户, 用户在Twitter中的行为包括发布推文(Tweet)、转发(Retweet)、评论(Replies to)、提及(Mention)等, 用户的这些社交网络行为共同促成了社交网络中的信息扩散。本文围绕2017年1月7日华为Mate 9手机在美国正式发布这一事件, 以“Huawei Mate 9”为关键词进行搜索, 通过NodeXL在Twitter中收集2017年1月3日至2017年1月13日这一时间段内关于华为Mate 9手机的所有推文信息, 以24小时为一个时间段持续进行数据收集。使用NodeXL对数据进行结构化抽取, 并通过Excel进行存储, 共收集13 889条数据。通过数据预处理, 删除重复数据、不完整数据和空白数据记录后, 最终数据集包含8 386条推文, 5 791个用户, 以及用户间的转发与评论关系, 关系发生时间, 推文内容等。根据实验最终数据集构建网络, 并对该网络整体结构进行测量。
通过NodeXL进行数据获取及数据存储格式如图1所示。
3.2 网络结构
首先通过NodeXL开源工具[16]对网络拓扑结构进行可视化。整体网络结构拓扑图如图2所示, 部分核心节点的网络状态如图3所示。每个节点代表Twitter用户, 每条弧代表用户间的转发或评论关系。节点A指向节点B的弧, 表示用户B转发或者评论了用户A的推文。入度代表了有多少边指向这个节点, 出度代表从该节点指向其他节点的边数量。入度和出度的和称为度数中心性(Overall Degree)。在本文网络结构中, 出度表示该用户转发他人推文次数, 入度表示该用户推文被他人转发或评论的次数。由于用户可能多次发布转发或评论关于华为的推文, 因此会产生重复弧, 将重复弧进行合并并将重复次数作为每条弧的权重。最终提取的网络是包含5 791个节点、8 686条弧的有向(Directed)结构网络。利用NodeXL计算网络密度、直径、平均距离等指标, 以及计算度数中心性等网络度量指标, 结果如表1和表2所示。
图2 华为Mate 9手机Twitter社交网络拓扑结构
度量指标有向网络自我网络否节点关系类型隐性节点数量5 791非重复边数量8 386重复边数量0密度0.00019连通的分支数1 887分支包含的节点最大值3 270分支包含的弧最大值7 496直径13平均距离4.351803新窗口打开
中心性度量指标值最小度数1最大度数1 032平均度数2.889最小出度0最大出度25平均出度1.448最小入度0最大入度1 031平均入度1.448最小中介中心性0最大中介中心性5 027 993.179平均中介中心性6 197.929新窗口打开
网络密度(Network Density)是指网络中实际存在的边与可能存在最大边数的比率, 反映了节点间联系的紧密程度, 本文网络密度为0.00019, 说明网络各个节点间的联系很松散。两个节点间可能存在长短不一的多条路径, 其中最短路径称为测地线(Geodestic), 测地线的长度定义为距离(Distance), 直径(Diameter)是指网络中所有节点对之间的最短路径(测地线)的最大值, 反映了网络中两个节点间的最远距离。本文网络中直径为13, 平均距离为4.351803。从度数中心性来看, 最大入度可达到1 031, 而平均入度为1.448, 说明网络中存在少量入度中心性极高的节点, 而绝大多数节点的入度中心性较低。针对这一点, 对网络是否具有无标度特性进一步验证。
3.3 社交网络无标度性分析
无标度模型最早是由Baralasi和Albert研究万维网时提出[17,18], 实验发现网页连接分布服从幂律分布: p(k)=Ck−r(r>0), p(k)表示度为k的节点数占总节点数的概率, C为常数, 即度为k的节点数目占总节点数的比例约等于k的负幂, 幂指数为r。绝大多数节点连接数为1到2, 只有极少数核心节点具有极高的连接数, 这些核心节点具有控制网络信息资源流动的能力, 可以有效促进信息大规模扩散, 并具有可预测性, 但也由此产生问题, 对核心节点进行打击或破坏, 网络会变得非常脆弱, 因此具有较低鲁棒性。
本文网络节点度分布如图4所示。可知, 绝大多数节点入度很低, 其中入度为1和2的节点占所有节点总数89.88%。入度在本文中表示该节点被他人转发或评论的次数, 出度表示该节点主动转发他人推文的次数, 入度越高, 说明该节点被转发或评论次数越高, 扩散能力越强。图4中, 入度超过30的节点分布非常稀疏, 平均每个入度值只对应一个节点。这是因为: 入度排名前10位节点中有3个节点为华为官方(Huawei, Huaweimobile, Huaweimobileuk), 6个为资讯平台(如Androidauth, Threeuk, Youtube等), 1个为日本艺人(Nobunaga_s), 这些核心节点是信息传播的扩散源, 从发布内容和时间上看均处于优先连接位置, 因此被转发量极高, 入度极高。
本文通过Matlab软件对网络所有节点入度进行拟合分析, 结果表明节点入度在双对数坐标轴上符合幂律分布, 幂指数为3.534。由于当入度大于30时, 平均每个入度值分布1到2个节点, 因此图4右下区域尾部呈现一条水平线。通过双对数互补累积分布可以消除尾部数据干扰, 因此同时作出入度双对数互补累积分布(图4右上方), 可以看出尾部呈现一条向右下方倾斜的直线, 因此本文网络符合无标度网络特性, 服从幂律分布。
通过网络拓扑结构分析, 无标度特性验证, 可以看出本文实验网络是典型的无标度网络, 存在少量入度中心性极高的核心节点, 围绕这些核心节点, 通过独立级联模型仿真, 基于哪些度量指标选择扩散节点可以取得最大扩散效果, 即最优扩散节点的选择。
4 独立级联信息扩散模型仿真
4.1 独立级联模型
本文构建的是社会中心网络(Sociocentric Network)。整个扩散级联仿真过程可以表述为: 通过设定初始活跃点集, 随着时间变化, 非激活节点v的邻居节点中越来越多节点变为激活状态, 最终可能使节点v本身由非激活状态转变为激活状态, 节点v被激活后又会去激活它自身的邻居节点。
独立级联模型是基于概率理论的交互粒子模型(Interacting Particle System, IPS), 是运用概率理论解释系统行为设计的信息扩散模型[19]。给定初始活跃点集A0以及节点激活成功概率Pvw, s时刻激活成功的节点会在s+1时刻以成功概率Pvw去激活它的邻居节点, 激活成功时增加的新节点加入到As形成As+1, 每个节点仅有一次机会去激活某个邻居节点, 重复执行这一过程, 直到没有更多节点可被激活, 扩散过程结束。本文中, 选择独立级联模型模拟信息扩散, 设定节点互相激活成功概率Pvw为0.5, 研究如何选择最优初始活跃点集, 通过独立级联模型仿真可以获得最大扩散效果。
4.2 仿真模拟
(1) 初始活跃点集
对于企业发布一款新产品, 为了达到让产品知名度在社交网络中迅速提高, 引发大规模信息扩散等目的, 必须考虑先从一小群个体开始传播。在社交网络中表现为最开始进行信息扩散的小群体。运用独立级联扩散模型模拟真实网络的重要一步是选择合适的初始扩散节点。本文基于不同度量指标选择初始扩散节点集, 最终将扩散结果进行对比, 试图找出企业关注的使得信息扩散最大化的影响力节点。考虑一种或综合某几种度量指标, 最终选择哪些初始节点作为初始活跃点集, 可以获得最大信息扩散效果。本研究运用的扩散模型——独立级联模型和线性阈值模型, 是基于网络结构的扩散模型, 从微观层面拓扑结构和节点间交互来解释信息动态传播过程。因此, 一方面从网络结构衡量指标考虑初始活跃点集,即考虑基于度数中心性、入度中心性、出度中心性和中介中心性度量指标选择初始扩散节点; 另一方面, 也必须从节点本身特点出发, 考虑基于PageRank作为补充衡量指标的对照组。通过模型仿真实验, 观察网络最终被激活的节点数量大小, 从而比较得出各个度量指标下初始活跃点集的信息扩散效果差异。最终选择5组具有不同度量指标特性的节点作为扩散节点进行对比实验, 这5组初始扩散点集详细列表如表3所示。
排序度数中心性节点名称入度
中心性节点名称中介
中心性节点
名称出度
中心性节点名称PageRank节点名称11 032Huaweimobile1 031Huaweimobile5 027 993Huaweimobile25Huawei_japan_pr231.307Huaweimobile2950Androidauth950Androidauth3 241 558Huaweimobileuk23Freeconteston212.029Androidauth3901Huaweimobileuk897Huaweimobileuk2 025 392Huawei_japan_pr16Huaweimobileksa207.336Huaweimobileuk4896Threeuk890Threeuk1 890 664Threeuk10Techzilla_205.538Threeuk5253Youtube253Youtube1 878 324Youtube9Majuzub108.85Nobunaga_s6239Nobunaga_s238Nobunaga_s1 783 357Androidauth9Metrini89.447Youtube7139Androidheadline137Androidheadline1 487 036Nobunaga_s9Evankirstel35.182Droid_life8135Huawei134Huawei1 437 168Rkii23068Facingchina32.52Huawei9128Jet128Jet1 095 189Huawei8Brit_0846231.81Androidheadline1091Huawei_japan_pr89Droid_life942 200Majuzub8Jeenar196729.498Huawei_japan_pr
新窗口打开
①基于高度数中心性的选择
度数中心性(Degree Centrality): 表示节点连接的边的数量。如果节点与许多条边相连, 那么度数中心性高的人就比度数中心性低的人受欢迎, 地位更高。度数中心性分为出度中心性(Out-Degree)和入度中心性(In-Degree)。因为本文网络是有向网络, 度数中心性通过每个节点的出度和入度之和来计算。由表3可见, 度数中心性和入度中心性节点排名前10位节点基本重合, 因为这些节点入度极高, 造成总度数也极高。排名靠前的节点普遍存在入度远远大于出度的现象, 即节点推文被转发次数远远高于转发他人推文次数, 这些节点称为“明星节点”。明星节点度和入度越高, 被转发和评论的次数越多, 影响力也越大, 主动转发与评论行为就越谨慎, 因此出度不会过高。同时注意到, 这些明星节点实际上几乎全部来自于华为官方、手机资讯、购物平台、抽奖平台, 但也出现了唯一一个明星节点“Nobunaga_s”, 不属于上述4种情况, 笔者将在讨论中进一步分析这个节点的扩散影响力和原因。
②基于高中介中心性的选择
中介中心性(Betweenness Centrality): 能够到达其他节点的所有路径经过该节点本身程度的度量。中介中心性是衡量节点影响力的另一个重要指标, 反映节点作为“桥梁”作用的大小, 其他节点彼此发生连接的最短路径必须经过该节点的数量。中介中心性越大, 说明该节点中介作用越强, 其他节点对该节点的依赖性越强。计算所有节点的中介中心性非常复杂, 会占据大量计算资源, 因此有许多研究关注如何在已有算法上改进, 本文利用NodeXL计算中介中心性, 该算法由Brandes[20]提出。在实验数据集中, Huaweimobile的中介中心性是5 027 993, Huaweimobileuk是3 241 558, 远高于其他节点。说明这两个节点处于许多节点连接的路径上, 具有控制其他节点交往的能力, 居于重要的地位。中介中心性高的节点掌握了子图之间的信息流, 在传播中具有较高的影响力。同时注意到, 中介中心性排名前10位节点中, 有8个节点也位于度数中心性和入度中心性Top10, 而余下的两个节点分别是“Rkii2306”和“Majuzub”。将在讨论中进一步分析这两个节点的扩散作用和中介中心性高的原因。
③基于高PageRank的选择
PageRank又称为网页排名, 是一种由谷歌搜索引擎开发的根据网页互链接数量计算排名的技术, 用于度量网页重要性的算法, 近年来也被用于社交网络评价节点相关性和影响力[14-15, 21-22]。PageRank指标是作为度数中心性和中介中心性指标的补充衡量指标考虑。从表3可以看出, PageRank排名前10位节点与度数中心性和入度中心性排名前10位节点基本相同, 排名前10位节点均为明星节点, 但与二者均稍有差异。
(2) 实验结果
实验数据集是包含5 791个节点、8 686条边的有向网络, 通过独立级联模型(ICM)算法模拟初始活跃点集一段时间后的扩散状态, 针对每个初始活跃点A0∈{5,10,15,20}, 分别运行ICM算法10次, 取最终激活节点总数的平均值, 并将平均值作为衡量初始活跃节点的影响力的指标。图5为将独立级联模型运用于网络中, 基于不同指标和不同数量选择初始活跃点集, 扩散结束后网络中的活跃节点总数量。
图5 基于不同指标和不同数量选择的初始活跃点集ICM模拟结果
图6是选取20个高中介中心性节点为初始激活节点进行ICM信息扩散得到的网络拓扑图, 其中粉色表示新激活的节点(Infected Node), 红色表示初始激活节点(Initial Active Node), 随着初始活跃节点数的增加, 该分支组被感染的新增激活节点也逐渐增加。
图6 ICM信息扩散网络拓扑(高中介中心性节点为初始激活节点)
图7记录了以Androidheadline节点为核心的分支组在选择5,10,15和20个高中介中心性节点为初始激活节点的条件下的扩散状态变化。由于不同初始活跃点集的最终扩散效果是通过实验结果被激活的活跃节点总数来衡量的, 如果网络中被激活的活跃节点总数越多, 那么认为基于此种度量指标的节点扩散效果越好。
图7 Androidheadline节点分支组随初始活跃节点数目激活状态变化
①由图5可见, 基于高度数中心性、高入度中心性、高PageRank、高中介中心性的节点扩散结果大体非常接近, 其中基于高入度中心性节点作为初始节点可激活节点数最多, 达到所有节点的23.54%。基于高出度中心性节点激活总数非常低, 只能激活不到3%的节点, 无法起到很大规模的扩散作用。出度在本文网络中代表该节点转发他人推文数量, 造成这一现象的原因可能是出度Top10节点集的构成与其他衡量指标下的初始活跃点集不同, 从Top10出度节点平均值来看, 无论是粉丝数、PageRank值还是总度数值, 远低于其他种类节点集, 可见明星节点非常少, 而无标度性的一个特点是节点优先与度数高的节点连接, 因而出度高但总度数低的节点无法起到很好的扩散作用。
②由图5可见, 当初始活跃节点小于7时, 扩散作用非常强, 每增加一个扩散节点, 可以新增加很多激活节点, 激活节点总数增加趋势很快, 曲线陡峭; 初始活跃节点大于7时, 激活节点总数增加趋于平缓, 曲线平坦。这一现象发生的原因可能是这7个节点已经可以触及到网络绝大多数节点所在组。在图4中可以明显看出网络中有围绕核心节点的分支组存在, 这些分支组包含节点数多, 如Huaweimobile等, 当核心节点作为初始扩散节点时, 可以将信息扩散到组内的大部分节点, 表现为组内节点可以被核心节点激活。而初始扩散节点数目大于7时, 新加入的初始扩散节点无法起到激活更多组的效果, 只能激活位于网络边缘数量较少的组或者边缘分布较为稀疏的节点。
③初始活跃节点数目小于7时, 基于高中介中心性的节点的激活效果与基于高入度中心性节点的激活效果基本相同, 这是因为高中介中心性排名前7的节点与高入度中心性排名前7的节点中重合节点很多。初始活跃节点大于7时, 中
介中心性的激活效果相对减弱, 且最终激活效果不如基于高入度和基于高度数中心性的扩散节点。造成中介中心性效果减弱的原因之一可能是中介中心性第7个节点以后的节点本身所在组的节点数量不够多, 无法连接到同一个组内的更多节点。
④从图7可知, 在以高中介中心性为初始激活节点的扩散的过程中, 当初始节点个数为5或10时, Androidheadline 节点还没有被激活; 当初始节点为15或20时, 虽然Androidheadline成为激活节点, 但其所在的分支组扩散状态变化不大。
5 讨 论
5.1 最优扩散节点选择
从扩散的最终效果来看, 除了出度中心性, 其他4种度量指标的扩散效果较好, 节点最终激活结果接近。将度数中心性、入度中心性、中介中心性和PageRank的排名前20节点进行合并, 最终共得到27个无重复节点, 并按照4种指标排名平均值由高到低排序, 得到最优扩散点集:
S={Huaweimobile, Huaweimobileuk, Androidauth, Threeuk, Youtube, Nobunaga_s, Huawei, Androidheadline, Jet, Huawei_japan_pr, Droid_life, Huaweimobileksa, Hamadsalleeh, Androidcentral, Wsj, Xataka, Techzilla_, Princepipo, Majuzb, Khajochi, Huaweimobileesp, Huaweimobilemy, This_is_e, Freeconteston, Metrini, Mobilenewsmag, Rkii2306}
本文将这些节点分为“华为官方”、“普通用户”、“数码评测”、 “资讯媒体”这4类, 如表4至表7所示。
华为官方类节点与资讯媒体类节点常常联动成对出现, 形成扩散源。Huaweimobile节点在这段时间内一共被转发了1 031次, 其中2017年1月7日被转发次数最多, 达到890次, 原因是Androidauth节点举行了有奖赠送Huawei Mate 9手机活动并于1月8日公布获奖者, 该活动的推文立刻吸引了大量节点转发, 产生了大量包含“giveaway”标签以及“@Huaweimobile”和“@Androidauth”的推文。而在1月8日以后的时间段, 节点Huaweimobile日均被转发和评论次数均很少。说明节点对这类有奖赠送活动的信息是乐于转发的, 可以吸引网络中大量边缘节点。Huaweimobile节点和Androidauth节点之间属于依托关系, 华为官方借助Androauthority这个平台举办活动成功实现了迅速提高Mate 9新品信息知名度的目的。类似于这种依托关系的, 还有Huaweimobileuk节点和Threeuk节点。而Huawei节点指向其他节点的边有134个, 这些边代表的原推文指向的事件不像之前的官方节点那样明确, 由这段时间内发生的很多小事件组成, 如数码爱好者针对Mate 9的测评, 华为自身对Mate 9的宣传, Mate 9正式亮相消费者电子展等, 这些小事件彼此连接共同促进了Huawei节点所在组的信息扩散, 也可以起到吸引边缘节点的作用, 虽然效果不如促销抽奖活动有爆发性大面积扩散趋势, 但其日均转发量要高于这些目的性较强的活动, 对于维持产品热度有很大帮助。
资讯媒体类节点如Youtube节点指向其他节点的边有253个, 其中2017年1月7日关于Youtube节点的推文最多达到132条, 回到原数据集, 可以发现这些推文是用户分享在YouTube上关于消费者电子产品展览(Consumer Electronics Show)介绍Huawei Mate 9手机视频而产生的关联边。而本文研究的事件背景正值Huawei Mate 9、Mate 9 Pro正式登陆欧美市场, 并在消费者电子产品展上正式亮相的时间段, 由此可见, YouTube视频平台是进行新产品社交网络营销信息扩散不可缺少的社会化媒体平台, 对于人们接触、感知和接受Mate 9 Pro这一产品有很大帮助。
Jet节点指向其他节点的边有128个, Jet是一家提供优惠折扣的购物网站, 该节点曾在2017年1月5日发布以599.99美元购买Huawei Mate 9的优惠促销推文, 并且Androidheadline节点同时合作也转发了此条促销信息, 此后日均转发量较为平稳。Jet节点与Androidheadline节点是合作互助关系, 共同促进了信息扩散。
5.2 意外节点扩散潜力巨大
在最优扩散节点中, 华为官方类、资讯媒体类和数码评测类节点是企业可以事先预测到的, 与此同时, 也出现了不属于这三个类别的具有影响力的节点, 这些节点的出现是无法预料的, 在本文案例中对信息扩散产生了促进作用, 称其为“意外”节点, 主要有{Nobunaga_s, Princepipo, Majuzub, Metrini, Rkii2306}。为了探讨这些“意外”节点在扩散过程中发挥的作用, 需要深入到网络内部的节点并借助节点的各项度量指标去讨论。
Nobunaga_s 节点各项指标排名平均为6, 说明节点本身具有明星节点属性, 该节点实际为一位日本明星, 曾于2017年1月5日发表关于Mate 9的推文, 如图8 (a)所示, 大意是“听说Huawei Mate 9性能非常好, 玩大型游戏也不卡, 我下一部手机想用HuaweiMate 9。”该推文立刻引起200多次转发和近1 900次点赞, 值得注意的是本文研究的事件中推文点赞数超过1 000属于很少见的情况。Majuzub节点中介中心性排名较高, 同时从入度中心性排名172可看出该节点具有一定的影响力, 该节点实为日本一名研究宗教学的影视人类学者, 曾于2017年1月7日发布推文, 如图8 (b)所示, 内容大意为“对华为新手机Mate 9搭载的莱卡摄像头很感兴趣”, 该推文得到华为日本官方账号(Huawei_japan_pr)回复, 从这一案例可以知道: 华为新品手机Mate 9的莱卡摄像头吸引了用户, 结合Mate 9本身的高端旗舰机定位来看, 该用户的学者身份值得市场人员进一步思考背后的营销机会; 官方节点的回复行为可能促进了用户对新品手机的进一步关注并最终导致其购买行为。
Rkii2306节点从度量指标平均值来看, 只是一个很普通的节点, 但其中介中心性的排名非常高, 中介中心性反映节点作为“桥梁”作用的大小, 中介中心性越高, 说明该节点中介作用越强, 其他节点对该节点的依赖性越强。深入网络观察可知, 该节点实为日本的一名安卓爱好者, 对市场发布的新手机有浓厚的兴趣, 其中介中心性值高的原因是其同时处于网络的两个核心节点分支组中, 如图9所示, 一个组是以华为日本Huawei_japan_pr(华为官方)节点为核心的组, 另一个组是以Nobunaga_s(意外)节点为核心的组, 导致网络中节点对之间的最短路径必须经过该节点的数目非常多, 因此中介中心性很高。
在本文案例中, “意外”节点为华为官方新产品在其所在簇内部引入更多曝光量, 如学者圈和游戏圈, 从而更加凸显了产品的市场高端旗舰定位以及卓越性能。可见, 意外节点非常重要, 可以引导目标顾客群体, 有效促进企业营销, 促进更大范围的信息扩散, 当然意外节点也可能带来负面影响。因此, 企业在进行社交网络营销时既要关注官方节点, 也要关注意外节点。
6 结 语
本文利用NodeXL对华为Mate 9产品信息在Twitter中的扩散网络结构进行可视化, 并对网络的无标度性进行验证, 运用独立级联模型(ICM)模拟了产品信息扩散过程。为了讨论如何选择最优扩散初始节点, 本文基于网络拓扑结构特征和PageRank, 分别选择度数中心性、入度中心性、出度中心性、中介中心性和PageRank这5个指标并进行模拟实验。实验结果表明, 在信息扩散的最初阶段, 以华为官方节点为主引发了最开始的信息大规模级联过程, 而在信息扩散的中期, 资讯类和评测类等节点进一步引发小规模的信息扩散, 在信息扩散后期, 出现一些意外节点, 如专注某一兴趣的数码爱好者、某一领域的学者。本文进一步探讨了意外节点的信息扩散作用及其扩散潜力。在今后的研究中, 可以研究意外节点的移除和引入会对整个网络的信息扩散带来怎样的影响。
作者贡献声明
张凌: 提出研究思路和方案, 论文修改及最终版本修订;
罗曼曼: 数据处理与分析, 进行实验, 收集数据, 起草论文;
朱礼军: 论文最终版本修订。
利益冲突声明
所有作者声明不存在利益冲突关系。
支撑数据
支撑数据见期刊网络版http://www.infotech.ac.cn。
[1] 张凌, 罗曼曼. Huawei Mate 9 original data.xlsx. 通过NodeXL抽取数据集.
[2] 张凌, 罗曼曼. Huawei Mate 9 processed data.xlsx. 对抽取数据集预处理后得到的最终数据集.
参考文献
[1]Milgram S.The Small-World Problem
[J]. Psychology Today, 1967, 1(1): 61-67.[本文引用: 1]
[2]王萍.社会化网络的信息扩散研究
[J]. 情报杂志, 2009, 28(10): 39-42.https://doi.org/10.3969/j.issn.1002-1965.2009.10.009 URL [本文引用: 1] 摘要
信息扩散是社会化网络的重要特征之一,信息扩散模型和扩散最大化是信息扩散研究中的两个基本问题。分析了信息扩散的两类基本模型:级联模型和门槛模型,并基于选择性注意理论,提出了一种改进的扩散模型。"影响力个体或意见领袖"的挖掘是信息扩散最大化研究的核心问题,从不同角度分析了信息节点重要性的衡量方法,并提出了社会化标注网络中标签用户影响力的NRCS计算模型。
(Wang Ping.Study of Information Diffusion in Social Networks
[J]. Journal of Intelligence, 2009, 28(10): 39-42.)https://doi.org/10.3969/j.issn.1002-1965.2009.10.009 URL [本文引用: 1] 摘要
信息扩散是社会化网络的重要特征之一,信息扩散模型和扩散最大化是信息扩散研究中的两个基本问题。分析了信息扩散的两类基本模型:级联模型和门槛模型,并基于选择性注意理论,提出了一种改进的扩散模型。"影响力个体或意见领袖"的挖掘是信息扩散最大化研究的核心问题,从不同角度分析了信息节点重要性的衡量方法,并提出了社会化标注网络中标签用户影响力的NRCS计算模型。
[3]Even-Dar E, Shapira A.A Note on Maximizing the Spread of Influence in Social Networks
[C] // Proceedings of International Workshop on Web and Internet Economics (WINE 2007: Internet and Network Economics). Springer Berlin Heidelberg, 2007: 281-286.[本文引用: 1]
[4]Goldenberg J, Libai B, Muller E.Talk of the Network: A Complex Systems Look at the Underlying Process of Word-of-Mouth
[J]. Marketing Letters, 2001, 12(3): 211-223.https://doi.org/10.1023/A:1011122126881 URL [本文引用: 1]
[5]Granovetter M.Threshold Models of Collective Behavior
[J]. American Journal of Sociology, 1978, 83(6): 1420-1443.https://doi.org/10.1086/226707 URL [本文引用: 1] 摘要
Models of collective behavior are developed for situations where actors have two alternatives and the costs and/or benefits of each depend on how many other actors choose which alternative. The key concept is that of "threshold": the number or proportion of others who must make one decision before a given actor does so; this is the point where net benefits begin to exceed net costs for that particular actor. Beginning with a frequency distribution of thresholds, the models allow calculation of the ultimate or "equilibrium" number making each decision. The stability of equilibrium results against various possible changes in threshold distributions is considered. Stress is placed on the importance of exact distributions distributions for outcomes. Groups with similar average preferences may generate very different results; hence it is hazardous to infer individual dispositions from aggregate outcomes or to assume that behavior was directed by ultimately agreed-upon norms. Suggested applications are to riot behavior, innovation and rumor diffusion, strikes, voting, and migration. Issues of measurement, falsification, and verification are discussed.
[6]Hethcote H W.The Mathematics of Infectious Diseases
[J]. SIAM Review, 2000, 42(4): 599-653.https://doi.org/10.1137/S0036144500371907 URL [本文引用: 1] 摘要
Many models for the spread of infectious diseases in populations have been analyzed mathematically and applied to specific diseases. Threshold theorems involving the basic reproduction number R0, the contact number , and the replacement number R are reviewed for the classic SIR epidemic and endemic models. Similar results with new expressions for R0 are obtained for MSEIR and SEIR endemic models with either continuous age or age groups. Values of R0 and are estimated for various diseases including measles in Niger and pertussis in the United States. Previous models with age structure, heterogeneity, and spatial structure are surveyed.
[7]彭慧洁, 朱君璇.微信网络的信息传播模型研究
[J]. 现代情报, 2016, 36(11): 37-42.[本文引用: 1]
(Peng Huijie, Zhu Junxuan.Research on Information Dissemination Model in WeChat Network
[J]. Journal of Modern Information, 2016, 36(11): 37-42.)[本文引用: 1]
[8]刘东亮, 黄颖, 毛海宇, 等.基于社交网络的信息传播机制研究
[J]. 情报科学, 2015, 33(8): 30-34.[本文引用: 1]
(Liu Dongliang, Huang Ying, Mao Haiyu, et al.Study of Information Broadcasting Mechanism Based on Social Network
[J]. Information Science, 2015, 33(8): 30-34.)[本文引用: 1]
[9]杨帅帅.信息扩散最大化问题的新优化算法
[D]. 广州: 华南理工大学, 2016.[本文引用: 1]
(Yang Shuaishuai.New Optimal Algorithm on Information Diffusion Maximization Problem
[D]. Guangzhou: South China University of Technology, 2016.)[本文引用: 1]
[10]李亚娇.在线社交网络中知识扩散的模式研究
[D].扬州: 扬州大学, 2016.[本文引用: 1]
(Li Yajiao.Research on Knowledge Diffusion Patterns in Online Social Networks
[D].Yangzhou: Yangzhou University, 2016.)[本文引用: 1]
[11]Akrouf S, Meriem L, Yahia B, et al.Social Network Analysis and Information Propagation: A Case Study Using Flickr and Youtube Networks
[J]. International Journal of Future Computer and Communication, 2013, 2(3): 246-252.https://doi.org/10.7763/IJFCC.2013.V2.161 URL [本文引用: 1] 摘要
Social media and Social Network Analysis (SNA)acquired a huge popularity and represent one of the mostimportant social and computer science phenomena of recentyears. One of the most studied problems in this research area isinfluence and information propagation. The aim of this paper isto analyze the information diffusion process and predict theinfluence (represented by the rate of infected nodes at the end ofthe diffusion process) of an initial set of nodes in two networks:Flickr user contacts and YouTube videos users commentingthese videos. These networks are dissimilar in their structure(size, type, diameter, density, components), and the type of therelationships (explicit relationship represented by the contactslinks, and implicit relationship created by commenting onvideos), they are extracted using NodeXL tool. Three modelsare used for modeling the dissemination process: LinearThreshold Model (LTM), Independent Cascade Model (ICM)and an extension of this last called Weighted Cascade Model(WCM). Networks metrics and visualization were manipulatedby NodeXL as well. Experiments results show that the structureof the network affect the diffusion process directly. Unlikeresults given in the blog world networks, the information canspread farther through explicit connections than throughimplicit relations.
[12]李隆.社交网络影响力最大化的多目标优化方法研究
[D]. 合肥: 合肥工业大学, 2016.[本文引用: 1]
(Li Long.An Multi-Objective Optimization Method of Influence Maximization in Social Networks
[D]. Hefei: Hefei University of Technology, 2016.)[本文引用: 1]
[13]刘晓芳, 秦江涛. 基于Twitter 的信息传播仿真研究
[J]. 科技与管理, 2014, 16(2): 49-52.[本文引用: 1]
(Liu Xiaofang, Qin Jiangtao.Simulation of Information Diffusion on Twitter
[J]. Science-Technology and Management, 2014, 16(2): 49-52.)[本文引用: 1]
[14]Kleinberg J M.Authoritative Sources in a Hyperlinked Environment
[C]// Proceedings of the ACM-SIAM Symposium on Discrete Algorithms. 1998.[本文引用: 2]
[15]Page L, Brin S, Motwani R, et al.The PageRank Citation Ranking: Bringing Order to the Web
[R]. Stanford InfoLab, 1999.[本文引用: 2]
[16]Smith M A, Shneiderman B, Milic-Frayling N, et al.Analyzing (Social Media) Networks with NodeXL
[C]// Proceedings of the 4th International Conference on Communities and Technologies, Pennsylvania,USA. 2009: 255-264.[本文引用: 1]
[17]Batabasi A L, Albert R, Jeong H.Meanfield Theory for Scalefree Random Networks
[J]. Physica A: Statistical Mechanics and Its Applications, 1999, 272(1-2): 173-187.https://doi.org/10.1016/S0378-4371(99)00291-5 URL [本文引用: 1] 摘要
Downloadable (with restrictions)! Author(s): Barabási, Albert-László & Albert, Réka & Jeong, Hawoong. 1999 Abstract: Random networks with complex topology are common in Nature, describing systems as diverse as the world wide web or social and business networks. Recently, it has been demonstrated that most large networks for which topological information is available display scale-free features. Here we study the scaling properties of the recently introduced scale-free model, that can account for the observed power-law distribution of the connectivities. We develop a mean-field method to predict the growth dynamics of the individual vertices, and use this to calculate analytically the connectivity distribution and the scaling exponents. The mean-field method can be used to address the properties of two variants of the scale-free model, that do not display power-law scaling.
[18]Albert R, Jeong H, Barabasi A L.Diameter of the World Wide Web
[J]. Nature, 1999, 401: 130-131.https://doi.org/10.1038/43601 URL [本文引用: 1]
[19]Durrett R.Lecture Notes on Particle Systems and Percolation
[M]. Brooks/Cole Pub Co., 1988.[本文引用: 1]
[20]Brandes U.A Faster Algorithm for Betweenness Centrality
[J]. Journal of Mathematical Sociology, 2001, 25(2): 163-177.https://doi.org/10.1080/0022250X.2001.9990249 URL [本文引用: 1] 摘要
Motivated by the fast鈥恎rowing need to compute centrality indices on large, yet very sparse, networks, new algorithms for betweenness are introduced in this paper. They require O(n + m) space and run in O(nm) and O(nm + n2 log n) time on unweighted and weighted networks, respectively, where m is the number of links. Experimental evidence is provided that this substantially increases the range of networks for which centrality analysis is feasible. The betweenness centrality index is essential in the analysis of social networks, but costly to compute. Currently, the fastest known algorithms require ?(n 3) time and ?(n 2) space, where n is the number of actors in the network.
[21]Kwak H, Lee C, Park H, et al.What is Twitter, a Social Network or a News Media?
[C]//Proceedings of the 19th International Conference of World Wide Web (WWW 2010), Raleigh, USA.2010: 591-600.[本文引用: 1]
[22]Weng J, Lim E P, Jiang J, et al.TwitterRank: Finding Topic-sensitive Influential Twitterers
[C]//Proceedings of the 3rd ACM International Conference on Web Search and Data Mining (WSDM 2010), New York, USA. 2010: 261-270.[本文引用: 1]
网址:基于社交网络的信息扩散分析研究* http://c.mxgxt.com/news/view/207854
相关内容
基于数据挖掘的社交网络分析与研究分析师社交媒体在信息传播效率中的作用——基于分析师微博的研究
基于数据挖掘的社交网络结构和用户影响力研究
社交网络口碑信息信任度影响因素分析——以人人网为例.pdf
基于搜索引擎索引分析的互联网舆情监控研究.docx
网络社交媒体数据挖掘与情感分析
社交网络分析工具大搜罗
社交网络营销对品牌宣传的影响力分析
社交媒体时代的网络孤独现象分析
微博名人关注网络的社会网络分析