社交网络数据挖掘
Key Words:SocialNetworks,CommunityDetection,Key-Nodes,Data Mining
第一章
§
现实世界中,充满着各式各样的社会网络,例如,从大规模的电力网络到全国的交通运输网络,从社会下层的人际关系网络到社会上层的政治、经济、科研合作网络,从生态食物链网络到各种生物体内的新陈代谢网络等,可见,社会生活中,社会网络无处不在。社会网络是由一群个体和个体之间的各种关系组成的集合[1],其中这些关系包括朋友关系、亲戚关系、上级与下级的关系、同学关系、师生关系、同事关系、具有共同兴趣爱好的关系以及基于地域的邻居关系等。社会网络可分为真实存在的社会网络和虚拟社会网络,真实存在的社会网络包括:人际关系网、各种生态食物链网、公司内部的人事网、国家部门之间的业务网等;虚拟社会网络包括:万维网、博客、论坛、MSN、Facebook、人人网、开心网等。社会网络具有广泛的应用价值,其一,社会网络提供了许多新的交际方式,比如在虚拟社会网络中,可以通过互联网来交友、分享信息、学习和找工作等;其二,社会网络给商业带来了许多机遇与挑战,利用社会网络分析技术可以进行市场营销,预防计算机病毒的传播,预测恐怖袭击,粉碎犯罪集团,进行疫苗接种等。
学位论文作者签名:
年月日
摘要
现实生活中存在着各式各样的社会网络,例如,人际关系网、万维网、博客、论坛、MSN、Facebook以及生态食物链网等。社会网络是由一群个体和个体之间的各种关系组成的集合,其中这些关系包括朋友关系、亲戚关系、上下级关系、师生关系以及网友关系等。对大型社会网络进行研究,从中挖掘出一些有价值的信息或模式,具有广泛的应用价值。其一,社会网络提供了许多新的交际方式,可以通过互联网进行交友、交流、分享信息、找工作等;其二,社会网络给各个领域带来了许多机遇与挑战,利用社会网络分析技术可以进行市场营销,预防计算机病毒的传播,预测恐怖袭击,粉碎犯罪集团以及进行疫苗接种等。
在对社区进行关键节点挖掘方面,本文提出了一种动态的关键节点挖掘算法——贪婪挖掘算法。与静态挖掘算法相比,该算法在挖掘的每一步动态地确定关键节点,而不是从按影响度降序排序的节点中静态地选择前k个节点作为关键节点。经实验验证,贪婪挖掘算法与静态挖掘算法都能快速收敛,并且运行效率都差不多,但是贪婪挖掘算法挖掘的总影响度要明显高于静态挖掘算法。因此,在本文解决方案的关键节点挖掘部分,采用贪婪挖掘算法进行挖掘。
对社会网络分析技术的研究已有一定的历史积累,主要采用基于图论的分析方法,研究成果有最早的小世界理论、中心性分析、社区分析以及有关社会网络的度量标准等。近年来,随着计算机技术和互联网的迅猛发展,采用数据挖掘分析方法对社会网络进行研究已成为一个热门的研究方向。基于图论的思想,把整个社会网络表示成图的形式,其中,节点代表社会网络中的个体,边代表个体之间的链接。因此,基于社会网络的数据挖掘分析方法[2]包括基于节点的分析(如:关键节点挖掘、节点聚类以及节点的重要程度排序等)、基于链接的分析(如:链接预测和链接发现等)、基于子图的分析(如:社区发现和子图分类等)。
Research DirectionData Mining
SupervisorAssociateProfessorChen Wei
Complete Date December 2011
学位论文版权使用授权书
本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学位论文保留并向国家有关部门或机构送交论文的复印件和电子版。允许论文被查阅和借阅。本人授权上海理工大学可以将本学位论文的全部内容或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。
中图分类号:
TP274
学校代码:10252
学 号:092400354
上ห้องสมุดไป่ตู้理工大学硕士学位论文
基于社会网络的数据挖掘方法研究
姓名陆晓野
系别光电信息与计算机工程学院
专业计算机应用技术
研究方向数据挖掘
指导教师陈玮副教授
学位论文完成日期2011年12月
University ofShanghaifor Science and Technology
本学位论文属于
学位论文作者签名:指导教师签名:
年月日年月日
声明
本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已注明引用的内容外,本论文不包含任何其他个人或集体已经公开发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。
本声明的法律责任由本人承担。
Finally, agreedykey-nodes miningalgorithm,which is a dynamic mining algorithm,proposed in pared with the statickey-nodesmining algorithm, thegreedyalgorithmselect thekey-nodes dynamicallyin each step, rather thanselecting thekey-nodesstatically.The experiments show thattwoalgorithms, which are relatively stable, converge fast and have similar running time.But the greedy algorithmhas asignificantly higheraccuracythan the static algorithm.
在基于社会网络的数据挖掘方法研究方面,数据资源是非常关键的。然而,互联网上海量的数据资源给这方面的研究提供了数据支持。研究人员可从许多渠道来方便的获取大量的数据资源,例如,BBS,基于各类主题的论坛,天涯社区,微博、银行数据、网上的购物数据以及电信数据等。
目前,在基于社会网络的数据挖掘方法研究方面,值得关注和研究的问题包括以下三点: 与传统的数据挖掘方法不同,不仅要考虑单个个体,而且还要考虑个体之间的链接、他们之间的拓扑结构以及相互作用等; 基于社会网络的研究,所涉及的数据量非常庞大,虽然传统的社会网络分析方法已经比较成熟,但是它只是基于小规模的数据量,对于大规模的数据量,还必须研究出新的方法; 在数据挖掘的过程中,还涉及到用户隐私的问题,因此在使用数据时,要提出保护用户隐私的解决方案。
本文主要针对社区发现算法和关键节点挖掘算法展开研究与讨论,所有的工作都是基于这两方面来进行。介绍了社会网络分析技术,例如,中心性分析和社区分析等。介绍了数据挖掘常用的聚类算法,经典的社区发现算法以及关键节点挖掘算法,分析它们的性能、优缺点和适用范围等。当今社会网络规模都很庞大,如果直接基于整个网络进行关键节点挖掘,其效率非常低下,没有应用价值,因此本文结合社会网络的特性,创新性地提出了一种新的解决方案——基于社区进行关键节点挖掘,该方案首先对整个网络进行社区发现,然后基于社区进行关键节点挖掘,再对所有社区的关键节点求并集,得到整个网络的关键节点。由于社会网络规模庞大且具有明显的社区结构,因此可以进行社区挖掘并且可以求得一个近似解。经实验验证,对于规模庞大且具有明显社区结构的社会网络,采用本文提出的解决方案进行挖掘是可行的,虽然准确度略有下降(在可接受的范围内),但运行效率却得到了显著地提高。
Master Dissertation
DataMining Method Based onSocial Networks
Name Lu Xiaoye
DepartmentSchoolofOptical-Electricaland
Computer Engineering
SpecialtyComputer Application Technology
In this paper,we focus oncommunitydetectionalgorithmand key-nodesminingalgorithm.We first introducesocial network analysis techniques,such as, central analysis and community analysis.Thencommonclustering algorithm, the classical communitydetectionalgorithm andkey-nodesminingalgorithmsare presented with theirperformance,advangtageanddisadvantageand the scope of application.Because oflarge-scale social networks, ifweare directlyminingkey-nodesbased on thewholenetworks,theefficiency is very low,andthe value is not applied.SoAccording tothe characteristics of social networks,we propose a new solution,“MiningKey-NodesBased on Communities”.Firstly,discoveringcommunitiesbased on thewholenetworks.Thenminingkey-nodesbased oncommunities, and finallyfindingtheunion of all the key-nodes. The experiments show thatusing the paper’s solutionformininglarge-scale networkswithobvious communitystructureisfeasible.Although thesolutionreduceda little accuracy,the efficiency of thesolutionhas been improved significantly.
网址:社交网络数据挖掘 http://c.mxgxt.com/news/view/1305974
相关内容
社区社交网络大数据挖掘社交网络中的数据分析与挖掘.docx
网络社交媒体数据挖掘与情感分析
Facebook数据挖掘:探索社交网络的深度
基于用户特征的社交网络数据挖掘研究
基于数据挖掘的社交网络分析与研究
通过数据挖掘方法定位社交网络用户
IP数据挖掘在社交网络领域的应用:案例分析与实践
网络舆情数据挖掘方案
对于社交网络的数据挖掘应该如何入手,使用哪些算法 – PingCode