微博社交网络数据挖掘和用户权重分析.doc
微博社交网络数据挖掘和用户权重分析
微博社交网络数据挖掘和用户权重分析 摘要:随着互联网时代的到来,数据成为当今社会中重要的资源,在庞大的数据体系中蕴藏着无限的价值,对这些数据进行挖掘有着重要的意义。社交网络是在传统网络的基础上发展而来的,但是当网络的应用和移动的终端设备快速的发展时,社交网络也飞速发展起来。文章对新浪微博中的数据通过适当的方式进行了收集,并进行了相关的分析。 关键词:新浪微博;社交网络;用户权重;数据分析;数据体系 文献标识码:A 中图分类号:TP391 文章编号:1009-2374(2016)05-0190-02 DOI:10.13535/j.cnki.11-4406/n.2016.05.095 信息的获取方式有很多种,但是比较常用的主要是两种:一种是网络爬虫;另一种是网页信息解析。但是微博用这两种常规的方法很难高效地获取相关数据,因为微博的用户量很大,数据更新的速度很快,用户之间的交流很频繁,这种常规的方法无法实现这种数据的获取。所以,微博的数据获取主要依赖于API接口,它是由微博服务商提供的一种可以查询微博数据和微博中的交流情况的应用,可以实现微博数据的获取。 微博服务商不仅可以获得微博的数据,还可以获得用户的数据,这些数据都是很重要的资源,但是API作为一个服务器,同其他服务器一样,有一定的负荷限度,所以为了保证服务器不出现崩溃、为了保护数据不丢失,必须对每个API接口设置一定的权限。在新浪微博中,一般的权限是用户在一个小时内调用的次数不能太过于频繁,最多为1000次,而且在此基础上每个API中都设有各自的小权限,所以在收集数据的过程中要分别对每个API接口进行相应的设置,这样才能获得更多的数据。除了解决API接口的限制问题,还需要系统具备灾难恢复功能,这样可以相对提高数据获取速度。 1 微博数据收集和特征分析 1.1 微博数据收集 虽然利用开放的API接口可以收集微博中的数据,但是还有一个重要的问题需要解决,那就是关于用户的身份认证的问题。用户在微博中注册的时候进行的身份认证是受保护的,任何第三方在不知道用户名和密码的情况下是不能查看该用户的任何信息的。新浪微博是通过OAUTH认证来实现用户身份保护的,QAUTH认证不仅安全,而且还特别简单实用,在新浪微博中主要是用于API的用户验证协议。当用户在微博中进行注册的时候,通过QAUTH的授权后,用户会收到一份由API根据用户的请求而发送的XML或JSON文件。可以通过对这类文件进行解析,从而获得原始的数据。 1.2 微博特征分析 每个用户的受关注程度都不相同,为了评价某个用户的受关注程度,可以通过统计其微博的回复数和转发数来估计。在新浪微博中,对于用户所发送的一条微博,关注他的用户可以有三种行为:第一种是单纯的回复,在这种情况下该用户的微博中的评论数就会增加1个;第二种是单纯的转发,在这种情况下该用户的原微博中转发数就会增加1个;第三种是既有回复又有转发,在这种情况下就会评论数和转发数都加1个。所以在微博的转发回复两者之间既相互联系,又相互区别。同理,微博的回复数量和转发数量之间同样存在着某种关系,如果某一条微博的回复数量很高,那么这条微博被转发的可能性也很大。 新浪微博较其他的社交网络平台有更多的功能,其中很重要的一个就是在新浪微博中含有很多多媒体的信息。经过统计发现,在微博的内容中添加了一些图片或其他多媒体信息会比单纯的文字内容更具吸引力,会有更多的回复量和转发量。此外,对于同样具有多媒体信息的微博,如果在微博中存在提及关系,那么它的关注量会比没有提及关系的更高,而且这个关注度还随提及的用户的数量的增加而增加,所以在微博传播性能参考特征中还有提及特征。 2 用户特征分析 虽然微博同Facebook、MySpace等一样都是社交网络,但是微博有很多不同于它们的特点。比如,在微博中用户之间的友好关系是双向的,当用户A关注用户B的时候,不需要经过用户B的审核,而且如果用户B不关注用户A的话,用户A就不会出现在用户B的关注名单中,在这种情况中,用户A与用户B之间的关系比较复杂,与一般的好友关系不同,前者是后者的粉丝,后者是前者的被关注好友。在微博这种社交网络中,其结构特征可以描述为一种关系式,即G=(U,E),U指网络中的节点,也就是用户,E表示各个用户之间存在的有向的连接关系。该关系式称为网络拓扑关系,在这个关系式中,分别设定了出度和入度,其中出度是指一个用户的关注好友数,入度是指这个用户的粉丝数量,通过用户的出度和入度形成了一个网络节点的度的分布特征。 在新浪微博中用户是分不同等级的,在本文进行数据收集的过程中发现,在新浪微博中通过认证用户将用户分为普通用户和认证用户。因为微博在不断的升级更新,在最新版
网址:微博社交网络数据挖掘和用户权重分析.doc http://c.mxgxt.com/news/view/211439
相关内容
网络社交媒体数据挖掘与情感分析基于数据挖掘的社交网络结构和用户影响力研究
Facebook数据挖掘:探索社交网络的深度
基于数据挖掘的社交网络分析与研究
微博名人关注网络的社会网络分析
社交网络数据分析与可视化.pptx
基于社交媒体地理数据挖掘的游客时空行为特征分析
社交网络分析工具大搜罗
食品饮料用户微博数据深度解析 用户行为改变凸显社交媒体价值
新浪微博娱乐明星社会网络探析.doc