微信公众号的影响力分析方法和系统.pdf
微信公众号的影响力分析方法和系统
技术领域
本发明属于计算机信息技术领域,特别涉及一种微信公众号的影响力分析方法和
系统。
背景技术
随着互联网通信的迅猛发展以及智能移动客户端的普及,微信等社交软件已经成
为现代人沟通交流以及获取信息的主要手段之一。由于微信有着庞大的用户群体,微信公
众号已经成为众多媒体及个人发布信息的重要平台,这也使得微信公众号在新闻信息服务
传播领域和社会事件信息传播扩散方面成为影响力最大、最具发展潜力的媒体之一。
在国内,人民日报、搜狐、腾讯、网易等传统媒体和大型门户网站都注册相应公众
号,定期发布信息,这些账号发布信息权威性强,公信力高,通过大量的转发,对信息和事件
的传播有着很大的推动作用。但也不乏一些自媒体通过微信公众号发布某些信息,迅速传
播,持续发酵,最后成为很有影响力的大事件。
目前监管部门对微信公众号发布信息的管理以及公众号的影响力分析主要靠人
工完成。在信息指数增长的大数据时代,用这种方式来获取公众号的影响力具有明显的局
限性。这种工作模式存在如下的问题:
1.效率低:完全依靠人工操作,人工查找和阅读需要一定的时间。
2.准确率低:人工查找速度慢,涵盖的范围小,信息不全面。
3.无法量化:无法判断一个公众号具体有多大的影响力,只能定性地模糊地得出
其影响力的大小。
4.无法横向比较:无法衡量某个公众号的影响力与其他公众号的影响力大小关
系,无法给人准确的直观比较结果。
发明内容
本发明的一个目的是解决至少上述问题和/或缺陷,并提供至少后面将说明的优
点。
有鉴于此,本发明还有一个目的是提供一种微信公众号的影响力分析方法。
本发明再有一个目的是提供一种微信公众号的影响力分析系统;目的在于代替人
工操作,帮助监管部门快速地、准确地获取某一微信公众号的量化的影响力。
为此,本发明提供的技术方案为:
一种微信公众号的影响力分析方法,包括如下步骤:
步骤一、采集某一微信公众号下设定时间内发布的m篇文章中每篇文章的阅读数
αi和点赞数βi,并计算阅读数和点赞数的转化率k=阅读总数/点赞总数;
步骤二、当该微信公众号下某篇文章的阅读数为100000+时,利用αx=k*βx计算得
到该文章的阅读数,其中αx为该篇文章阅读数,βx为该文章点赞数,设置单篇文章阅读数1×
107为上限;
步骤三、依据如下公式计算该微信公众号的影响力权重:
其中,η为该微信公众号的权威性权重,设置国家层面的官方媒体的权威性权重η
为1,省市级别的官方媒体权威性权重η为0.8,其他账号的权威性权重η为0.6;
以用于对微信公众号发布信息的管理及对该微信公众号的影响力的分析。
优选的是,所述的微信公众号的影响力分析方法中,所述步骤一中,采集某一微信
公众号下设定时间内发布的m篇文章中每篇文章的阅读数αi和点赞数βi的具体方法包括:
(1)采集微信公众号账号:针对微信公众号账号进行采集,若采集获取到新的微信
公众号账号,存入账号信息库;
(2)采集微信公众号文章信息:对微信公众号信息进行全面采集,实时采集微信公
众号公布的所有的历史文章,记录返回的所有具体信息;
(3)判断内存数据库是否已存储文本
将采集的微信公众号文章具体信息进行解析,并赋予每一篇文章一个唯一ID,利
用新采集文章的唯一ID与内存数据库中存储的文章ID进行比较,若该ID已存在,表明该文
章已经采集并入库,若该ID不存在,表明该文章尚未存入文本数据库;
(4)将微信公众号文章存入文本数据库
经过内存数据库进行判断,若该文本信息并未存入文本数据库,则连同该文章唯
一ID一同存入文本数据库;
(5)更新已采集文章阅读数和点赞数
从文本数据库中提取每个微信公众号账号下的所有发布文章,从互联网获取该文
章的阅读数和点赞数,对文章的阅读数和点赞数进行更新并存入文本数据库;
(6)提取特定账号设定时间范围内所有文章
利用文本提取装置提取待测影响力微信公共号账号的设定时间范围内的所有文
章;
(7)提取文本信息相应的账号信息
对于聚类筛选出来的所有文章,提取到每篇文章的阅读数和点赞数。
优选的是,所述的微信公众号的影响力分析方法中,步骤(1)和(2)中,利用网络爬
虫算法分别获取微信公众号账号和微信公众号文章信息。
优选的是,所述的微信公众号的影响力分析方法中,步骤(3)中,将微信公众号账
号ID、发布时间和题目作为该文章的所述唯一ID。
优选的是,所述的微信公众号的影响力分析方法中,所述步骤一中,所述设定时间
为100天。
一种微信公众号的影响力分析系统,包括:
微信公众号账号采集模块,其用于采集微信公众号账号具体信息,并存储;
微信公众号文章采集模块,其用于抓取微信公众号的所有文章,对文章进行解析,
赋予每篇文章一个唯一ID,并存储;
已采集文章阅读数点赞数更新模块,其用于提取每个微信公众号下的每篇文章,
采集每一篇文章的阅读数和点赞数,更新每一篇文章的阅读数和点赞数,然后存储;
微信公众号影响力分析模块,其首先获取待计算影响力的微信公众号,然后从所
述微信公众号文章采集模块中提取该账号设定时间段内发布的所有文章,利用所述已采集
文章阅读数点赞数更新模块获取到每一篇文章的阅读数和点赞数,最后利用该账号的所有
文章的阅读数和点赞数加权计算该微信公众号账号的影响力,存入所述微信公众号账号采
集模块其中,所述微信公众号影响力分析模块存储有权利要求1的步骤。
优选的是,所述的微信公众号的影响力分析系统中,所述微信公众号账号采集模
块包括:
微信公众号采集装置,其利用事先设定的关键词,利用网络爬虫算法,从互联网获
取微信公众号具体信息;
账号内存数据库,其用于存储微信公众号账号ID;
账号判重装置,其将采集得到的微信公众号账号与所述账号内存数据库中的数据
进行比对,确定采集得到的微信公众号是否是新账号;
账号信息库,其用于存储微信公众号账号的具体信息,用于微信公众号的权重确
定。
优选的是,所述的微信公众号的影响力分析系统中,所述微信公众号文章采集模
块:
微信文章采集装置,其利用网络爬虫算法,获取所有微信公众号发布的文章;
内容文本提取装置,其用于解析微信文章具体信息,获取文章的唯一ID和内容文
本;
文本内存数据库,其用于存储已采集并入库的文章的唯一ID;
内容文本判重装置,其用于对采集的文章进行判断,确定该文章是否已经采集并
存入文本数据库;
文本数据库,其用于存储新采集的微信公众号文章数据。
优选的是,所述的微信公众号的影响力分析系统中,所述已采集文章阅读数点赞
数更新模块包括;
微信公众号存储装置,其与所述账号信息库通讯连接,遍历所述账号信息库,逐个
提取所述账号信息库中的微信公众号账号;
微信公众号文本提取装置,其与所述文本数据库通讯连接,从所述文本数据库中
提取某一微信公众号账号发布的所有文章;
文本阅读点赞数采集装置,其利用网络爬虫算法采集微信公众号文章,并解析获
取该文章的阅读数和点赞数,作为微信公众号影响力分析计算的基本数据。
优选的是,所述的微信公众号的影响力分析系统中,所述微信公众号影响力分析
模块包括:
文本阅读点赞数提取装置,其用于获取每篇文章的阅读数和点赞数,以计算微信
公众号账号影响力;
账号影响力计算装置,其利用待测微信公众号发布文章的阅读数和点赞数进行加
权计算,以获取该微信公众号的影响力。
本发明至少包括以下有益效果:
1、利用计算机自动采集微信公众号发布的各种信息,可以在较短时间内获得全面
的微信公众号文章数据,为下一步进行公众号影响力分析提供准确的数据基础。
2、根据本发明设计的方法,利用采集的文章阅读数和点赞数进行加权计算,从而
得到量化的影响力。
3、依照本发明的方法进行加权计算,极大节省人工成本,大幅度提高公众号影响
力的分析效率。从而提高监管部门的工作效率和准确率。
本发明的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本
发明的研究和实践而为本领域的技术人员所理解。
附图说明
图1是本发明其中一个实施例中微信公众号影响力分析系统的功能结构图;
图2是本发明其中一个实施例中中公众号影响力分析系统流程图;
图3是本发明其中一个实施例中微信公众号影响力分析系统微信公众号账号采集
模块账号数据流图;
图4是本发明其中一个实施例中微信公众号影响力分析系统文章采集模块的数据
流图;
图5是本发明其中一个实施例中微信公众号影响力分析系统文本阅读数点赞数更
新模块的数据流图;
图6是本发明其中一个实施例中微信公众号影响力分析系统微信公众号影响力分
析模块的数据流图。
具体实施方式
下面结合附图对本发明做进一步的详细说明,以令本领域技术人员参照说明书文
字能够据以实施。
应当理解,本文所使用的诸如“具有”、“包含”以及“包括”术语并不配出一个或多
个其它元件或其组合的存在或添加。
本发明主要应用于舆情监管部门对某些特定微信公众号进行监控,根据其影响力
进行分析和监管,维护社会舆论环境的健康和有序,进而保证社会的长治久安。
如图1~6所示,本发明提供一种微信公众号的影响力分析方法,包括如下步骤:
步骤一、采集某一微信公众号下设定时间内发布的m篇文章中每篇文章的阅读数
αi和点赞数βi,并计算阅读数和点赞数的转化率k=阅读总数/点赞总数;
步骤二、当该微信公众号下某篇文章的阅读数为100000+时,利用αx=k*βx计算得
到该文章的阅读数,其中αx为该篇文章阅读数,βx为该文章点赞数,设置单篇文章阅读数1×
107为上限;
步骤三、依据如下公式计算该微信公众号的影响力权重:
其中,η为该微信公众号的权威性权重,设置国家层面的官方媒体的权威性权重η
为1,省市级别的官方媒体权威性权重η为0.8,其他账号的权威性权重η为0.6;
以用于对微信公众号发布信息的管理及对该微信公众号的影响力的分析。
在本发明的其中一个实施例中,作为优选,该微信公众号的影响力分析方法中,所
述步骤一中,采集某一微信公众号下设定时间内发布的m篇文章中每篇文章的阅读数αi和
点赞数βi的具体方法包括:
(1)S61:采集微信公众号账号:针对微信公众号账号进行采集,若采集获取到新的
微信公众号账号,存入账号信息库;
(2)S62:采集微信公众号文章信息:对微信公众号信息进行全面采集,实时采集微
信公众号公布的所有的历史文章,记录返回的所有具体信息;
(3)S63:判断内存数据库是否已存储文本
将采集的微信公众号文章具体信息进行解析,并赋予每一篇文章一个唯一ID,利
用新采集文章的唯一ID与内存数据库中存储的文章ID进行比较,若该ID已存在,表明该文
章已经采集并入库,若该ID不存在,表明该文章尚未存入文本数据库;
(4)S64:将微信公众号文章存入文本数据库
经过内存数据库进行判断,若该文本信息并未存入文本数据库,则连同该文章唯
一ID一同存入文本数据库;
(5)S65:更新已采集文章阅读数和点赞数
从文本数据库中提取每个微信公众号账号下的所有发布文章,从互联网获取该文
章的阅读数和点赞数,对文章的阅读数和点赞数进行更新并存入文本数据库;
(6)S66:提取特定账号设定时间范围内所有文章
利用文本提取装置提取待测影响力微信公共号账号的设定时间范围内的所有文
章;
(7)S67:提取文本信息相应的账号信息
对于聚类筛选出来的所有文章,提取到每篇文章的阅读数和点赞数。
在上述方案中,作为优选,该微信公众号的影响力分析方法中,步骤(1)和(2)中,
利用网络爬虫算法分别获取微信公众号账号和微信公众号文章信息。
在本发明的其中一个实施例中,作为优选,该微信公众号的影响力分析方法中,步
骤(3)中,将微信公众号账号ID、发布时间和题目作为该文章的所述唯一ID。
在本发明的其中一个实施例中,作为优选,该微信公众号的影响力分析方法中,所
述步骤一中,所述设定时间为100天。
如图1所示,本发明还提供一种微信公众号的影响力分析系统,包括:
微信公众号账号采集模块,其用于采集微信公众号账号具体信息,并存储;
微信公众号文章采集模块,其用于抓取微信公众号的所有文章,对文章进行解析,
赋予每篇文章一个唯一ID,并存储;
已采集文章阅读数点赞数更新模块,其用于提取每个微信公众号下的每篇文章,
采集每一篇文章的阅读数和点赞数,更新每一篇文章的阅读数和点赞数,然后存储;
微信公众号影响力分析模块,其首先获取待计算影响力的微信公众号,然后从所
述微信公众号文章采集模块中提取该账号设定时间段内发布的所有文章,利用所述已采集
文章阅读数点赞数更新模块获取到每一篇文章的阅读数和点赞数,最后利用该账号的所有
文章的阅读数和点赞数加权计算该微信公众号账号的影响力,存入所述微信公众号账号采
集模块其中,所述微信公众号影响力分析模块存储有权利要求1的步骤。
在本发明的其中一个实施例中,作为优选,该微信公众号的影响力分析系统中,所
述微信公众号账号采集模块包括:
微信公众号采集装置101,其利用事先设定的关键词,利用网络爬虫算法,从互联
网获取微信公众号具体信息;
账号内存数据库103,其用于存储微信公众号账号ID;
账号判重装置102,其将采集得到的微信公众号账号与所述账号内存数据库中的
数据进行比对,确定采集得到的微信公众号是否是新账号;
账号信息库104,其用于存储微信公众号账号的具体信息,用于微信公众号的权重
确定。
在本发明的其中一个实施例中,作为优选,该微信公众号的影响力分析系统中,所
述微信公众号文章采集模块:
微信文章采集装置201,其利用网络爬虫算法,获取所有微信公众号发布的文章;
内容文本提取装置201,其用于解析微信文章具体信息,获取文章的唯一ID和内容
文本;
文本内存数据库204,其用于存储已采集并入库的文章的唯一ID;
内容文本判重装置203,其用于对采集的文章进行判断,确定该文章是否已经采集
并存入文本数据库;
文本数据库205,其用于存储新采集的微信公众号文章数据。
在本发明的其中一个实施例中,作为优选,该微信公众号的影响力分析系统中,所
述已采集文章阅读数点赞数更新模块包括;
微信公众号存储装置301,其与所述账号信息库通讯连接,遍历所述账号信息库,
逐个提取所述账号信息库中的微信公众号账号;
微信公众号文本提取装置302,其与所述文本数据库通讯连接,从所述文本数据库
中提取某一微信公众号账号发布的所有文章;
文本阅读点赞数采集装置303,其利用网络爬虫算法采集微信公众号文章,并解析
获取该文章的阅读数和点赞数,作为微信公众号影响力分析计算的基本数据。
在本发明的其中一个实施例中,作为优选,该微信公众号的影响力分析系统中,所
述微信公众号影响力分析模块包括:
文本阅读点赞数提取装置401,其用于获取每篇文章的阅读数和点赞数,以计算微
信公众号账号影响力;
账号影响力计算装置402,其利用待测微信公众号发布文章的阅读数和点赞数进
行加权计算,以获取该微信公众号的影响力。
为使本领域技术人员更好地理解本发明,现提供如下实施例进行说明。
实施例1
如图1所示,图1为概略表示微信公众号影响力分析系统的功能结构图。本发明的
系统主要包括微信公众号账号采集模块、微信公众号文章采集模块、已采集文章阅读数点
赞数更新模块和微信公众号影响力分析模块四个部分。
1.微信公众号账号采集模块,利用已有的网络爬虫算法,根据关键词从网络抓取
微信公众号的信息,进行解析获取账号的具体信息(包括微信号、账号名、认证信息等)。利
用微信号的唯一性与内存数据库中已有信息进行比对判重,若内存数据库中不存在该账
号,则该账号为新账号,添加到内存数据库以便以后进行判重,同时存入账号信息库。
2.微信公众号文章采集模块:利用现有的网络爬虫算法,抓取微信公众号的所有
文章,把采集的文章经过HTML解析处理后,建立内容文本单元,然后通过内存数据库进行判
重操作,若内容文本未保存在文本数据库中,进行入库操作,并在内存数据库中记录该文本
ID用于判重,入库的文本数据留作进行各种数据分析。
3.已采集文章阅读数点赞数更新模块:首先遍历账号信息库,针对每一个账号,从
文本数据库中提取该账号下每一篇文章,利用阅读数点赞数采集装置采集每一篇文章的阅
读数和点赞数,更新该文章的阅读数和点赞数,然后存入文本数据库。
4.微信公众号影响力分析模块:本模块首先获取待计算影响力的微信公众号,然
后从文本数据库中提取该账号的特定时间段内发布的所有文章,利用文本阅读数点赞数获
取装置提取每一篇文章的阅读数和点赞数,最后利用该账号的所有文章的阅读数和点赞数
加权计算该账号的影响力,存入账号信息库。
实施例2
如图2所示,图2是具体实施过程中公众号影响力分析系统流程图。该部分是由多
个线程共同完成,微信公众号账号采集线程和文章采集线程不间断运行,随时收录微信公
众号数据,确保信息数据的高实时性,微信公众号的影响力分析具体流程如下:
(1)S61:采集微信公众号账号
利用现有的通用网络爬虫算法,针对公众号账号进行采集,若采集获取到新账号,
存入账号信息库,留待其他环节使用。
(2)S62:采集微信公众号文章信息
利用通用的网络爬虫算法,对微信公众号信息进行全面采集,实时采集微信公众
号所有的历史文章,记录返回的所有具体信息,作为原始数据,以便进行深入的解析处理。
(3)S63:内存数据库判断文本是否已存储
将采集的微信公众号文章具体信息进行解析,将其账号ID、发布时间和题目作为
该文章的唯一ID。利用新采集文章的唯一ID与内存数据库中存储的文章ID进行比较,若该
ID已存在,表明该文章已经采集并入库,若该ID不存在,表明该文章尚未存入文本数据库。
(4)S64:公众号文章存入文本数据库
经过内存数据库进行判断,若该文本信息并未存入文本数据库,则连同该文章唯
一ID一同存入文本数据库,方便以后进行查询和读取。
(5)S65:更新文章阅读数和点赞数
从文本数据库中提取每个账号下的所有发布文章,从互联网获取该文章的阅读数
和点赞数,对文章的阅读数和点赞数进行更新并存入文本数据库。
(6)S66:提取特定账号设定时间范围内所有文章
利用文本提取装置提取待测影响力账号的设定时间范围内的所有文章,本算法设
定为近一百天内的所有文章。
(7)S67:提取文本信息相应的账号信息
对于聚类筛选出来的所有文章,提取每篇文章的阅读数和点赞数,利用账号影响
力统计算法(见算法说明①)针对该账号进行加权计算,获取该账号的影响力。
实施例3
如图3所示,图3是微信公众号账号采集模块账号数据流图,包括微信公众号采集
装置101、账号判重装置102、账号内存数据库103、账号信息库104。
微信公众号采集装置101利用事先设定的关键词,利用通用的网络爬虫算法,从互
联网获取公众号具体信息。
账号判重装置102将采集得到的微信公众号账号与内存数据库中的数据进行比
对,确定采集得到的是否是新账号。
账号内存数据库103用于存储已采集的微信公众号账号ID,利用账号ID的唯一性
可以对采集到的账号进行判重,若内存数据库中已存在,则为已采集账号;若内存数据库中
不存在,则为待入库的新账号。
账号信息库104用于存储微信公众号账号的具体信息(例如注册信息、公众号简介
等),可以用于微信公众号的权重确定等。
如图4所示,图4为实施过程中微信公众号文章采集模块的数据流图,包括微信文
章采集装置201、内容文本提取装置202,内容文本判重装置203、内存数据库204(存储已采
集文章ID)、文本数据库205(存储所有微信文本数据)。
微信文章采集装置201在本部分使用现有的网络爬虫算法,获取所有公众号发布
的微信文章。
内容文本提取装置202用于解析微信文章具体信息,获取文章的ID和内容文本。
内容文本判重装置203用于对采集的文章进行判断,确定该文章是否已经采集并
存入文本数据库。
内存数据库204(记录已采集文章的ID)用于存储已采集并入库的文章的ID,便于
对新采集的文章进行判断是否重复,若ID存在则表明文章已经采集入库,若ID不存在表明
是新采集的微信文章未入库。
文本数据库205用于存储新采集的微信公众号文章数据,为接下来的数据分析,文
章聚类提供最基本的原始的素材。
实施例5
如图5所示,图5是具体实施过程中微信公众号文本阅读数点赞数更新模块的数据
流图,该部分遍历公众号账号信息库,更新每个账号下的所有文章的阅读数和点赞数,包括
微信公众号存储装置301,公众号文章提取装置302,文章阅读点赞数采集装置303,账号信
息库104,文本数据库205。
微信公众号存储装置301遍历账号信息库,逐个提取账号信息库中的微信公众号
账号。
公众号文章提取装置302可以从文本数据库中提取某一账号发布的所有文章。
文章阅读点赞数采集装置303利用现有的通用网络爬虫算法采集微信公众号文
章,并解析获取该文章的阅读数和点赞数,作为微信公众号影响力分析计算的基本数据。
账号信息库104用于存储所有已采集的微信公众号账号具体信息。
文本数据库205用于存储采集的全部微信文本信息。
实施例6
如图6所示,图6为实施过程中微信公众号影响力分析模块的数据流图,包括微信
公众号存储装置301、账号文本提取装置302,文本数据库204、文本阅读点赞数提取装置
401、账号影响力计算装置402、账号信息库104。
微信公众号存储装置301负责存储待测微信公众号。
账号文本提取装置302可以从文本数据库中提取任一公众号特定时间段内发布的
全部文章。
文本阅读点赞数提取装置401可以获取每篇文章的阅读数和点赞数,以便用来计
算微信公众号账号影响力。
账号影响力计算装置402利用待测微信公众号发布文章的阅读数和点赞数进行加
权计算,以获取该微信公众号的影响力。
实施例7
算法说明①:
作用:计算特定账号的传播影响力。
举例:首先,定时不间断采集所有文章阅读数和点赞数,并计算阅读数和点赞数的
转化率k=阅读总数/点赞总数。假设某账号为XXXX,其近100天共发布了m篇文章,其阅读数
为和点赞数分别为α1,α2,α3,...αm和β1,β2,β3,...βm。若为国家层面的官方媒体,其权威性权
重η设置为1;省市级别的官方媒体权威性权重η设置为0.8;其他账号的权威性权重η为0.6。
统计该账号近100天内每篇文章的阅读数和点赞数,当某篇文章的阅读数为100000+时,利
用αx=k*βx近似得到本文章的阅读数,其中αx为单篇文章阅读数,βx为该文章点赞数,设置
单篇文章阅读数1×107为上限。某账号的影响力权重近似表示为:
这里说明的处理规模是用来简化本发明的说明的。对本发明的微信公众号的影响
力分析方法和系统的应用、修改和变化对本领域的技术人员来说是显而易见的。
本发明极大地节省人工成本,大幅度提高公众号影响力的分析效率,代替了人工
操作,帮助监管部门快速地、准确地获取某一微信公众号的量化的影响力。
尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列
运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地
实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限
于特定的细节和这里示出与描述的图例。
网址:微信公众号的影响力分析方法和系统.pdf http://c.mxgxt.com/news/view/1386672
相关内容
微信公众号影响力的分析微信公众号粉丝活跃度统计分析
微信公众号粉丝量分析:如何评估公众号价值
微信公众号有哪些有效的数据分析工具?
微信公众号涨粉丝方法,3个快速方法分享
微博用户的自我呈现和影响力分析
微信公众号:粉丝数量分析与解读
微信公众号涨粉的方法
2019年6月微信公众号打开率粉丝数据分析报告.pdf
公众号如何做数据分析?分享8种方法!