浏览器收藏夹整理方法和装置的制造方法
] (p(购物|url),p(网购|url),p(淘宝|url)……),其具体数值为:(0? 7,0? 2, 〇.D;
[0109] 对基础数据进行统计可知,http://www.jd.com/这一链接地址所属的非根目录名 称的分布情况如下:
[0110] (P(购物 |url),p(京东 |url),p(jd|url)…),其具体数值为:(0.5,0.2,0.3);
[0111] http://www.taobao.com/ 和http://www.jd.com/两者之间的相似度为:
[0112] Similary(http://www.taobao.com/,http://www.jd.com/) = 0. 38 ;
[0113] 如果预先设定在SimilaryX).I的情况下,可以将根目录下的链接地址调整到相 应的非根目录中,由于上述http://www.taobao.com/和http://www.jd.com/两者之间的 相似度为〇. 38,超过预先设定的一阈值0. 1,因此,本实施例应将http://www.jd.com/调 整到用户的浏览器收藏夹的"购物"目录下。需要说明的是,上述阈值〇.I可以根据实际应 用的具体需求而调整其大小。另外,如果用户的浏览器收藏夹中还存在除"购物"之外的其 他非根目录(该其他非根目录可以为非根一级目录,也可以为非根二级目录),则本实施例 应将http://www.jd.com/与其他非根目录中的各链接地址进行相似度计算,并将http:// www.jd.com/这一链接地址调整到相似度最高的非根目录中。
[0114] 在进行了上述调整后,如果用户的浏览器收藏夹中还存在未整理的链接地址,则 应对当前未整理的所有链接地址进行聚类。
[0115] 设定当前未整理的所有链接地址包括:
[0116] http://www.pcauto.com.cn/;
[0117] http://www.xcar.com.cn/ ;
[0118] http://ent.sina.com.cn/star/;
[0119] http://data.yule.sohu.com/star/ ;
[0120] http://www.4399.com/;
[0121] http://www. 7k7k.com/。
[0122] 通过计算任意两个url之间的相似度可以将用户未整理的上述url聚类为如下三 类:
[0123] 第一类:http://www.pcauto.com.cn/ 和http://www.xcar.com.cn/ ;第二类: http://ent.sina.com.cn/star/,http://data.yule.sohu.com/star/ ;第三类:http:// www. 4399.com/ 和http://www. 7k7k.com/。
[0124] 为上述聚类后获得的三个类分别设置目录名称。
[0125] 以为http: //www.pcauto.com.cn/ 和http: //www.xcar.com.cn/ 设置目录名称为 例对本实施例的设置目录名称的具体实现方式进行说明:
[0126] http://www.pcauto.com.cn/所属的非根目录名称的分布情况(也可以称为 http://www.pcauto.com.cn/的目录名称特征)如下:
[0127](p(汽车Iurl),p(生活Iurl)),其具体取值为(0. 7, 0. 5);
[0128] http: //www.xcar.com.cn/所属的非根目录名称的分布情况(也可以称为 http://www.xcar.com.cn/的目录名称特征)如下:
[0129] (p(汽车Iurl),p(生活Iurl),p(carIurl)),其具体取值为(0? 5, 0? 2, 0? 3)。
[0130] 由此可知,可以为http: //www.pcauto.com.cn/ 和http://www.xcar.com.cn/ 选 择的目录名称可以为(汽车,生活,car);
[0131] 从(汽车,生活,car)中选择一个最优的目录名称的实现方式如下:
[0132] 口(汽车|证11)+口(汽车|1^12)=0.7+0.5=1.3;
[0133] p(生活IurlI)+p(生活Iurl2) = 0? 2+0. 5 = 0? 7 ;
[0134] p(car|urlI)+p(car|url2) = 0+0. 3 = 0.3;
[0135] 比较上述计算结果可知,p(汽车|urll)+p(汽车|url2)的取值最大,因此,可以 将"汽车,'作为http://www.pcauto.com.cn/ 和http://www.xcar.com.cn/ 的目录名称。
[0136] 在对用户未整理的url进行了聚类,并为每一类确定了目录名称之后,在一级目 录数量较多的情况下,可以对用户的浏览器收藏夹的目录结构进行优化处理,以建立多级 目录结构。一个具体的实例如下:
[0137] 根据对基础数据的统计可知,目录名称汽车、游戏和明星之间的父子关系如下:
[0138] P(生活 _> 明星)=0? 1 ;
[0139] P(生活-> 游戏)=〇.〇5 ;
[0140] P(娱乐-> 明星)=0.2;
[0141] P(娱乐-> 游戏)=〇? 1 ;
[0142] P(生活 _> 汽车)=0.03 ;
[0143] 通过利用Max{ 2p(Ptagi -tag;)}进行计算可以获得:
[0144] P(娱乐_>明星)+P(娱乐_>游戏)=0? 3 ;
[0145] P(生活_>明星)+P(生活_>游戏)+P(生活_>汽车)=0? 18 ;
[0146] 由于(P(娱乐_>明星)+P(娱乐_>游戏))>(P(生活_>明星)+P(生活_>游 戏)+P(生活_>汽车)),因此,为用户的浏览器收藏夹建立的目录结构具体为:
[0147] 娱乐_>游戏,明星;
[0148] 汽车;
[0149] 也就是说,用户的浏览器收藏夹的根目录下的子目录为"娱乐"以及"汽车",即"娱 乐"和"汽车"为一级目录,"娱乐"的子目录为"游戏"和"明星",即"游戏"和"明星"为二 级目录。
[0150] 至此,完成用户的浏览器收藏夹的整理过程。
[0151] 实施例四、浏览器收藏夹整理装置,该装置如图4所示。
[0152] 图4中的浏览器收藏夹整理装置主要包括:获取模块400、第一调整模块410、聚类 模块420以及第二调整模块430 ;可选的,该装置还可以包括:建立多级目录模块440、采集 模块450、过滤模块460以及用户类型区分模块470。
[0153] 获取模块400主要适于获取待整理浏览器收藏夹的目录结构信息以及各链接地 址。
[0154] 具体的,获取模块400获取到的待整理浏览器收藏夹的目录结构信息以及各链接 地址不仅可以表示出待整理浏览器收藏夹中所包含的各目录的目录标识以及浏览器收藏 夹中所收录的各链接地址,还可以表示出待整理浏览器收藏夹中所收录的各链接地址所属 的目录(即链接地址所属的目录标识)以及不同目录之间的父子关系(即不同目录标识之 间的父子结构);也就是说,获取模块400获取的信息可以表示出一个链接地址是处于根目 录下,还是处于某个非根目录下,如果是处于非根目录下,则还可以进一步表示出该非根目 录的父目录标识以及子目录标识等。
[0155] 获取模块400获取到的待整理浏览器收藏夹的目录结构信息可以包含目录标识、 父目录标识以及子目录标识等,且获取模块400获取到的待整理浏览器收藏夹的目录结构 信息以及各链接地址通常可以表现为目录结构信息与链接地址之间的对应关系的形式,一 个具体的例子,获取模块400获取到的信息中的一条记录包含有本目录标识、本目录标识 的父目录标识、本目录标识的子目录标识以及本目录标识所表示的目录下的所有链接地 址。上述目录标识也可以称为目录名称或者链接地址的标签或者链接地址的目录标签等, 上述父目录标识也可以称为父目录名称或者父目录标签等,上述子目录标识也可以称为子 目录名称或者子目录标签等。
[0156] 由上述描述可知,待整理浏览器收藏夹的目录结构信息可以体现出浏览器收藏夹 中的目录结构,如根目录、根目录下的子目录(可以称为一级目录)以及根目录下的子目录 下的子目录(可以称为二级目录)等。也就是说,利用待整理浏览器收藏夹的目录信息可以 描述出一个能够展现目录之间父子关系的目录树。在本实施例中,相对于一级目录而言,根 目录为所有一级目录的父目录,所有一级目录是根目录的子目录;而相对于二级目录而言, 与二级目录对应的一级目录是该二级目录的父目录,二级目录是其对应的一级目录的子目 录。上述一级目录和二级目录均为非根目录。
[0157] 本实施例可以利用待整理浏览器客户端来获取目录结构信息以及各链接地址,如 待整理浏览器客户端根据其内部配置的网络设备地址将其收藏夹的目录结构信息以及各 链接地址传输给相应的网络设备,使该网络设备中的获取模块400获取到待整理浏览器收 藏夹的目录结构信息以及各链接地址。
[0158] 第一调整模块410主要适于在根据目录结构信息确定出待整理浏览器收藏夹中 包含有非根目录的情况下,根据多个用户的浏览器收藏夹的非根目录下的链接地址及其目 录标识确定待整理浏览器收藏夹的根目录下的各链接地址与待整理浏览器收藏夹的非根 目录下的各链接地址之间的相似度,并将待整理浏览器收藏夹的根目录下的与非根目录下 的链接地址相似的链接地址调整到相应的非根目录下。
[0159] 具体的,第一调整模块410在根据上述获取到的目录结构信息确定出待整理浏览 器收藏夹并没有包含非根目录的情况下,则不执行其判断以及调整操作而是触发聚类模块 420执行聚类操作;而第一调整模块410在根据上述获取到的目录结构信息确定出待整理 浏览器收藏夹包含有非根目录的情况下,则执行将根目录下的链接地址调整到相应的非根 目录下的判断操作以及相应的调整操作。
[0160] 第一调整模块410可以基于多个用户的浏览器收藏夹的非根目录下的链接地址 及其目录标识来计算待整理浏览器收藏夹的根目录下的各链接地址与非根目录下的各链 接地址之间的相似度;在待整理浏览器收藏夹的非根目录仅包括一级目录的情况下,上述 非根目录下的各链接地址即为一级目录下的各链接地址;在非根目录包括一级目录和二级 目录的情况下,上述非根目录下的各链接地址可以包括一级目录下的所有链接地址以及二 级目录下的所有链接地址。
[0161] 本实施例中的采集模块450预先采集了网络中多个用户的浏览器收藏夹的非根 目录下的链接地址及其目录标识,一个具体的例子,采集模块450通过浏览器客户端等工 具来采集网络中多个用户的浏览器收藏夹的非根目录下的链接地址及其目录标识。
[0162] 第一调整模块410是根据采集模块450预先采集到的网络中的多个用户(如全网 用户)的浏览器收藏夹中的链接地址所属的非根目录的实际情况来计算链接地址之间的 相似度;也就是说,第一调整模块410通过针对多个用户对浏览器收藏夹中的链接地址的 整理经验进行综合分析,可以获得链接地址整理的经验数据,之后,第一调整模块410再利 用预先综合分析获得的经验数据来计算待整理浏览器收藏夹中的链接地址之间的相似度。 换句话说,第一调整模块410是根据网络中多个用户的浏览器收藏夹的历史收藏行为来计 算待整理浏览器收藏夹中的链接地址之间的相似度的。
[0163] 为了避免采集到的各用户的浏览器收藏夹的各链接地址中的噪音数据对后续的 统计分析造成不良影响,本实施例中的过滤模块460可以对采集模块450采集到的多个 用户的浏览器收藏夹的非根目录下的链接地址进行过滤,以滤除其中的噪音数据。这里的 噪音数据可以为在预定长时间内未被用户使用的链接地址(即使用频率非常低的链接地 址),也可以为已经失效的链接地址。过滤模块460进行过滤的一个具体的例子为:过滤模 块460利用浏览器收藏夹使用日志来确定各链接地址的使用频率,从而滤除使用频率不符 合预定要求的链接地址。
[0164] 在过滤模块460滤除了噪音数据后,第一调整模块410可以将过滤后获得的多个 用户的浏览器收藏夹的非根目录下的链接地址作为基础数据,进行后续的统计计算,从而 为待整理浏览器收藏夹中的各链接地址设置向量,并利用各链接地址的向量来计算各链接 地址之间的相似度;如针对待
网址:浏览器收藏夹整理方法和装置的制造方法 http://c.mxgxt.com/news/view/251255
相关内容
明星内容叠加互动玩法,快手助力 UC 浏览器玩转周年庆营销VideoStar中怎么制作出视频?VideoStar制作出视频的方法
韩国明星用tiktok,韩国明星用什么软件和粉丝互动 – VMLogin指纹浏览器
法制博览
数据分析的方法论
职场人士形象管理方法
网络舆情管理与处置实施办法
用户画像更新方法、装置、计算机设备及存储介质.pdf
和百位明星一块做好事,QQ浏览器让好事长长久久
亚马逊产品经理:TikTok 成功方程式 = 创造力网络效应 + 模因制造机器(五)