数据挖掘基础分类.pdf
数据挖掘基础分类
《互联网数据挖掘》本科生课程 数据挖掘基础(二): 分类 万小军 北京大学语言计算与互联网挖掘组 /lcwm 2017年10月24日 概念 分类:将数据划分到已知类别 分类器的构建基于有监督学习 • 基于标注数据进行学习: 训练集 类别1 数据/ 分类器 类别2 文本 …. 类别n 训练数据 2 二类分类vs.多类分类 二类分类 分类类别为两类: e.g. 正、负 Binary !!!!$$$!!!! 多类分类 分类类别为多类(=3) Multiple Categories 3 二类分类vs.多类分类 二类分类是分类问题的最基本形式,多类分类问 题可通过转化为二类分类问题加以解决 One vs. One : • 对于K类分类需要K(K-1)/2个二类分类器 • 测试分类时采用投票方式确定类别 • E.g. Labels: a, b, c • 分类器:a vs. b, b vs. c, a vs. c One vs. All (Rest): • 对于K类分类需要K个二类分类器 • 测试分类时取返回最大值的类别 • E.g. Labels: a, b, c • 分类器:a vs. (b, c), b vs. (a, c), c vs. (a, b) 4 层次式分类 类别构成层次式结构(树状) 中图法、ODP目录等 分而治之 5 应用 分类的应用 新闻分类 广告页面判别 垃圾邮件过滤 垃圾短信过滤 博客风格判断 评论情感分类 幽默识别 … 6 基于规则的分类 人工/专家制定分类规则 使用布尔操作符: AND, OR and NOT If 一个短信包含”中奖”, then 将其划分为垃圾短信。 可将规则组织成决策树 节点代表规则
网址:数据挖掘基础分类.pdf http://c.mxgxt.com/news/view/156403
相关内容
百度天量数据挖掘明星关系,极客都是好娱记明星数据分析怎么查
一次微博数据挖掘试验:鹿晗粉丝的七张画像
虚拟服装大数据分析
流量明星受众分析报告PDF
用大数据解读明星到底价值几何
平安银行胡跃飞:提升数据能力 推进数字化转型
明星数据库指数
大数据的舆情分析
小红书如何做明星数据库