数据挖掘过程中数据质量常见处理方法 大数据行业资讯

发布时间:2024-12-17 00:32

在建模工作之前,先要了解数据的质量情况,常见的数据质量问题包括缺失值、异常值等,针对于不同的问题和场景,Tempo人工智能平台提供不同的方法进行识别和处理。

1、缺失值问题识别

对于缺失值的识别可以使用到的节点包括属性生成、描述数据特征、数据过滤和过程查询分析器节点。
属性生成节点可以使用isnull函数进行缺失值识别,该函数支持任意类型数据的缺失值识别,最终返回true和false。
描述数据特征节点可通过勾选【缺失个数】选项进行实现。
数据过滤节点可以在【过滤条件】处选择缺失,并勾选保留满足以下任意条件的数据。
过程查询分析器节点的计算列功能同属性生成节点,数据过滤功能同数据过滤节点。

2、缺失值处理

对于缺失值的处理可以使用到的节点包括数据过滤、过程查询分析器、缺失值处理和自动数据处理节点。
数据过滤节点适用于将存在缺失值的行全部删除的情况,在【过滤条件】处选择非缺失,并勾选保留满足以下全部条件的数据。
过程查询分析器节点的数据过滤功能同数据过滤节点。
缺失值处理节点可以对【处理方式】根据使用场景进行选择。
自动数据处理节点可以选择缺失值填充规则来进行处理,对于数值型字段可以使用最大值、最小值、平均值、中位数和自定义值的方式进行填充;对于字符型字段可以使用最多次数项、最少次数项和自定义值的方式进行填充。

3、异常值问题识别

对于异常值的识别可以使用到的节点包括数据过滤、属性生成、过程查询分析器、异常值检测、孤立点分析以及箱线图节点。
数据过滤、属性生成、过程查询分析器节点适用于已知正常范围去输出异常范围数据的情况。数据过滤节点可以在【过滤条件】处选择保留不介于某个区间的数值型或日期型数据,选择保留不在列表中中的字符型数据,并勾选保留满足以下全部条件的数据。属性生成节点可以使用逻辑函数对字符型或者数值型数据进行处理。过程查询分析器使用数据过滤和计算列功能可以达到数据过滤和属性生成节点的功能。
异常值检测节点可以通过【异常值操作】中选择仅输出异常值或标记异常值并输出整表进行实现,检测方式包括基于四分位距和自定义异常检测公式。
箱线图节点可以在【离群点处理方式】中选择只输出离群值,并在洞察-数据集中进行异常值的查看。该节点有两种使用场景,一种是对单变量进行类别分组画箱线图求各组离群值,另一种是对多变量画箱线图求各变量的离群值。

4、异常值处理

对于异常值处理可以使用异常值检测、自动数据处理和数据平滑节点。
异常值检测节点可在异常值操作中选择直接删除、用均值替换和用自定义值替换的方式进行处理,检测方式包括基于四分位距和自定义异常检测公式。
自动数据处理节点可以选择异常值处理规则来进行处理,即使用该节点可以实现3sigma准则下的异常值处理方法。
数据平滑节点可以有效地去除数据中的噪音数据,通过选择多项式样条插值或者五点三次移动平滑方法进行处理,还可以调节插值粒度。

5、案例

以基于设备运行状态的重过载精准预测案例为例,首先利用Tempo人工智能平台的描述数据特征节点,对数据进行描述性统计分析,以便于分析和解决数据质量问题,洞察结果如下图所示:

数据挖掘过程中数据质量常见处理方法

从上图可以看出,行业指标存在缺失值,使用缺失值处理节点对其使用最多次项进行填充,缺失值处理节点配置界面如下:

数据挖掘过程中数据质量常见处理方法

使用异常值检测节点对原始数据进行异常值的识别,洞察中输出异常数据集和各指标分位点,洞察结果如下图,可以看到输出的异常数据集为空表,说明原数据集不存在异常值,也无需进行异常值处理。

数据挖掘过程中数据质量常见处理方法

对于执行完的流程可以在洞察中对结果数据集、模型、图表等进行查看,还可以将所有内容导出为word报告,方便进一步对其进行修改,最终形成数据质量报告和探索结论报告。
基于设备运行状态的重过载精准预测案例导出的word报告见下图:

数据挖掘过程中数据质量常见处理方法


网址:数据挖掘过程中数据质量常见处理方法 大数据行业资讯 http://c.mxgxt.com/news/view/235184

相关内容

数据挖掘是对业务和用户的理解
数据分析和数据挖掘基本思路及手法
网络社交媒体数据挖掘与情感分析
大数据电影分析:数据可视化的力量
Facebook数据挖掘:探索社交网络的深度
海量数据挖掘之中移动流量运营系统
社交媒体数据分析:实时数据流处理技术深入解析1.背景介绍 社交媒体数据分析是现代数据科学的一个重要领域,它涉及到处理大规
百度天量数据挖掘明星关系,极客都是好娱记
基于数据挖掘的社交网络分析与研究
基于社交媒体地理数据挖掘的游客时空行为特征分析

随便看看