《数据挖掘

您所在的位置:网站首页 矢量数据概念 《数据挖掘

《数据挖掘

2024-07-17 23:26:35| 来源: 网络整理| 查看: 265

【内容包括:第3章 数据预处理】

目录 一、数据预处理1.概述2.数据预处理的主要任务 二、数据清理1.缺失值2.噪声数据3.数据清理1) 偏差检测2)数据变换 三、数据集成1.实体识别问题2.冗余和相关分析标称数据的卡方检验数值数据的相关系数数值数据的协方差 3.元组冲突4.数据值冲突的检测与处理 四、数据归约1. 数据归约策略概述2. 小波变换3.主成分分析4.属性子集选择如何找出原属性的一个“好的”子集? 5.回归和对数线性模型:参数化数据归约6.直方图7. 聚类8.抽样无放回简单随机抽样 SRSWOR有放回简单随机抽样 SRSWR簇抽样分层抽样 9.数据立方体聚集 五、数据变换与数据离散化1.策略概述2.通过规范化变换数据1)最大-最小规范化2)z分数规范化(0均值规范化)3)按小数定标规范化 3.通过分箱离散化4.通过直方图分析离散化5.通过聚类、决策树和相关分析离散化6.标称数据的概念分层产生

一、数据预处理 1.概述

数据质量涉及因素:准确性 完整性 一致性 时效性 可信性 可解释性

数据是不完整的、不寻常的和不一致的

数据质量的三个要素 准确性、完整性和一致性 现实世界的大型数据库和数据仓库的共同特点

被掩盖的缺失数据 当用户不希望提交个人信息时,故意向强制输入字段输入不正确的值

时效性 记录提交的时间延迟导致数据库不完整,但是一旦接收后,就是正确的 可信性 有多少信息是用户信赖的 可解释性 反映数据是否容易理解

2.数据预处理的主要任务

数据清理 例程通过填写缺失的值、光滑噪声数据、识别或删除离群点 解决不一致来清理数据。

数据集成在分析中使用来自多个数据源的数据,涉及集成多个数据库、数据立方体或文件

代表同一概念的属性在不同的数据库中可能具有不同的名字,导致不一致性或冗余。

数据归约 降低数据集的规模又不损害数据挖掘的结果,得到数据集的简化表示

维归约 使用数据编码方案,得到原始数据的简化或压缩表示 数据压缩技术 属性子集选择 属性构造

数值归约 使用参数模型或非参数模型 用较小的表示取代数据

数据变化 规范化能得到更好的结果 离散化、概念分层使得数据的挖掘可以在多个抽象层上进行

二、数据清理 1.缺失值 忽略元组人工填写缺失值 (费时)使用全局常量填写缺失值使用属性的中心度量如均值或中位数填写缺失值使用与给定元组数同一类的所有样本的属性均值或中位数使用最可能的值填充缺失值(回归、贝叶斯形式化方法的基于推理的工具或决策树归纳确定) 2.噪声数据

噪声 被测量的随机误差或方差。

分箱 通过考察数据的近邻来光滑有序数据值

箱均值光滑 箱中位数光滑 箱边界光滑 箱中的每一个值被替换为最近的边界值 宽度约达 光滑效果越明显

回归 用一个函数你和数据来光滑数据 线性回归 涉及找出拟合两个属性或变量的最佳直线,使得一个属性可以用来预测另一个 多元线性回归 线性回归的扩充,涉及的属性多于两个,数据拟合到一个多为曲面

离群点分析 通过聚类来检测离群点,聚类将类似的值组织成群或簇 落在簇之外的点称为离群点

3.数据清理 1) 偏差检测

元数据 用关于数据的性质来进行异常的识别。 编码使用不一致、数据表示不一致、字段过载。 根据连续性规则、唯一性规则和空值规则来考察数据。

数据清洗工具 数据审计工具

2)数据变换

数据迁移工具 ETL工具(Extraction/Transformation/Loading)

偏差检测和数据变换两部迭代执行,然而这一过程容易出错,导致更多偏差。 新的数据清理方法强调交互性,集成两步。另一种提高数据清理交互性的方法是开发数据变换操作的规范说明语言。

三、数据集成

合并来自多个数据存储的数据。

1.实体识别问题

实体识别问题:来自多个信息源的现实世界的等价实体如何才能匹配?

2.冗余和相关分析

一个属性如果能够由另一个或一组属性导出,则这个属性可能是冗余的。 有些冗余可以被相关分析检测到。

对于标称属性,使用卡方检验。 对于数值属性,使用相关系数和协方差。 都评估一个属性的值如何随另一个变化。

标称数据的卡方检验

假设A有c个不同值,B有r个不同值 χ 2 = ∑ i = 1 c ∑ j = 1 r ( o i j − e i j ) 2 e i j \chi^{2} = \sum_{i=1}^c\sum_{j=1}^r\frac{(o_{ij}-e{ij})^2}{e_{ij}} χ2=∑i=1c​∑j=1r​eij​(oij​−eij)2​ 联合事件 ( A i , B j ) (A_i,B_j) (Ai​,Bj​)的观测频度: o i j o_{ij} oij​ 联合事件 ( A i , B j ) (A_i,B_j) (Ai​,Bj​)的期望频度: e i j = c o u n t ( A = a i ) × c o u n t ( B = b j ) n e_{ij}=\frac{count(A=a_i)×count(B=b_j)}{n} eij​=ncount(A=ai​)×count(B=bj​)​ n是数据元组的个数, c o u n t ( A = a i ) count(A=a_i) count(A=ai​)是A上具有值为a_i的元组个数, c o u n t ( B = b j ) count(B=b_j) count(B=bj​)是B上具有值为b_j的元组个数。

对 χ 2 \chi^2 χ2的值贡献最大的单元是其实际计数与期望计数很不相同的单元。

数值数据的相关系数

对于数值数据,可以通过计算AB之间的相关系数,估计这两个属性的相关度。

r A , B = ∑ i = 1 n ( a i − A ‾ ) ( b i − B ‾ ) n σ A σ B = ( a i ) ( b i ) − n A ‾ B ‾ n σ A σ B r_{A,B}=\frac{\sum_{i=1}^n(a_i-\overline{A})(b_i-\overline{B})}{n\sigma_A\sigma_B} =\frac{(a_i)(b_i)-n\overline{A}\overline{B}}{n\sigma_A\sigma_B} rA,B​=nσA​σB​∑i=1n​(ai​−A)(bi​−B)​=nσA​σB​(ai​)(bi​)−nAB​

元组个数:n 元组在A和B上的值: a i , b i a_i,b_i ai​,bi​ A和B的标准差: σ A , σ B \sigma_A,\sigma_B σA​,σB​ AB叉乘集: ∑ ( a i b i ) \sum(a_ib_i) ∑(ai​bi​)

− 1 ⩽ r A , B ⩽ 1 -1\leqslant{r_{A,B}}\leqslant1 −1⩽rA,B​⩽1 如果相关度大于0,则A,B是正相关的,值越大相关性越大。 较高的相关度表明A(或B)可以作为冗余而被删除。

如果相关度等于0,则A,B是独立的,他们之间不存在相关性。 如果该结果小于0,则A,B负相关,这意味着每一个属性都阻止另一个出现。

相关性并不蕴含因果关系。

数值数据的协方差

协方差和方差是两个类似的度量,评估两个属性如何一起变化。考虑两个数值属性A、B和n次观测的集合|(a1,b1),…(an,bn)|。A和B的均值又被称为A和B的期望值,即: E ( A ) = A ‾ = ∑ i = 1 n a i n E(A)=\overline{A}=\frac{\sum_{i=1}^na_i}{n} E(A)=A=n∑i=1n​ai​​ E ( B ) = B ‾ = ∑ i = 1 n b i n E(B)=\overline{B}=\frac{\sum_{i=1}^nb_i}{n} E(B)=B=n∑i=1n​bi​​

A和B的协方差为 C o v ( A , B ) = E ( A − A ‾ ) ( B − B ‾ ) = ∑ i = 1 n ( a i − A ‾ ) ( b i − B ‾ ) n Cov(A,B)=E(A-\overline{A})(B-\overline{B})=\frac{\sum_{i=1}^n(a_i-\overline{A})(b_i-\overline{B})}{n} Cov(A,B)=E(A−A)(B−B)=n∑i=1n​(ai​−A)(bi​−B)​ 且有 r A , B = C o v ( A , B ) σ A σ B r_{A,B}=\frac{Cov(A,B)}{\sigma_A\sigma_B} rA,B​=σA​σB​Cov(A,B)​ C o v ( A , B ) = E ( A ⋅ B ) − A ‾ ⋅ B ‾ Cov(A,B)=E(A⋅B)-\overline{A}⋅\overline{B} Cov(A,B)=E(A⋅B)−A⋅B

对于两个趋向一起改变的属性A和B,如果A大于A的期望值(A的均值),则B很有可能大于B的期望值,因此A和B的协方差为正。 如果A,B是独立的,协方差为0。 但如果协方差为零,不能说明A、B独立。

3.元组冲突

在元组级检测重复 去规范化表的使用是数据冗余的一个来源。

4.数据值冲突的检测与处理

来自不同数据源的属性值可能不同(表示、尺度或编码不同)

四、数据归约 1. 数据归约策略概述

维归约:减少考虑的随机变量或属性的个数。 (小波变换、主成分分析) 数量归约:用替代的、较小的数据表示形式替换原数据。 数据压缩:使用变换,以便得到原数据的归约或压缩表示。 无损的:如果原数据能够从压缩后的数据重构,而不损失信息。 有损的:只能近似重构元数据。 对于串压缩,有一些无损压缩算法。

2. 小波变换

离散小波变换(DWT) 用于数据向量X时,将它变换成不同的数值小波系数向量X’,两个向量具有相同的长度。

如何数据压缩? 关键在于小波变换后的数据可以截短。仅存放一小部分最强的小波系数,就能保留近似的压缩数据。

算法:层次金字塔算法 在每次迭代时将数据减半 1.输入数据长度L是2的整次幂,通过在数据向量后添加0来满足。 2.每个变换涉及两个函数,一个使数据光滑,另一个进行加权查分。 3.两个函数作用于X中的数据点对,作用于所有的测量队,导致一个长度为L/2的数据集 4. 两个函数递归地作用于循环得到地数据集,直到数据集地长度为2 5.迭代到的数据集中选择地值被指定为数据变换地小波系数 矩阵必须是标准正交的

离散傅里叶变换(DFT) DWT有更好的有损压缩。 对于给定的数据向量,如果DWT和DFT保留相同数目的系数,则DWT将提供原数据更准确的近似;DWT需要的空间更小。 只有一种DFT,但又若干族DWT。

3.主成分分析

假设待归约地数据由n个属性或维描述地元组或数据向量组成,PCA搜索k个最能代表数据的n维正交向量,k



【本文地址】

公司简介

联系我们

今日新闻


点击排行

实验室常用的仪器、试剂和
说到实验室常用到的东西,主要就分为仪器、试剂和耗
不用再找了,全球10大实验
01、赛默飞世尔科技(热电)Thermo Fisher Scientif
三代水柜的量产巅峰T-72坦
作者:寞寒最近,西边闹腾挺大,本来小寞以为忙完这
通风柜跟实验室通风系统有
说到通风柜跟实验室通风,不少人都纠结二者到底是不
集消毒杀菌、烘干收纳为一
厨房是家里细菌较多的地方,潮湿的环境、没有完全密
实验室设备之全钢实验台如
全钢实验台是实验室家具中较为重要的家具之一,很多

推荐新闻


图片新闻

实验室药品柜的特性有哪些
实验室药品柜是实验室家具的重要组成部分之一,主要
小学科学实验中有哪些教学
计算机 计算器 一般 打孔器 打气筒 仪器车 显微镜
实验室各种仪器原理动图讲
1.紫外分光光谱UV分析原理:吸收紫外光能量,引起分
高中化学常见仪器及实验装
1、可加热仪器:2、计量仪器:(1)仪器A的名称:量
微生物操作主要设备和器具
今天盘点一下微生物操作主要设备和器具,别嫌我啰嗦
浅谈通风柜使用基本常识
 众所周知,通风柜功能中最主要的就是排气功能。在

专题文章

    CopyRight 2018-2019 实验室设备网 版权所有 win10的实时保护怎么永久关闭