数据分析基础 | 您所在的位置:网站首页 › 样本和样本观测值是不是随机变量 › 数据分析基础 |
数据分析方法分为四大类:1、单纯的数据加工方法 a.描述性统计分析(集中、离中趋势分析和数据分布) b.相关性分析 2、基于数理统计的数据分析方法方差分析、回归分析(特指一元线性回归)、因子分析 3、基于数据挖掘的数据分析方法a.聚类分析 b.分类分析(决策树、人工神经网络、贝叶斯分类法、支持向量机随机森林、关联规则、回归分析) 4、基于大数据的数据分析方法与数据挖掘使用的工具不同(使用Hadoop、Mathout、Spark、Storm) 数理统计与数据挖掘的联系:都来源于统计基础理论,例如概率论和随机事件。 数理统计与数据挖掘的区别:a.数理统计需要对分布和变量间的关系作假设,数据挖掘不对分布作任何假设;b.数理统计在预测中常表现为一组函数关系式,数据挖掘则重点在于结果,往往没有得出明确的函数关系式。 数据分析的目的是为业务发展答疑解惑及分析层次,涉及公司运营的方方面面,特别是客户与市场的数据分析。 分析的层级:常规报表、即席查询、多维分析(钻取or OLAP)、警报、统计分析、预报、预测型建模、优化 数据挖掘是一种发现知识的手段,通过合理的方法从数据中获取与数据挖掘项目相关的知识。 大数据(数据挖掘)是对传统小数据分析的扩展:数据量(海量)、数据精度(下降)、算法(特殊)、关注点(关注时间、效率和知识发现,关注相关分析而非因果分析) CRISP-DM方法论:将项目生命周期分为业务理解、数据理解、数据准备、建模、模型评估、模型发布。 SEMMA方法论:定义业务问题、环境评估、数据准备、循环挖掘、上线发布、检视;其中的循环挖掘包括数据整理、样本探索、变量修改、建模、模型检验。 描述性统计分析:1、直方图易混淆点:常见的是频数分布直方图(长方形的高代表频数);统计意义上的是频率分布直方图(长方形面积=频数/组距),无纵向刻度。 注意点:有的区间分布本身就不均匀,在水平轴上要按照实际比例划分区间。 2、数据的计量尺度包括定类尺度(性别/民族)、定序尺度(职称/质量等级)、定距尺度(摄氏度/纬度)、定比尺度(质量/长度)。 定距与定比的区别:定比的“0“表示”没有“。 3、数据的集中趋势a. 平均值受极端值的影响 b. 分位数要先把数据按顺序排列,常见的有百分位数(Xp%)、四分位数、中位数。 c. 众数一组数据中出现次数最多的值;有三种情况:无众数,有一个众数,有多个众数。 4、数据的离中趋势a. 极差(全距)b. 分位距四分位距=第三个四分位数-第一个四分位数 排除了数列中两端各25%的数值的影响。 c. 平均差各数值与算术平均年数的离差对的绝对值的算术平均数。 d. 方差和标准差方差的平方根就是标准差(s)。 标准差体现了平均数的代表性,指出了数值离平均数有多远。 e. 离散系数标准差之类的数据类型有缺点:受计量单位的影响,受变量平均水平高低的影响(例如数值的整体绝对值越高,得出的标准差也越大)。 要比较平均水平不同的两组数,就需要用离散系数。 常见的离散系数:标准差系数(Vs)=标准差与算术平均数的百分比,数值越小,波动越小 5、数据分布的测定正态分布 a. 偏态系数SK=0 分布对称 SK0 正偏态,向右偏 b. 数据峰度K>0 尖顶峰度 K |
CopyRight 2018-2019 实验室设备网 版权所有 |