数据分析基础 您所在的位置:网站首页 样本和样本观测值是不是随机变量 数据分析基础

数据分析基础

2022-05-09 02:32| 来源: 网络整理| 查看: 265

数据分析方法分为四大类:1、单纯的数据加工方法

a.描述性统计分析(集中、离中趋势分析和数据分布)

b.相关性分析

2、基于数理统计的数据分析方法

方差分析、回归分析(特指一元线性回归)、因子分析

3、基于数据挖掘的数据分析方法

a.聚类分析

b.分类分析(决策树、人工神经网络、贝叶斯分类法、支持向量机随机森林、关联规则、回归分析)

4、基于大数据的数据分析方法

与数据挖掘使用的工具不同(使用Hadoop、Mathout、Spark、Storm)

数理统计与数据挖掘的联系:都来源于统计基础理论,例如概率论和随机事件。

数理统计与数据挖掘的区别:a.数理统计需要对分布和变量间的关系作假设,数据挖掘不对分布作任何假设;b.数理统计在预测中常表现为一组函数关系式,数据挖掘则重点在于结果,往往没有得出明确的函数关系式。

数据分析的目的是为业务发展答疑解惑及分析层次,涉及公司运营的方方面面,特别是客户与市场的数据分析。

分析的层级:常规报表、即席查询、多维分析(钻取or OLAP)、警报、统计分析、预报、预测型建模、优化

数据挖掘是一种发现知识的手段,通过合理的方法从数据中获取与数据挖掘项目相关的知识。

大数据(数据挖掘)是对传统小数据分析的扩展:数据量(海量)、数据精度(下降)、算法(特殊)、关注点(关注时间、效率和知识发现,关注相关分析而非因果分析)

CRISP-DM方法论:将项目生命周期分为业务理解、数据理解、数据准备、建模、模型评估、模型发布。

SEMMA方法论:定义业务问题、环境评估、数据准备、循环挖掘、上线发布、检视;其中的循环挖掘包括数据整理、样本探索、变量修改、建模、模型检验。

描述性统计分析:1、直方图

易混淆点:常见的是频数分布直方图(长方形的高代表频数);统计意义上的是频率分布直方图(长方形面积=频数/组距),无纵向刻度。

注意点:有的区间分布本身就不均匀,在水平轴上要按照实际比例划分区间。

2、数据的计量尺度

包括定类尺度(性别/民族)、定序尺度(职称/质量等级)、定距尺度(摄氏度/纬度)、定比尺度(质量/长度)。

定距与定比的区别:定比的“0“表示”没有“。

3、数据的集中趋势a. 平均值

受极端值的影响

b. 分位数

要先把数据按顺序排列,常见的有百分位数(Xp%)、四分位数、中位数。

c. 众数

一组数据中出现次数最多的值;有三种情况:无众数,有一个众数,有多个众数。

4、数据的离中趋势a. 极差(全距)b. 分位距

四分位距=第三个四分位数-第一个四分位数

排除了数列中两端各25%的数值的影响。

c. 平均差

各数值与算术平均年数的离差对的绝对值的算术平均数。

d. 方差和标准差

方差的平方根就是标准差(s)。

标准差体现了平均数的代表性,指出了数值离平均数有多远。

e. 离散系数

标准差之类的数据类型有缺点:受计量单位的影响,受变量平均水平高低的影响(例如数值的整体绝对值越高,得出的标准差也越大)。

要比较平均水平不同的两组数,就需要用离散系数。

常见的离散系数:标准差系数(Vs)=标准差与算术平均数的百分比,数值越小,波动越小

5、数据分布的测定

正态分布

a. 偏态系数

SK=0  分布对称

SK0  正偏态,向右偏

b. 数据峰度

K>0  尖顶峰度

K



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有