加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 百科 > 正文

第一章 单一变量

发布时间:2020-12-13 19:46:51 所属栏目:百科 来源:网络整理
导读:抖动图 重叠数据偏移展示。不能读取定量信息(quantitative) 直方图 矩形组(bin) 参数:矩阵的宽度、矩阵的对齐方式。 矩阵宽度 Scott 规则 (数据集服从高斯分布) 相关图-频率多边形 问题: 分组丢失信息、直方图不是唯一的、不易反馈计算机处理、不易

抖动图

重叠数据偏移展示。不能读取定量信息(quantitative)

直方图

矩形组(bin)

参数:矩阵的宽度、矩阵的对齐方式。

矩阵宽度 Scott 规则

(数据集服从高斯分布)

相关图-频率多边形

问题:

分组丢失信息、直方图不是唯一的、不易反馈计算机处理、不易处理异常;

核密度估计KDE

核函数:和为1的函数可做为核函数。

Gaussian:

步骤:

移动核函数,把它移到每个点所在的位置;

选择核函数带宽;

KDE公式

直方图、核密度估计

直观、找某个特定数据点。

累积分布函数CDF

Xi <= x的所有xi;

汇总统计量、箱形图

平均数、中位数、标准差、百分位数

重点学习核密度估计的使用。可以通过Python numPy来实现。

核密度估计是为了用一定的量来表现所有数据的场合。

总结:

在单一变量的情况下。做数据分析可以做的就是密度统计。因为只有一个数据。除了最大值、最小值、平均值外,我们可以看到的就是统计它们的区间了。在这个情况下。我们最先使用的是点图。这个最简单。但是问题是如果有多个重复的值。我们很难表现,所以之后就有了抖动图、气抖动图是将重复的点用一定的偏移,使重复数据可以在图上表现出来。但是如果数据较多。就不能很直观的看出问题。所以就有了直方图。直方图是将数据点进行简单聚类的产物。这样可以看到每个区间的数据分布情况。但是直方图会省略很多数据、并且图的选取不同。产生的结果也是不一样的。会很大程度上影响结果。所以就有了核密度估计。也从这开始。数据变得可以自已展现数据的情况了。也是我了解的第一个数据分析图。一个变量,核密度可以非常直观的表现数据的密度情况。并且配合CDF。就可以清晰的展现数据了。

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读