数据挖掘笔记（5）——数据处理、模型评估、可视化、十大经典算

发布时间：2020-12-14 04:01:09 所属栏目：大数据来源：网络整理

导读：可视化目标： ? ??????利用人类的视觉从数据中提取信息 ? ??????对复杂数据集提供概览 ? ??????标识数据中的结构、模式、趋势、异常和联系? ?? 分类： ? ??????科学可视化 ? ??????虚拟现实 ? ??????信息可视化举例： ????? ? 雷达图：描述几个物体的多维

可视化

目标：

? ??????利用人类的视觉从数据中提取信息

? ??????对复杂数据集提供概览

? ??????标识数据中的结构、模式、趋势、异常和联系? ??

分类：

? ??????科学可视化

? ??????虚拟现实

? ??????信息可视化

举例：

????? ? 雷达图：描述几个物体的多维属性（也可实现每个属性和理想属性的对比）；?

????? ? x1yn: ?描述分类，如表格数据，x轴为属性名，y轴为数值，使用不同的颜色区分不同的记录行

????? ? plot：区分离群点

? ? ? ? 颜色分级图： X为序列值，如时间； y为离散值，如ip；图上表示特定时间段，某IP的流量（使用颜色块进行分级）

? ? ? ? 双向流量图：

? ? ? ? X轴相同在中间，y轴两个方向都为正，如x为时间，y1为ip1的流量y2为ip2的流量，可以非常方便地形成对比

? ? ? ?3d chart图：双向流量图不太好找时，也可以用来完成对比功能

模型评估

什么是有趣的：

? ? 易于理解

? ? 对新数据有效

? ? 新颖的

? ? 潜在有用

产生所有模型：

? ? 不现实，低效的

产生有趣模式：

? ? 非常期望，仍是挑战

哪个模型好

? ? 决策树：计算速度快，易于理解

? ? 神经元网络：鲁棒性好，数据多样，并行计算

? ? 贝叶斯学习：应用线性知识，有向图标示

? ? 元学习：实现模型互补

数据处理

数据分类

????? ? 结构化数据：约束较强，如table

????? ? 半结构化数据： xml和html等。约束较弱

????? ? 非结构化数据：音频、视频???

处理策略

输入数据：

属性选择：

????? 找到属性子集；测试是否满足特别标准；重新搜索直到到指定标准

????? 分类： filter（独立于学习算法，基于可分性，有fisher判断和邻域覆盖；基于相关性，有互信息的和粗糙集的）， wrapper（学习方法包括在选择过程中）添加属性（?问题：会导致决策树分类性能降低；分治决策树学习器和割治规则学习器存在这个问题；朴素贝叶斯不受随机属性影响）特定方案的选择

数值属性离散化：

????? 原则：某些分类算法（朴素贝叶斯）只能处理名词属性，或者速度比较慢

????? 分类：全局离散（单规则1R学习方案，设置阀值避免过拟合）局部离散（C4.5 在分支上进行离散）全局优于局部离散；离散后属性很难保证原有数据的有序性无监督离散（等值区间装箱：过于粗糙；等频区间装箱）

离散属性转化为数值

????? 分类：多变量编码（对距离不敏感，适用于变量之间没有明确关系的变量，量太大）；二值属性编码（可以用整数代替）?? ? ? ? ? ??

????? ?属性转化：原始数据运算得到 Extraction

????? 主成分分析 PCA：（主成分之间互不相关，适合回归分析，贝叶斯方法）

????? 随机投影（将数据投影到维数预先设定好的子空间，能很好保持距离关系，计算成本低很多）

从文本到属性向量

????? 比较复杂

自动数据清理

????? 想法很好，实现起来比较难

????? 稳健回归（处理离群点的统计方法称为稳健型）

????? 最小二乘回归（处理噪声，放大误差）：?二乘方距离衡量

????? 绝对值距离衡量，?二乘中值距离衡量（减少误差）

输出数据：?

??????样本重采样和元学习算法

十大经典算法

统计学习（基于小样本）

SVM（Support Vector Maschine）

????? 基本思想就是提高维度

EM:

????? 最大期望算法，在聚类中寻找最大似然估计。是否一类使用期望判断

频繁模式： ??

Apriori：

????? 关联规则频繁项集中影响最大的算法

搜索引擎： ? ?

PageRank：

是google算法重要内容。通过链接的数量排网页的顺序，如论文被引述越高则重要性越高。

基本思想： ????

????? 从许多优质网页链接过来的网页，必定也是优质网页。类似于文献引文机制，如果A连接到B，那么相当于A对B投票了，?引入PR值作为页面的重要性

基本模型：

????? 随机冲浪者模型? ?? ?

优点： ?

????? 与查询无关的静态算法；比较客观公平

缺点： ?

????? PR值与主题之间的对应关系不清晰； ?其实新网页，偏重旧网页，没有考虑网站的性能问题?

聚类：

K-Means：

聚类算法，根据近朱者赤近墨者黑。是否一类使用距离判断。

先随机分配K个中心点，将每个实例根据距离计算得到K个簇；分别计算各簇中所有实例的均值，作为新的中心；迭代以上两步，直到中心点无变化。

只能处理数值性数值，如果是离散需要转换为0,1,2..等

专家学习：

? ? Adaboost：迭代算法，类似于连机归纳法

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!