加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

数据挖掘笔记(5)——数据处理、模型评估、可视化、十大经典算

发布时间:2020-12-14 04:01:09 所属栏目:大数据 来源:网络整理
导读:可视化 目标: ? ??????利用人类的视觉从数据中提取信息 ? ??????对复杂数据集提供概览 ? ??????标识数据中的结构、模式、趋势、异常和联系? ?? 分类: ? ??????科学可视化 ? ??????虚拟现实 ? ??????信息可视化 举例: ????? ? 雷达图:描述几个物体的多维

可视化

目标:

? ??????利用人类的视觉从数据中提取信息

? ??????对复杂数据集提供概览

? ??????标识数据中的结构、模式、趋势、异常和联系? ??

分类:

? ??????科学可视化

? ??????虚拟现实

? ??????信息可视化

举例:

????? ? 雷达图:描述几个物体的多维属性(也可实现每个属性和理想属性的对比);?

????? ? x1yn: ?描述分类,如表格数据,x轴为属性名,y轴为数值,使用不同的颜色区分不同的记录行

????? ? plot: 区分离群点

? ? ? ? 颜色分级图: X为序列值,如时间; y为离散值,如ip;图上表示特定时间段,某IP的流量(使用颜色块进行分级)

? ? ? ? 双向流量图:

? ? ? ? X轴相同在中间,y轴两个方向都为正, 如x为时间,y1为ip1的流量y2为ip2的流量,可以非常方便地形成对比

? ? ? ?3d chart图: 双向流量图不太好找时,也可以用来完成对比功能

模型评估

什么是有趣的:

? ? 易于理解

? ? 对新数据有效

? ? 新颖的

? ? 潜在有用

产生所有模型:

? ? 不现实,低效的

产生有趣模式:

? ? 非常期望,仍是挑战

哪个模型好

? ? 决策树: 计算速度快,易于理解

? ? 神经元网络:鲁棒性好,数据多样,并行计算

? ? 贝叶斯学习: 应用线性知识,有向图标示

? ? 元学习: 实现模型互补

?

数据处理

数据分类

????? ? 结构化数据: 约束较强,如table

????? ? 半结构化数据: xml和html等。 约束较弱

????? ? 非结构化数据: 音频、视频???

处理策略

输入数据:

属性选择:

????? 找到属性子集; 测试是否满足特别标准; 重新搜索直到到指定标准

????? 分类: filter(独立于学习算法,基于可分性,有fisher判断和邻域覆盖;基于相关性,有互信息的和粗糙集的), wrapper(学习方法包括在选择过程中)添加属性(?问题:会导致决策树分类性能降低;分治决策树学习器和割治规则学习器存在这个问题;朴素贝叶斯不受随机属性影响) 特定方案的选择

数值属性离散化:

????? 原则: 某些分类算法(朴素贝叶斯)只能处理名词属性,或者速度比较慢

????? 分类: 全局离散(单规则1R学习方案,设置阀值避免过拟合)局部离散(C4.5 在分支上进行离散) 全局优于局部离散; 离散后属性很难保证原有数据的有序性 无监督离散(等值区间装箱:过于粗糙;等频区间装箱)

离散属性转化为数值

????? 分类:多变量编码(对距离不敏感,适用于变量之间没有明确关系的变量,量太大);二值属性编码(可以用整数代替)?? ? ? ? ? ??

????? ?属性转化: 原始数据运算得到 Extraction

????? 主成分分析 PCA:(主成分之间互不相关,适合回归分析,贝叶斯方法)

????? 随机投影(将数据投影到维数预先设定好的子空间,能很好保持距离关系,计算成本低很多)

从文本到属性向量

????? 比较复杂

自动数据清理

????? 想法很好,实现起来比较难

????? 稳健回归(处理离群点的统计方法称为稳健型)

????? 最小二乘回归(处理噪声,放大误差):?二乘方距离衡量

????? 绝对值距离衡量,?二乘中值距离衡量(减少误差)

输出数据:?

??????样本重采样和元学习算法

十大经典算法

分类:

C4.5 ?

?核心算法是ID3,对ID3的改进:

????????使用信息增益率来选择属性,克服了信息增益偏向选择取值多的属性的不足;? ? ? ?

????? ? 在树构造过程中进行剪枝

????? ? 能够完成对连续属性的离散化处理

????? ? 能够对不完整数据进行处理

K最近邻

????? 是分类算法,也根据 近朱者赤近墨者黑

CART

????? 分类与回归树,在分类树下有两个关键思想,第一个是递归地划分自变量空间,第二个是用验证数据进行剪枝。

朴素贝叶斯

????? 数学基础非常坚实,可处理非完整数据,容易理解;

统计学习(基于小样本)

SVM(Support Vector Maschine)

????? 基本思想就是提高维度

EM:

????? 最大期望算法,在聚类中寻找最大似然估计。是否一类使用期望判断

频繁模式: ??

Apriori:

????? 关联规则频繁项集中影响最大的算法

搜索引擎: ? ?

PageRank:

是google算法重要内容。通过链接的数量排网页的顺序,如论文被引述越高则重要性越高。

基本思想: ????

????? 从许多优质网页链接过来的网页,必定也是优质网页。类似于文献引文机制,如果A连接到B,那么相当于A对B投票了,?引入PR值作为页面的重要性

基本模型:

????? 随机冲浪者模型? ?? ?

优点: ?

????? 与查询无关的静态算法; 比较客观公平

缺点: ?

????? PR值与主题之间的对应关系不清晰; ?其实新网页,偏重旧网页,没有考虑网站的性能问题?

聚类:

K-Means:

聚类算法,根据近朱者赤近墨者黑。 是否一类使用距离判断。

先随机分配K个中心点,将每个实例根据距离计算得到K个簇;分别计算各簇中所有实例的均值,作为新的中心;迭代以上两步,直到中心点无变化。

只能处理数值性数值,如果是离散需要转换为0,1,2..等

专家学习:

? ? Adaboost: 迭代算法,类似于连机归纳法

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读