数据挖掘笔记(5)——数据处理、模型评估、可视化、十大经典算
可视化目标:? ??????利用人类的视觉从数据中提取信息 ? ??????对复杂数据集提供概览 ? ??????标识数据中的结构、模式、趋势、异常和联系? ?? 分类:? ??????科学可视化 ? ??????虚拟现实 ? ??????信息可视化 举例:????? ? 雷达图:描述几个物体的多维属性(也可实现每个属性和理想属性的对比);? ????? ? x1yn: ?描述分类,如表格数据,x轴为属性名,y轴为数值,使用不同的颜色区分不同的记录行 ????? ? plot: 区分离群点 ? ? ? ? 颜色分级图: X为序列值,如时间; y为离散值,如ip;图上表示特定时间段,某IP的流量(使用颜色块进行分级) ? ? ? ? 双向流量图: ? ? ? ? X轴相同在中间,y轴两个方向都为正, 如x为时间,y1为ip1的流量y2为ip2的流量,可以非常方便地形成对比 ? ? ? ?3d chart图: 双向流量图不太好找时,也可以用来完成对比功能 模型评估什么是有趣的:? ? 易于理解 ? ? 对新数据有效 ? ? 新颖的 ? ? 潜在有用 产生所有模型:? ? 不现实,低效的 产生有趣模式:? ? 非常期望,仍是挑战 哪个模型好? ? 决策树: 计算速度快,易于理解 ? ? 神经元网络:鲁棒性好,数据多样,并行计算 ? ? 贝叶斯学习: 应用线性知识,有向图标示 ? ? 元学习: 实现模型互补 ? 数据处理数据分类????? ? 结构化数据: 约束较强,如table ????? ? 半结构化数据: xml和html等。 约束较弱 ????? ? 非结构化数据: 音频、视频??? 处理策略输入数据:属性选择: ????? 找到属性子集; 测试是否满足特别标准; 重新搜索直到到指定标准 ????? 分类: filter(独立于学习算法,基于可分性,有fisher判断和邻域覆盖;基于相关性,有互信息的和粗糙集的), wrapper(学习方法包括在选择过程中)添加属性(?问题:会导致决策树分类性能降低;分治决策树学习器和割治规则学习器存在这个问题;朴素贝叶斯不受随机属性影响) 特定方案的选择 数值属性离散化: ????? 原则: 某些分类算法(朴素贝叶斯)只能处理名词属性,或者速度比较慢 ????? 分类: 全局离散(单规则1R学习方案,设置阀值避免过拟合)局部离散(C4.5 在分支上进行离散) 全局优于局部离散; 离散后属性很难保证原有数据的有序性 无监督离散(等值区间装箱:过于粗糙;等频区间装箱) 离散属性转化为数值 ????? 分类:多变量编码(对距离不敏感,适用于变量之间没有明确关系的变量,量太大);二值属性编码(可以用整数代替)?? ? ? ? ? ?? ????? ?属性转化: 原始数据运算得到 Extraction ????? 主成分分析 PCA:(主成分之间互不相关,适合回归分析,贝叶斯方法) ????? 随机投影(将数据投影到维数预先设定好的子空间,能很好保持距离关系,计算成本低很多) 从文本到属性向量 ????? 比较复杂 自动数据清理????? 想法很好,实现起来比较难 ????? 稳健回归(处理离群点的统计方法称为稳健型) ????? 最小二乘回归(处理噪声,放大误差):?二乘方距离衡量 ????? 绝对值距离衡量,?二乘中值距离衡量(减少误差) 输出数据:???????样本重采样和元学习算法 十大经典算法分类:C4.5 ??核心算法是ID3,对ID3的改进: ????????使用信息增益率来选择属性,克服了信息增益偏向选择取值多的属性的不足;? ? ? ? ????? ? 在树构造过程中进行剪枝 ????? ? 能够完成对连续属性的离散化处理 ????? ? 能够对不完整数据进行处理 K最近邻????? 是分类算法,也根据 近朱者赤近墨者黑 CART????? 分类与回归树,在分类树下有两个关键思想,第一个是递归地划分自变量空间,第二个是用验证数据进行剪枝。 朴素贝叶斯????? 数学基础非常坚实,可处理非完整数据,容易理解; 统计学习(基于小样本)SVM(Support Vector Maschine)????? 基本思想就是提高维度 EM:????? 最大期望算法,在聚类中寻找最大似然估计。是否一类使用期望判断 频繁模式: ??Apriori:????? 关联规则频繁项集中影响最大的算法 搜索引擎: ? ?PageRank:是google算法重要内容。通过链接的数量排网页的顺序,如论文被引述越高则重要性越高。 基本思想: ???? ????? 从许多优质网页链接过来的网页,必定也是优质网页。类似于文献引文机制,如果A连接到B,那么相当于A对B投票了,?引入PR值作为页面的重要性 基本模型: ????? 随机冲浪者模型? ?? ? 优点: ? ????? 与查询无关的静态算法; 比较客观公平 缺点: ? ????? PR值与主题之间的对应关系不清晰; ?其实新网页,偏重旧网页,没有考虑网站的性能问题? 聚类:K-Means:聚类算法,根据近朱者赤近墨者黑。 是否一类使用距离判断。 先随机分配K个中心点,将每个实例根据距离计算得到K个簇;分别计算各簇中所有实例的均值,作为新的中心;迭代以上两步,直到中心点无变化。 只能处理数值性数值,如果是离散需要转换为0,1,2..等 专家学习:? ? Adaboost: 迭代算法,类似于连机归纳法 (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |