数据挖掘笔记(6)——挖掘软件、测试数据
挖掘软件:软件介绍????? 数据挖掘:SPSS ?? ????? 数据统计: SPSS(简单易用,常用算法), SAS (入手有点困难,可编程) ? ?STATA ? ? SVM(支持向量机)软件 Weka软件:实验室使用,非商用 ?????? 参考网站: ?www。chinakdd.com ??www.wekacn.org ?????????? Explorer: 算法可行性(对数据预处理,建立模型(分类、关联、聚类等)) ?????????? Experimenter:算法评估(使用多个算法对一组数据进行分析),完成分布式任务处理 ?????? ? Knowledge FLow: 对大型数据处理的递增算法,画一个工作流 ?????? ? Simple CLI: 简单的命令行 转换为rrdf格式1.???? 进入explorer 2.???? 打开csv文件 3.???? Save 为 rrdf格式 数据预处理1.??????删除无用属性,如id 2.??????离散化:? 直接修改 rrdf文件 简单操作:1. 进入explorer 部分 2. 选择数据源 : 安装目录data下有实例数据 3. 预处理: 删除属性,离散化 4.???? 分类 选择部分数据作为训练集 ??????? 通过交叉验证防止过度拟合; ??????? correctly classified instances 代表成功率; ??????? confusion matrix对角线上数字是正确预测的 应用模型 将模型应用到剩下的数据中,在set中选择要应用的数据文件 聚类 选择【cluster】 没有训练数据,所以选择 Use Training Set 参考教程: http://wenku.baidu.com/view/360d99146edb6f1aff001f40.html 数据库 UCI ??? ? ? ? ??????? 有很多数据挖掘的实例数据 ????? 加州大学尔湾分校 ??www.uci.edu ??????? 下载地址: archive.ics.uci.edu/ml 数据流挖掘? ? 场景: 网络安全, 骚扰短信等, ?金融市场,视频流挖掘 ? ? 特点: 高速到达, 连续不断的 , 计算一个精确结果不可能(时间要求高) ? ? 模型: 收银机模型 ?十字转门模型 ????? ?算法:VFDT算法; fVFDT ? UFFT(超快速森林算法) (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |