加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

数据挖掘笔记(6)——挖掘软件、测试数据

发布时间:2020-12-14 04:01:08 所属栏目:大数据 来源: www。chinakdd.com www.wekacn.
导读:挖掘软件: 软件介绍 ????? 数据挖掘:SPSS ?? ????? 数据统计: SPSS(简单易用,常用算法), SAS (入手有点困难,可编程) ? ?STATA ? ? SVM(支持向量机)软件 Weka软件: 实验室使用,非商用 ?????? 参考网站: ?www。chinakdd.com ?? www.wekacn.org

挖掘软件:

软件介绍

????? 数据挖掘:SPSS ??

????? 数据统计: SPSS(简单易用,常用算法), SAS (入手有点困难,可编程) ? ?STATA

? ? SVM(支持向量机)软件

Weka软件:

实验室使用,非商用

?????? 参考网站: ?www。chinakdd.com ??www.wekacn.org

?????????? Explorer: 算法可行性(对数据预处理,建立模型(分类、关联、聚类等))

?????????? Experimenter:算法评估(使用多个算法对一组数据进行分析),完成分布式任务处理

?????? ? Knowledge FLow: 对大型数据处理的递增算法,画一个工作流

?????? ? Simple CLI: 简单的命令行

转换为rrdf格式

1.???? 进入explorer

2.???? 打开csv文件

3.???? Save 为 rrdf格式

数据预处理

1.??????删除无用属性,如id

2.??????离散化:? 直接修改 rrdf文件

简单操作:

1. 进入explorer 部分

2. 选择数据源 : 安装目录data下有实例数据

3. 预处理: 删除属性,离散化

4.???? 分类

选择部分数据作为训练集

??????? 通过交叉验证防止过度拟合;

??????? correctly classified instances 代表成功率;

??????? confusion matrix对角线上数字是正确预测的

应用模型

将模型应用到剩下的数据中,在set中选择要应用的数据文件

聚类

选择【cluster】

没有训练数据,所以选择 Use Training Set

参考教程:

http://wenku.baidu.com/view/360d99146edb6f1aff001f40.html

数据库 UCI ??? ? ? ? ??

????? 有很多数据挖掘的实例数据

????? 加州大学尔湾分校 ??www.uci.edu

??????? 下载地址: archive.ics.uci.edu/ml

数据流挖掘

? ? 场景: 网络安全, 骚扰短信等, ?金融市场,视频流挖掘

? ? 特点: 高速到达, 连续不断的 , 计算一个精确结果不可能(时间要求高)

? ? 模型: 收银机模型 ?十字转门模型

????? ?算法:VFDT算法; fVFDT ? UFFT(超快速森林算法)

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读