加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

《数据挖掘导论》学习笔记-特征创建

发布时间:2020-12-14 03:54:16 所属栏目:大数据 来源:网络整理
导读:根据原有的属性我们可以创建出新的属性集,而且新的属性数目可能少于原有的属性数目,也就是降维。 创建新的属性的方法有三种:特征提

根据原有的属性我们可以创建出新的属性集,而且新的属性数目可能少于原有的属性数目,也就是降维。

创建新的属性的方法有三种:特征提取、映射数据到新的空间、特征构造

1、特征提取

定义:根据原有的数据自己创建新的属性集。
有的数据的属性是非常多的,而特征提取技术都是具体针对某个领域的而不是通用的,因此对数据的处理需要一些较高层次的抽象,提供一些较高层次的属性。比如照片的集合,按照照片是否包含人脸进行分类,而原始数据是像素的集合,因此许多分类算法都不适用,而如果抽象成与人脸高度相关的某些类型的边和区域,则可以对其应用更多的分类技术。

2、映射数据到新的空间

下图的时间序列是包含了3个时间序列的,



而3个时间序列中包含的其中2个时间序列如下图,他们频率分别是7HZ和17HZ,



第三个时间序列则是随机噪声。
我们如果直接对第一个图中包含三个时间序列的数据进行分析的话是没办法进行的。因此我们可以对原始数据进行傅里叶变换,计算功率频谱,如图:



图中的两个尖峰对于包含7HZ和17HZ的时间序列周期。
对于时间序列和其他类型的数据,小波变换也是有用的。

3、特征构造

有时候原始数据的特征不适用于数据挖掘的算法,这时候我们可以由这些原始的特征来构造新的特征。
例如:我们有一个数据集表示人工制品,他的属性包含人工制品的质量和体积。我们希望根据制造材料对这些人工制品进行分类,这时候我们可以根据(质量、体积)=>密度,通过物体的密度直接对人工制品进行分类。

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读