加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

数据处理

发布时间:2020-12-14 01:44:08 所属栏目:大数据 来源:网络整理
导读:1. 怎样处理丢失数据 ? 忽略 手动填补丢失值 自动填补丢失值 2.如何检验异常值 概率分布采用统计检验 距离度量原理任何簇的点,密度局部利群点因子 3.处理不平衡数据集的主要任务 一准确度度为评价指标的分类方法不能很好的处理不平衡数据集 4.为什么特征选

1. 怎样处理丢失数据

? 忽略

手动填补丢失值

自动填补丢失值

2.如何检验异常值

概率分布采用统计检验 距离度量原理任何簇的点,密度局部利群点因子

3.处理不平衡数据集的主要任务

一准确度度为评价指标的分类方法不能很好的处理不平衡数据集

4.为什么特征选择如此器重要

数据包含有很多冗余的,不相关的特征。特征选择可以提高模型的可解释性,导致更短的训练时间,能够避免过拟合现象从而增强可推广性。

5.如何选择表征主要信息的特征

逐步向前选择:有空属性开始,每次选择原属性集中最好的属性

逐步向后删除:

逐步向前选择和逐步向前删除的组合:

决策树归纳:不出现在树中的属性假设是不相关的,出现的属性形成归约后的属性子集

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读