加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

bigdata – 通过高维名义属性预测数字属性

发布时间:2020-12-14 05:10:20 所属栏目:大数据 来源:网络整理
导读:我在挖掘矿山的大型(100K条目)数据集方面遇到了困难,涉及物流运输.我有大约10个名义字符串属性(即城市/地区/国家名称,客户/船只识别代码等).除此之外,我有一个日期属性“离开”和一个比例缩放的数字属性“目标”. 我要做的是使用训练集来找出哪些属性与“目
我在挖掘矿山的大型(100K条目)数据集方面遇到了困难,涉及物流运输.我有大约10个名义字符串属性(即城市/地区/国家名称,客户/船只识别代码等).除此之外,我有一个日期属性“离开”和一个比例缩放的数字属性“目标”.

我要做的是使用训练集来找出哪些属性与“目标”有很强的相关性,然后通过预测测试集中条目的“目标”值来验证这些模式.

我假设聚类,分类和神经网络可能对这个问题很有用,所以我使用了RapidMiner,Knime和elki,并尝试将一些工具应用于我的数据.但是,大多数这些工具只处理数字数据,因此我没有得到有用的结果.

是否有可能将我的名义属性转换为数字属性?或者我是否需要找到可以实际处理名义数据的不同算法?

解决方法

你最有可能想要使用基于树的算法.这些都很好用于标称功能.请注意,您不想使用“id-like”属性.

我建议将RapidMiner的AutoModel功能作为一个开始. GBT和RandomForest应该运行良好.

最好,马丁

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读