加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 百科 > 正文

机器学习 – 使用RBF内核SVM时,c或gamma的高值是否有问题?

发布时间:2020-12-16 09:52:06 所属栏目:百科 来源:网络整理
导读:我正在使用WEKA / LibSVM来训练术语提取系统的分类器.我的数据不是线性可分的,因此我使用RBF内核而不是线性内核. 我按照 guide from Hsu et al.并迭代了c和gamma的几个值.最适合分类已知术语(测试和训练材料当然不同)的参数相当高,c = 2 ^ 10且γ= 2 ^ 3. 到
我正在使用WEKA / LibSVM来训练术语提取系统的分类器.我的数据不是线性可分的,因此我使用RBF内核而不是线性内核.
我按照 guide from Hsu et al.并迭代了c和gamma的几个值.最适合分类已知术语(测试和训练材料当然不同)的参数相当高,c = 2 ^ 10且γ= 2 ^ 3.
到目前为止,高参数似乎工作正常,但我想知道它们是否会进一步导致任何问题,特别是在过度拟合方面.我计划通过提取新术语来进行另一次评估,但由于我需要人类评判,这些评估费用很高.
即使两个评估结果都是肯定的,我的参数仍然有问题吗?我可能还需要其他内核类型吗?

非常感谢你!

解决方法

通常,您必须执行交叉验证以回答参数是否正确或是否导致过度拟合.

从“直觉”的角度来看 – 它似乎是高度过度拟合的模型.高伽马值意味着你的高斯非常狭窄(在每个尖端周围凝聚),结合高C值将导致记忆大部分训练集.如果您查看支持向量的数量,如果它是您整个数据的50%,我不会感到惊讶.其他可能的解释是您没有扩展数据.大多数ML方法,尤其是SVM,需要对数据进行适当的预处理.这尤其意味着您应该对输入数据进行标准化(标准化),以使其或多或少地包含在单位范围内.

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读