机器学习 – 使用RBF内核SVM时,c或gamma的高值是否有问题？

发布时间：2020-12-16 09:52:06 所属栏目：百科来源：网络整理

导读：我正在使用WEKA / LibSVM来训练术语提取系统的分类器.我的数据不是线性可分的,因此我使用RBF内核而不是线性内核. 我按照 guide from Hsu et al.并迭代了c和gamma的几个值.最适合分类已知术语(测试和训练材料当然不同)的参数相当高,c = 2 ^ 10且γ= 2 ^ 3. 到

我正在使用WEKA / LibSVM来训练术语提取系统的分类器.我的数据不是线性可分的,因此我使用RBF内核而不是线性内核.
我按照 guide from Hsu et al.并迭代了c和gamma的几个值.最适合分类已知术语(测试和训练材料当然不同)的参数相当高,c = 2 ^ 10且γ= 2 ^ 3.
到目前为止,高参数似乎工作正常,但我想知道它们是否会进一步导致任何问题,特别是在过度拟合方面.我计划通过提取新术语来进行另一次评估,但由于我需要人类评判,这些评估费用很高.
即使两个评估结果都是肯定的,我的参数仍然有问题吗？我可能还需要其他内核类型吗？

非常感谢你！

解决方法

通常,您必须执行交叉验证以回答参数是否正确或是否导致过度拟合.

从“直觉”的角度来看 – 它似乎是高度过度拟合的模型.高伽马值意味着你的高斯非常狭窄(在每个尖端周围凝聚),结合高C值将导致记忆大部分训练集.如果您查看支持向量的数量,如果它是您整个数据的50％,我不会感到惊讶.其他可能的解释是您没有扩展数据.大多数ML方法,尤其是SVM,需要对数据进行适当的预处理.这尤其意味着您应该对输入数据进行标准化(标准化),以使其或多或少地包含在单位范围内.

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!