java – 自然语言处理 – 文本分类的特征
所以我试图使用Weka SVM对文本进行分类.到目前为止,我用于训练SVM的特征向量由培训文本中出现的unigrams和bigrams的TF-IDF统计数据组成.但是,我从测试训练有素的SVM模型得到的结果根本不准确,所以有人能给我反馈我的程序吗?我按照以下步骤对文本进行分类:
>构建一个由训练文本中提取的unigrams和bigrams组成的字典 还有,我需要训练具有更多功能的SVM吗?如果是这样,在这种情况下哪些功能最有效?非常感谢任何帮助,谢谢. 解决方法
自然语言文档通常包含许多只出现一次的单词,也称为
Hapax Legomenon.例如,Moby-Dick中44%的不同单词只出现一次,17%出现两次.
因此,包括来自语料库的所有单词通常会导致过多的特征.为了减小此功能空间的大小,NLP系统通常使用以下一项或多项: >删除停用词 – 对于作者分类,这些通常是简短的常用词,如is,the,at,which等. 对于词干,删除停用词,索引语料库,计算tf_idf或文档相似度,我建议使用Lucene.Google“Lucene in 5分钟”,以获得一些关于使用lucene的快速简便的教程. (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |