加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 综合聚焦 > 资源网站 > 资源 > 正文

RTextTools中的Create_Analytics

发布时间:2020-12-14 16:43:27 所属栏目:资源 来源:网络整理
导读:我试图将Text文档分类为多个类别. 我的下面代码工作正常 matrix[[i]] - create_matrix(trainingdata[[i]][,1],language="english",removeNumbers=FALSE,stemWords=FALSE,weighting=weightTf,minWordLength=3) container[[i]] - create_container(matrix[[i]]
我试图将Text文档分类为多个类别.
我的下面代码工作正常
matrix[[i]] <- create_matrix(trainingdata[[i]][,1],language="english",removeNumbers=FALSE,stemWords=FALSE,weighting=weightTf,minWordLength=3)                              
container[[i]] <- create_container(matrix[[i]],trainingdata[[i]][,2],trainSize=1:50,testSize=51:100),models[[i]] <- train_models(container[[i]],algorithms=c("MAXENT","SVM"))
results[[i]] = classify_models(container[[i]],models[[i]])

当我尝试下面的代码来获得精度,召回,准确度值:

analytic[[i]]  <- create_analytics(container[[i]],results[[i]])

我收到以下错误:

Error in `row.names<-.data.frame`(`*tmp*`,value = c(NA_real_,NA_real_ : 
  duplicate 'row.names' are not allowed

我的类别采用文本格式.
如果我将这些类别转换为数字 – 上面的代码工作正常.

是否有工作来保持文本格式的类别,并获得精度,准确值.

我的目标是获得多级分类器的精度,召回率,准确度值和混淆矩阵.
是否有任何其他包来获取多类文本分类器的上述值(一个对所有)

解决方法

正如user3294343评论的那样,它将我的类字段转换为因子,然后转换为数字,如下所示:
doc_matrix <- create_matrix(dataset.arff$text,removeNumbers=TRUE,stemWords=TRUE,removeSparseTerms=.998)
container <- create_container(doc_matrix,as.numeric(factor(dataset.arff$"@@class@@")),trainSize=1:1500,testSize=1501:1999,virgin=FALSE)

这解决了我的错误.

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读