RTextTools中的Create_Analytics

发布时间：2020-12-14 16:43:27 所属栏目：资源来源：网络整理

导读：我试图将Text文档分类为多个类别. 我的下面代码工作正常 matrix[[i]] - create_matrix(trainingdata[[i]][,1],language="english",removeNumbers=FALSE,stemWords=FALSE,weighting=weightTf,minWordLength=3) container[[i]] - create_container(matrix[[i]]

我试图将Text文档分类为多个类别.
我的下面代码工作正常

matrix[[i]] <- create_matrix(trainingdata[[i]][,1],language="english",removeNumbers=FALSE,stemWords=FALSE,weighting=weightTf,minWordLength=3)                              
container[[i]] <- create_container(matrix[[i]],trainingdata[[i]][,2],trainSize=1:50,testSize=51:100),models[[i]] <- train_models(container[[i]],algorithms=c("MAXENT","SVM"))
results[[i]] = classify_models(container[[i]],models[[i]])

当我尝试下面的代码来获得精度,召回,准确度值：

analytic[[i]]  <- create_analytics(container[[i]],results[[i]])

我收到以下错误：

Error in `row.names<-.data.frame`(`*tmp*`,value = c(NA_real_,NA_real_ : 
  duplicate 'row.names' are not allowed

我的类别采用文本格式.
如果我将这些类别转换为数字 – 上面的代码工作正常.

是否有工作来保持文本格式的类别,并获得精度,准确值.

我的目标是获得多级分类器的精度,召回率,准确度值和混淆矩阵.
是否有任何其他包来获取多类文本分类器的上述值(一个对所有)

解决方法

正如user3294343评论的那样,它将我的类字段转换为因子,然后转换为数字,如下所示：

doc_matrix <- create_matrix(dataset.arff$text,removeNumbers=TRUE,stemWords=TRUE,removeSparseTerms=.998)
container <- create_container(doc_matrix,as.numeric(factor(dataset.arff$"@@class@@")),trainSize=1:1500,testSize=1501:1999,virgin=FALSE)

这解决了我的错误.

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!