【学生研究课题】文档相似性检测系统(作业查重)
? ? 上次写了一篇【学生研究课题】CSDN博客数据获取、分析、分享,分析完成该题的研究思路。今天我们再来分享另一个有实际价值的问题。 问题说明(所有题型,见WORD附件) ? ? 在阅读电子版的实验报告时,经常会遇到两-三个学生的实验报告除了姓名、学号外基本一致,现在请思考开发一个程序,监测班级学生的实验报告的相似性,假设有50个学生的实验报告,则最后有一个50×50的矩阵,每一行为某学生与其他学生报告的相似性得分。 实现思路 ? ? 可以使用迭代开发的思路。 (1)开发出一个雏形。 ? ? 比较两篇文档(txt,or word格式)的相似性,直接使用余弦定理来完成。 (2)增加功能:多篇文件相似性计算。 ? ? 从两篇,到多篇,可以检查我们算法的正确性。 (3)增加功能:比较同一个目录下文件的相似性。 ? ? 如上,功能更加强大。 (4)增加功能:添加中文分词。 ? ? 以字为单位检查相似性的精准度 比 词略差一些。而且通过分词包,可以学习更多的内容。 (5)增加功能:去掉低频词汇,统计TF-IDF。 ? ? 可以查看阮一峰的博文,TF-IDF与余弦相似性的应用(一):自动提取关键词。 (6)完善:开发图形界面 和 命令行两种方式。 测试数据集 ? ? 压缩包(下载)。 (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |