加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

【学生研究课题】文档相似性检测系统(作业查重)

发布时间:2020-12-14 03:31:14 所属栏目:大数据 来源:网络整理
导读:? ? 上次写了一篇【学生研究课题】CSDN博客数据获

? ? 上次写了一篇【学生研究课题】CSDN博客数据获取、分析、分享,分析完成该题的研究思路。今天我们再来分享另一个有实际价值的问题。


问题说明(所有题型,见WORD附件)

? ? 在阅读电子版的实验报告时,经常会遇到两-三个学生的实验报告除了姓名、学号外基本一致,现在请思考开发一个程序,监测班级学生的实验报告的相似性,假设有50个学生的实验报告,则最后有一个50×50的矩阵,每一行为某学生与其他学生报告的相似性得分。
? ? (1) 思考一下,怎样判断两篇文档是相似的?有哪些方法。
? ? (2) 尝试着用程序实现,老师最后把的实验报告发给大家进行程序的检测。
? ? 参考:余弦定理的应用:基于文字的文本相似度计算
? ? 1.独立完成,或组成2人小组完成。
? ? 2.实现难度:难,希望有志于从事算法设计工作的同学选择此题目,做好这个题目对找工作很有帮助。


实现思路

? ? 可以使用迭代开发的思路。

(1)开发出一个雏形。

? ? 比较两篇文档(txt,or word格式)的相似性,直接使用余弦定理来完成。

(2)增加功能:多篇文件相似性计算。

? ? 从两篇,到多篇,可以检查我们算法的正确性。

(3)增加功能:比较同一个目录下文件的相似性。

? ? 如上,功能更加强大。

(4)增加功能:添加中文分词。

? ? 以字为单位检查相似性的精准度 比 词略差一些。而且通过分词包,可以学习更多的内容。

(5)增加功能:去掉低频词汇,统计TF-IDF。

? ? 可以查看阮一峰的博文,TF-IDF与余弦相似性的应用(一):自动提取关键词。

(6)完善:开发图形界面 和 命令行两种方式。


测试数据集

? ? 压缩包(下载)。

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读