首页 > 其他分享 >论文查重

论文查重

时间:2024-09-11 11:13:28浏览次数:5  
标签:查重 文件 读取 论文 余弦 参数 相似

| 这个作业属于哪个课程 | https://edu.cnblogs.com/campus/gdgy/CSGrade22-34 |

| ----------------- | --------------- |

| 这个作业要求在哪里|https://edu.cnblogs.com/campus/gdgy/CSGrade22-34/homework/13229 |

| 这个作业的目标 |论文查重 |

代码链接:https://github.com/lTsasa/PlagiarismDetection/tree/main/3122004618

代码组织
主类 (Main): 负责读取命令行参数,调用查重逻辑,并输出结果。

关键函数与流程图

关键函数
cut(String text): ik分词器完成分词
buildFrequencyVector(List words, Map<String, Integer> wordDict) 构建向量
calculateCosineSimilarity(int[] vector1, int[] vector2): 计算两个文本字符串的相似度,返回相似度百分比。

流程图

开始
解析命令行参数
读取原文文件路径
读取抄袭版文件路径
读取输出文件路径
读取原文和抄袭版内容
调用 calculateCosineSimilarity
计算相似度
写入结果到文件
使用 Writer 将相似度百分比写入输出文件
结束
算法关键与独到之处
算法选择:余弦相似度算法
独到之处:通过分词进行词语的向量构建并算出余弦相似度
性能改进思路
在信息检索领域,修正余弦相似度可以用于计算查询和文档之间的相似度。由于文档的长度和查询的长度通常差异很大,直接使用余弦相似度可能会导致不准确的结果。通过修正余弦相似度,可以消除这种长度差异的影响,提高检索的准确性。

单元测试设计
测试 test:
构造测试数据:包含正常文本文件、空文件、不存在文件的路径。
空文件

正常文本

不存在路径

验证返回结果是否符合预期。
测试 SimilarityChecker.calculateSimilarity:
构造多组测试数据,包括完全相同的文本、部分相同的文本、完全不同的文本等。





验证返回的相似度百分比是否正确。

异常处理
文件不存在异常:当尝试读取不存在的文件时,捕获 FileNotFoundException 并输出友好的错误信息。
读取文件错误:当文件内容不是预期的文本格式时(如二进制文件),捕获 IOException 并适当处理。
参数异常:检查命令行参数是否有效,如路径是否为空等。
我这里做了无参数的默认使用参数

这是非二进制文件情况

这是参数不合理情况

无警告

标签:查重,文件,读取,论文,余弦,参数,相似
From: https://www.cnblogs.com/hashbook/p/18407514

相关文章

  • springboot+vue校园流浪猫管理平台【程序+论文+开题】计算机毕业设计
    系统程序文件列表开题报告内容研究背景在现代化的大学校园中,流浪猫作为非人为饲养却常驻校园的特殊群体,它们不仅为师生们的生活增添了几分温馨与乐趣,也面临着生存环境的挑战与健康问题。随着校园内流浪猫数量的增加,如何有效管理、保护这些小生命,确保它们得到必要的关怀与救......
  • springboot+vue学院电子政务系统【程序+论文+开题】计算机毕业设计
    系统程序文件列表开题报告内容研究背景随着信息技术的飞速发展,电子政务已成为提升政府及教育机构管理效率、优化服务流程、增强信息透明度的重要手段。学院作为培养未来社会栋梁的摇篮,其内部管理与服务水平的提升直接关系到教育质量与学生满意度。然而,传统的手工管理模式在......
  • LAMAR论文阅读笔记
    LargeLanguageModelsAugmentedRatingPredictioninRecommenderSystem论文阅读笔记Abstract现存的问题:​ 由于对推荐中的协作信息缺乏了解,它们在推荐任务(如评分预测任务)中的直接应用往往达不到最佳效果。提出方法:​ 在本文中,我们提出了LargelAnguageModelAugmented......
  • springboot+vue疫情防控物业信息采集系统【程序+论文+开题】计算机毕业设计
    系统程序文件列表开题报告内容研究背景随着全球疫情的持续影响,物业管理作为社区疫情防控的第一线,其重要性日益凸显。传统物业管理方式在面对疫情时,往往存在信息采集不全、效率低下、响应滞后等问题,难以有效支撑精准防控的需求。因此,开发一套高效、智能的疫情防控物业信息采......
  • springboot+vue有机农场客户关系管理系统的设计与实现【程序+论文+开题】计算机毕业设
    系统程序文件列表开题报告内容研究背景随着消费者对食品安全及健康饮食需求的日益增长,有机农场作为提供无污染、纯天然农产品的重要基地,其市场地位日益凸显。然而,传统农场管理模式在面对日益复杂的客户群体、多样化的需求及高效运营要求时显得力不从心。特别是在客户关系管......
  • springboot+vue学生公寓报修管理系统【程序+论文+开题】计算机毕业设计
    系统程序文件列表开题报告内容研究背景随着高校规模的不断扩大,学生公寓作为学生学习与生活的重要场所,其设施设备的维护与管理日益成为高校后勤服务的重要环节。传统的学生公寓报修方式往往依赖于纸质登记或口头报告,这种方式不仅效率低下,易导致信息丢失或延误处理,还难以对维......
  • springboot+vue诊所预约系统【程序+论文+开题】计算机毕业设计
    系统程序文件列表开题报告内容研究背景随着医疗服务的日益普及和民众健康意识的增强,传统诊所面临的就诊高峰、资源分配不均及患者等待时间长等问题日益凸显。特别是在大城市,优质医疗资源尤为紧张,患者往往需要提前数天甚至数周排队挂号,极大地影响了就医体验和医疗效率。在此......
  • 基于tf-idf的论文查重
    基于tf-idf的论文查重github地址:https://github.com/gomevie/gomevie/tree/main这个作业属于哪个课程广工计院计科34班软工这个作业要求在哪里作业要求这个作业的目标设计并实现一个论文查重算法,通过比较原文和抄袭版论文文件,计算并输出重复率。PSP表格......
  • 写论文不再头秃!教你用ChatGPT一天搞定初稿!
    论文写作,这大概是每个学生避不开的“必修噩梦”吧。尤其是,当你发现截止日期就像明天的天气预报一样迫在眉睫,而文档依然一片空白时,那种无力感,简直就是“说好的秃头,怎么突然就到了呢?”然而,如今我们有了学术界的“救星”——猜猜是什么?是的,你没猜错,就是ChatGPT!想象一下,你一边......
  • jsp超市管理系统设计与实现5ojjs本系统(程序+源码+数据库+调试部署+开发环境)带论文文档
    jsp超市管理系统设计与实现5ojjs本系统(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。系统程序文件列表项目功能会员,商品分类,员工信息,热卖商品,订单信息,商品采购开题报告内容JSP超市管理系统设计与实现(5OJJS)开题内容报告一......