首页 > 其他分享 >论文查重

论文查重

时间:2024-09-09 19:39:25浏览次数:10  
标签:查重 文件 30 20 论文 耗时 两个 分词

这个作业属于哪个课程 22级计科1班
这个作业要求在哪里 作业要求
这个作业的目标 使用代码实现论文查
github项目链接 链接

PSP

PSP2.1 Personal Software Process Stages 预估耗时(分钟) 实际耗时(分钟)
Planning 计划 20 20
· Estimate 估计这个任务需要多少时间 20 20
Development 开发 170 190
· Analysis 需求分析(包括学习新技术) 30 30
· Design Spec 生成设计文档 10 20
· Design Review 设计复审 20 30
· Coding Standard 代码规范(为当前的开发制定合适的规范) 20 20
· Design 具体设计 30 30
· Coding 具体编码 30 30
· Code Review 代码复审 10 10
· Test 测试(自我测试、修改代码、提交修改) 20 20
Reporting 报告 115 130
· Test Report 测试报告 60 80
· Size Measurement 计算工作量 25 20
· Postmortem & Process Improvement Plan 事后总结,并提出过程改进计划 30 30
Total 合计 305 340

功能实现

Jaccard 相似度

定义:Jaccard 相似度)计算两个集合的交集与并集的比例。对于文本,它通常应用于词汇集合,计算两个文本的词汇集合的交集与并集的比例。

公式:Jaccard相似度 = |A ∩ B| / |A ∪ B|

模块接口实现

调用步骤:

  1. main方法中使用hutool的工具类读取两个文件
  2. 调用TextSegmentUtils类的ikSegment方法,使用IK分词器,对两篇论文的内容分别进行分词
  3. 将分词的结果去重后分别放入两个集合中
  4. 调用JaccardUtils的calculateJaccardSimilarity方法,将两个集合的 交集/并集 作为论文相似度的结果写入到目标文件

功能测试


打成jar包后运行:

java -jar .\3122004788-1.0.jar D:\test\origin.txt D:\test\originAdd.txt D:\test\target.txt

运行结果:

异常情况测试

  1. args数组长度不足3
  2. args数组中的字符串为空
  3. args数组中的字符串不是绝对路径
  4. 读取的文件不存在
  5. 将计算结果写入文件时,路径不存在

覆盖率

性能

内存占用

方法耗时

分析:整个过程耗时的步骤为分词和读文件两个操作,这两个操作都涉及到io,所以可以判断出整个操作的瓶颈zai分词和读文件的io上
改进思路:开两个线程分别对两个文件进行读取和分词操作

标签:查重,文件,30,20,论文,耗时,两个,分词
From: https://www.cnblogs.com/wanky/p/18405134

相关文章

  • BinLLM论文阅读笔记
    Text-likeEncodingofCollaborativeInformationinLargeLanguageModelsforRecommendation论文阅读笔记Abstract现存的问题:​ 在调整用于推荐的大型语言模型(LLMRec)时,整合协作信息至关重要。现有的方法通过从头开始学习LLM潜在空间中的协作嵌入或通过外部模型的映射来......
  • 基于Node.js+vue基于vue的大学生兼职信息平台(开题+程序+论文) 计算机毕业设计
    本系统(程序+源码+数据库+调试部署+开发环境)带文档lw万字以上,文末可获取源码系统程序文件列表开题报告内容研究背景随着高等教育的普及和就业市场的日益竞争,大学生在校期间寻找兼职工作已成为常态。然而,传统的兼职信息获取方式,如校园海报、社交媒体零散信息等,存在信息分散......
  • 毕业论文答辩PPT怎么做?
    制作毕业论文答辩PPT是一个重要的环节,它不仅能够帮助你更好地展示研究成果,还能让你在答辩过程中更有条理。下面是一些建议,帮助你制作一个清晰、专业的答辩PPT:我分享了300多套「毕业论文答辩PPT模板」、「精品通用系列PPT」,点击即可保存。开场介绍标题页:包含论文题目、作......
  • SCI论文审稿的13种状态详解
    SCI论文审稿的13种状态1.Submittedtojournal(稿件提交)代表文章提交成功。在这一阶段,需要作者确认自己所提交的文件是否符合期刊的投稿要求,包括格式、内容、摘要、参考文献等,同时也要留意期刊的审核时间和流程。2.ManuscriptreceivedbyEditorialoffice(收到稿件......
  • 基于python+flask框架的月子会所管理系统(开题+程序+论文) 计算机毕设
    本系统(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。系统程序文件列表开题报告内容研究背景随着现代社会的快速发展和生活水平的提高,人们对母婴健康的重视程度日益增强。月子会所作为提供专业产后护理与恢复服务的机构,近年来在全球......
  • 基于python+flask框架的在线酒店管理系统(开题+程序+论文) 计算机毕设
    本系统(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。系统程序文件列表开题报告内容研究背景随着互联网技术的飞速发展和旅游业的蓬勃兴起,酒店行业正经历着前所未有的变革。传统酒店管理模式已难以满足市场快速响应和个性化服务的需......
  • 《基于超声的深度学习模型用于降低BI-RADS 4A乳腺病变的恶性率》论文笔记 MobileNet
    《APPLICATIONOFDEEPLEARNINGTOREDUCETHERATEOFMALIGNANCYAMONGBI-RADS4ABREASTLESIONSBASEDONULTRASONOGRAPHY》《基于超声的深度学习模型用于降低BI-RADS4A乳腺病变的恶性率》原文地址:链接文章目录摘要简介方法患者图像获取与处理深度学习模型统计分析结果讨论......
  • 基于python+flask框架的社区居民信息管理系统(开题+程序+论文) 计算机毕设
    本系统(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。系统程序文件列表开题报告内容研究背景随着城市化进程的加速,社区作为城市的基本单元,其管理与服务水平直接关系到居民的生活质量和社会稳定。传统的社区管理方式往往依赖于纸质档......
  • 基于python+flask框架的志羽·羽场管理与智能推荐系统(开题+程序+论文) 计算机毕设
    本系统(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。系统程序文件列表开题报告内容研究背景随着全民健身热潮的兴起,羽毛球作为一项广受欢迎的运动项目,其场地需求日益增长。然而,传统羽场管理模式面临着诸多挑战,如场地利用率不均衡、......
  • 基于python+flask框架的新冠疫情后病历管理系统(开题+程序+论文) 计算机毕设
    本系统(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。系统程序文件列表开题报告内容研究背景自新冠疫情爆发以来,全球医疗卫生体系面临前所未有的挑战,病例数量激增、医疗资源紧张、信息传播速度加快等问题凸显。传统的病历管理方式在......