首页 > 其他分享 >论文查重(基于余弦相似和Sim-Hash)

论文查重(基于余弦相似和Sim-Hash)

时间:2023-09-17 23:35:33浏览次数:36  
标签:查重 120 Hash 30 60 240 Sim

个人项目

这个作业属于哪个课程 计科21级2班
这个作业要求在哪里 个人项目
这个作业的目标 熟悉单人开发软件整体流程

PSP表

*PSP2.1* *Personal Software Process Stages* *预估耗时(分钟)* *实际耗时(分钟)*
Planning 计划 20 17
· Estimate · 估计这个任务需要多少时间 120 70
Development 开发 240 240
· Analysis · 需求分析 (包括学习新技术) 300 200
· Design Spec · 生成设计文档 30 15
· Design Review · 设计复审 30 60
· Coding Standard · 代码规范 (为目前的开发制定合适的规范) 60 20
· Design · 具体设计 30 30
· Coding · 具体编码 180 120
· Code Review · 代码复审 120 240
· Test · 测试(自我测试,修改代码,提交修改) 60 120
Reporting 报告 60 60
· Test Repor · 测试报告 60 40
· Size Measurement · 计算工作量 30 30
· Postmortem & Process Improvement Plan · 事后总结, 并提出过程改进计划 30 120
· 合计 1370 1382

GitHub

论文查重

计算模块接口的设计与实现过程

本程序采用了三种算法来实现论文对照查重
1.余弦相似
2.Sim-hash
3.Jaccard算法


关键函数是:

  • filePreprocessing() 文件预处理函数 接收一个文件路径 返回经过预处理的字符串
  • getSimilarity() 求相似度
  • jieBaSegmentation() 分词统计

计算模块接口部分的性能改进

使用多线程加速程序运行

采用缓冲区读入文件

计算模块部分单元测试展示

部分测试代码截图

覆盖率

计算模块部分异常处理说明

当遇到异常时,统一往上级调用函数抛出,最后中断程序,返回异常原因。

标签:查重,120,Hash,30,60,240,Sim
From: https://www.cnblogs.com/Q316/p/17710244.html

相关文章

  • Django SimpleUI打造美丽后台
    DjangoSimpleUI打造美丽后台Django后台美化插件中,SimpleUI处于第一阵营,非常符合国人的审美观。本文将手把手教你如何配置使用SimpleUI,包括自定义菜单和控制面板等高级使用技巧. 安装 第一步pip安装并加入INSTALLED_APPSpipinstalldjango-simpleui ......
  • 软件工程2 论文查重
    软工作业2:实现论文查重课程地址[广东工业大学-软件工程-计科21级12班]https://edu.cnblogs.com/campus/gdgy/CSGrade21-12作业要求https://edu.cnblogs.com/campus/gdgy/CSGrade21-12/homework/13014作业目标通过C++编程来实现论文查重。GitHub地址:https://g......
  • 个人项目-java实现论文查重(更新中)
    本次作业GitHub项目链接:https://github.com/zzz-muxin/PlagiarismCheck作业详情这个作业属于哪个课程工程概论这个作业要求在哪里作业要求这个作业的目标学会利用GitHub进行项目开发,完成一个工程项目开发的详细过程需求题目:论文查重描述如下:设计一个论......
  • SOEM的simple_test代码分析
    安装soem下载SOEM的源码,点击链接下载windows下的插件,winpcap安装winpcap,傻瓜式安装解压代码包windows下编译源代码使用vs自带的make进行编译,我电脑安装有vs2022:打开vs自带的环境控制台,切换到SOEM主站目录下创建一个build目录,我们之后编译生成的文件放到这个目录切换......
  • hashmap
    (1)HashMap的底层数据结构是什么?haashMap最早是在jdk1.2中开始出现的,一直到jdk1.7一直没有太大的变化。但是到了jdk1.8突然进行了一个很大的改动。其中一个最显著的改动就是:之前jdk1.7的存储结构是数组+链表,到了jdk1.8变成了数组+链表+红黑树。在jdk1.7之中把元素放在一个个数组里......
  • 软件工程-论文查重系统
    论文查重系统软件工程所在班级作业要求[要求]((个人项目-作业-计科21级12班-班级博客-博客园(cnblogs.com)))作业目标论文查重系统,并优化代码,了解项目开发流程GitHub仓库地址PSP阶段PersonalSoftwareProcessStages预估耗时(分钟)实际耗时(分钟......
  • 个人项目:论文查重
    个人项目作业属于哪个课程软件工程作业要求作业要求github地址作业github地址PSPPSP2.1PersonalSoftwareProcessStages预估耗时(分钟)实际耗时(分钟)Planning计划209·Estimate·估计这个任务需要多少时间209Development开发19017......
  • C++实现论文查重
    软件工程https://edu.cnblogs.com/campus/gdgy/CSGrade21-12/homework/13014作业要求根据给出的样例进行查重,并把结果记录在PSP表格中作业目的对查重有一定的初步了解GitHub链接https://github.com/xingch123456789/3119000414PSP表格PSP2.1Person......
  • 论文解读(FixMatch)《FixMatch: Simplifying Semi-Supervised Learning with Consistenc
    Note:[wechat:Y466551|可加勿骚扰,付费咨询]论文信息论文标题:FixMatch:SimplifyingSemi-SupervisedLearningwithConsistencyandConfidence论文作者:论文来源:2020aRxiv论文地址:download 论文代码:download视屏讲解:click1-介绍 动机:解决现有半监督方法利用未标记......
  • HashMap 的初始化问题
    最近的两次面试被分别被问到了:如果初始化HashMap的容量为100,那么实际容量会是多少?如果初始化HashMap的容量为20,那么实际容量会是多少?会不会发生扩容?自己想当然的会回答:容量会是满足2的幂次*负载因子>=初始化指定容量的值publicstaticvoidmain(String[]arg......