首页 > 其他分享 >个人项目-论文查重

个人项目-论文查重

时间:2024-09-15 08:55:55浏览次数:5  
标签:查重 30 20 个人 海明 代码 论文 50 算法

这个作业属于哪个课程 计科22级1班
这个作业要求在哪里 要求
这个作业的目标 设计软件

GitHub链接

PSP表格

PSP2.1 Personal Software Process Stages 预估耗时(分钟) 实际耗时(分钟)
Planning 计划 30 30
Estimate 估计这个任务需要多少时间 200 200
Development 开发 500 600
Analysis 需求分析 (包括学习新技术) 200 100
Design Spec 生成设计文档 50 60
Design Review 设计复审 50 60
Coding Standard 代码规范 (为目前的开发制定合适的规范) 50 20
Design 具体设计 30 30
Coding 具体编码 100 120
Code Review 代码复审 10 20
Test 测试(自我测试,修改代码,提交修改) 30 20
Reporting 报告 30 30
Test Repor 测试报告 20 10
Size Measurement 计算工作量 10 5
Postmortem & Process Improvement Plan 事后总结, 并提出过程改进计划 20 30
合计 1330 1335

模块的设计

项目结构如下图

基本思路是海明算法,通过hanlp模块将文件分词,通过MD5算法来得到散列值,然后for计算得到词频进行加权,最后合并再降维得到海明距离

性能改进

开始想做余弦算法,但是这个知识点没有现成的资料来进行研究,,于是选择了更加寻常的simhash算法,其实感觉使用两个算法一起进行的会使得程序的性能更强大
对应性能分析图

其中消耗最大的算法是得到哈希值的getsimhash算法

单元测试

对应代码覆盖率

测试代码

主程序测试代码

对提供的文本内容进行查重处理
结果如下图

产生海明距离的代码测试

通过simhash算法进行海明距离的运算

异常处理

对文本内容文字数量的异常

对文本类型的异常

标签:查重,30,20,个人,海明,代码,论文,50,算法
From: https://www.cnblogs.com/xixixii/p/18414925

相关文章

  • 软件工程导论——个人项目之论文查重
    软件工程导论——个人项目之论文查重这个作业属于哪个课程https://edu.cnblogs.com/campus/gdgy/CSGrade22-12/这个作业要求在哪里https://edu.cnblogs.com/campus/gdgy/CSGrade22-12/homework/13220这个作业的目标设计一个论文查重算法并实现;学会Git版本控制......
  • 个人项目
    这个作业属于哪个课程计科1班这个作业要求在哪里作业要求这个作业的目标<单元测试,代码性能,PSP表,git的正确使用>Github仓库PSP表格PSP2.1PersonalSoftwareProcessStages预估耗时(分钟)实际耗时(分钟)Planning计划2030·Estimate·估计这个......
  • 个人项目9/12(二)
    软件工程计科22级12班作业要求第二次作业要求作业目标通过全流程项目实践,了解软件开发过程中需要具备的方式与良好的软件功能必须的测试过程项目地址github-xuicst一、项目要求设计一个论文查重算法,给出一个原文文件和一个在这份原文上经过了增删改的抄袭......
  • 个人项目
    这个作业属于哪个课程班级链接这个作业要求在哪里作业链接这个作业的目标设计一个论文查重算法,给出一个原文文件和一个在这份原文上经过了增删改的抄袭版论文的文件,在答案文件中输出其重复率。Github链接:点击此处PSP表格PSP2.1PersonalSoftwarePeocessS......
  • 个人项目——论文查重
    这个作业属于哪个课程https://edu.cnblogs.com/campus/gdgy/CSGrade22-34这个作业要求在哪里https://edu.cnblogs.com/campus/gdgy/CSGrade22-34/homework/13229这个作业的目标个人项目——论文查重一:我的github仓库地址https://github.com/kelin-KL/kelin-KL......
  • 个人项目
    这个作业属于哪个课程计科3班这个作业要求在哪里作业要求这个作业的目标<单元测试,代码性能,PSP表,git的正确使用>GithubPSP表格PSP2.1PersonalSoftwareProcessStages预估耗时(分钟)实际耗时(分钟)Planning计划2030·Estimate·估计这个任务......
  • 数学建模论文排版笔记——清风
    一、Word基础1.1常用功能和快捷键打印预览功能Insert键:有覆盖和插入功能Fn+F4:重复上一步Ctrl+X剪切:删除内容,并且复制Ctrl+Z:撤销上一步操作Ctrl+Y:恢复上一步操作Ctrl+鼠标左键:可以选择不同位置的文字Ctrl+Enter:分页符(用的很多,分割页面时用)Alt类的快捷键按下Alt后,会......
  • 个人项目
    这个作业属于哪个课程https://edu.cnblogs.com/campus/gdgy/CSGrade22-34/这个作业要求在哪里https://edu.cnblogs.com/campus/gdgy/CSGrade22-34/homework/13229这个作业的目标设计一个论文查重算法,给出一个原文文件和一个在这份原文上经过了增删改的抄袭版论文的......
  • 个人学习笔记7-5:动手学深度学习pytorch版-李沐
    #人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.10转置卷积例如,卷积层和汇聚层,通常会减少下采样输入图像的空间维度(高和宽)。然而如果输入和输出图像的空间维度相同,在以像素级分类的语义分割中将会很方便。转置卷积(transposedconvolution)可以增加......
  • python+flask计算机毕业设计基于数据加密的高校奖学金评定系统的设计与实现(程序+开题+
    本系统(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。系统程序文件列表开题报告内容研究背景随着高校规模的不断扩大和学生数量的激增,奖学金评定工作逐渐成为一项复杂而繁重的任务。传统的奖学金评定方式往往依赖于人工收集、整理和......