首页 > 其他分享 >论文查重

论文查重

时间:2024-03-18 20:22:36浏览次数:16  
标签:查重 30 20 代码 论文 词频 文本 分词

gitcode地址

这个作业的要求在哪里 第一次项目作业
这个作业的目标 实现论文查重,消除警告及改进
其他

看完论文查重作业的相关要求之后,最开始想到的便是对比两篇文章出现关键字的字频,因此我们需要先对文章进行分词处理,处理问之后再用相似度算法进行计算
1.查重论文的读取(包括被查文件以及数据库文件)
开始第一步,对文本进行读取及分词,网上有多个分词包及数据库,但实际应用下来发现错误还是不少的,无法运行,如jiebacpp是一个再Linux系统下运行的一个分词包,然而我使用的是windows,因此便放弃了这一分词包,选择hanlp,但hanlp同样存在问题,他是一个网页分词,无法支持我对原文本进行分词文件输出的想法。最后我选择的是一个正向最大匹配算法,这个算法其实网上是存在源码的,但实际理解起来也不难,就是从文本从头到尾依次截取5个字,再对比词典,如果词典中存在,就确定这5个字是一个词,如果不存在则去掉5个字中最末尾的一个,变4个字,在比较,以此类推,最后如果只剩1个字,那它便是一个词。
然后这里存在一个问题,便是词典,这里我因为尝试过jiebacpp,所以我直接用了它的词典。
这里是相应代码,汉字占两个字节,因此while循环里面的len应-2.
alt text
在这段核心代码之前,只需要读取文件,在代码之后,则进行写入输出文件就行了。
原文本分词结果
alt text

2.计算关键字的字频
计算词频用的主要是递归算法,通过对上面分词的读取进行统计写入。若遇到新词则输出该词以及记词频为1,所遇到已有的词,则对该词词频+1;从而得出一个词频文件。
关键代码
alt text
原文本词频统计
alt text

3.根据字频计算相似度
这一步还包含了一个合并去重的步骤,因为在使用向量法对比两个文本相似度的时候,需要将两个向量所指相同,因此在原文本中未出现但在抄袭文本中出现的词,需要在原文本词频中加入该词并且词频设为0;将两个文本合并去重后就是计算向量了,这里需要对两个文本的值暂存如vector中,并将文本进行映射转换,转换为向量后就可以利用余弦相似度算法进行计算了。
alt text
同样代码将文件改为抄袭文本词频打开即可
关键代码
alt text

4.输出相似度结果
alt text

PSP表格

PSP2.1 Personal Software Process Stages 预估耗时(分钟) 实际耗时(分钟)
Planning 计划 60 40
Estimate 估计这个任务需要多少时间 400 1340
Development 开发 100 600
Analysis 需求分析 (包括学习新技术) 40 300
Design Spec 生成设计文档 20 30
Design Review 设计复审 10 60
Coding Standard 代码规范 (为目前的开发制定合适的规范) 10 20
Design 具体设计 20 30
Coding 具体编码 30 120
Code Review 代码复审 10 20
Test 测试(自我测试,修改代码,提交修改) 20 20
Reporting 报告 20 30
Test Repor 测试报告 20 30
Size Measurement 计算工作量 20 20
Postmortem & Process Improvement Plan 事后总结, 并提出过程改进计划 20 20
合计 400 1340

标签:查重,30,20,代码,论文,词频,文本,分词
From: https://www.cnblogs.com/LanYukai/p/18067337

相关文章

  • 基于springboot实现房屋租赁系统项目演示【附项目源码+论文说明】
    基于springboot实现房屋租赁系统演示摘要社会的发展和科学技术的进步,互联网技术越来越受欢迎。网络计算机的生活方式逐渐受到广大人民群众的喜爱,也逐渐进入了每个用户的使用。互联网具有便利性,速度快,效率高,成本低等优点。因此,构建符合自己要求的操作系统是非常有意义的......
  • 基于springboot实现月度员工绩效考核管理系统项目演示【附项目源码+论文说明】
    基于springboot实现月度员工绩效考核管理系统演示摘要科学时代的发展改变了人类的生活,促使网络与计算机技术深入人类的各个角落,得以普及到人类的具体生活中,为人类的时代文明掀开新的篇章。本系统为月度员工绩效考核管理系统,是专为企业开发的对员工考核的协助软件。可以帮......
  • 2024年3月的计算机视觉论文推荐
    从去年开始,针对LLM的研究成为了大家关注的焦点。但是其实针对于计算机视觉的研究领域也在快速的发展。每周都有计算机视觉领域的创新研究,包括图像识别、视觉模型优化、生成对抗网络(gan)、图像分割、视频分析等。我们今天来总结一下2024年3月上半月份发表的最重要的论文,无论您是......
  • Disentangled Contrastive Learning for Social Recommendation论文阅读笔记
    DisentangledContrastiveLearningforSocialRecommendation论文阅读笔记Abstract存在的问题:大多数社会推荐模型统一了用户对用户-项目交互(协作领域)和社会关系(社会领域)的表示。然而,这种方法可能无法在两个领域中建模用户的异构行为模式,从而损害了用户表示的表达性。解决方法......
  • 【推荐】免费AI论文写作-「智元兔 AI」
    还在为写论文焦虑?免费AI写作大师来帮你三步搞定!智元兔AI是ChatGPT的人工智能助手,并且具有出色的论文写作能力。它能够根据用户提供的题目或要求,自动生成高质量的论文。不论是论文、毕业论文、散文、科普文章、新闻稿件,还是商业文案、推广文案,智元兔AI都能够根据用户需求进......
  • 科技小论文——机器学习
    (1. 石家庄铁道大学,河北省 石家庄市 050043)摘要:本论文旨在研究基于深度学习的图像识别技术,并探讨其在实际应用中的效果。通过收集大量图像数据,利用深度学习模型进行训练和优化,提出了一种基于卷积神经网络(CNN)的图像识别方法。实验结果表明,在经过大规模数据集的训练后,所提出的......
  • Disentangled Contrastive Collaborative Filtering 论文阅读笔记
    DisentangledContrastiveCollaborativeFiltering论文阅读笔记Abstract存在的问题:大多数现有的基于gcl的CF模型仍然受到限制,因为忽略了用户-项目交互行为往往是由各种潜在意图因素驱动的(例如,为了家庭聚会购物,首选颜色或产品品牌)引入的非自适应增强技术容易受到噪声信息的......
  • 客户端选择论文1-REFL
    REFL:Resource-EfficientFederatedLearning强调系统效率和资源多样性之间的权衡摘要:联邦学习(FL)允许学习者使用本地数据进行分布式训练,从而增强隐私并减少通信。然而,随着部署规模的扩大,它提出了许多与数据分布、设备功能和参与者可用性的异质性相关的挑战,这可能会影响模......
  • ChatGPT:从对话到文献,如何利用AI成就完美论文?
    ChatGPT无限次数:点击直达引言:在当今信息爆炸的时代,撰写一篇完美的论文变得至关重要。然而,对于很多人来说,论文写作是一个具有挑战性的任务。幸运的是,人工智能的迅猛发展为我们的学术创作提供了新的可能性。在本文中,将介绍一种强大的自然语言处理模型——ChatGPT,它将成为您的......
  • 大学生开题报告基于SSM考勤系统毕业设计源代码+论文
    一、项目技术后端语言:Java项目架构:B/S架构、MVC开发模式数据库:MySQL前端技术:JavaScript、HTML、CSS后端技术:SpringBoot、SSM二、运行环境JDK版本:1.8操作系统:Window、MacOS数据库:MySQL5.7主要开发工具:IDEATomcat:8.0Maven:3.6一、项目介绍学生考勤系统功能部......