• 2024-07-13simhash&hamming distince
    simhash&hammingdistincesimhash是一种长文本的查重算法SimHash本身属于一种局部敏感hash,其主要思想是降维,将高维的特征向量转化(加权)成低位的hash,通过算出两个海明距离来确定两篇文章的相似度,海明距离越小,相似度越低,一般海明距离为3就代表两篇文章相同。simhash的算法具体分
  • 2024-03-14个人项目
    我的Gitcode地址这个作业属于哪个课程<软件工程2024>这个作业要求在哪里https://edu.cnblogs.com/campus/gdgy/SoftwareEngineering2024/homework/13136这个作业的目标<设计一个论文查重算法>PSP2.1PersonalSoftwareProcessStages预估耗时(分钟)实际耗
  • 2024-03-13个人项目
    这个作业属于哪个课程https://edu.cnblogs.com/campus/gdgy/SoftwareEngineering2024/这个作业要求在哪里https://edu.cnblogs.com/campus/gdgy/SoftwareEngineering2024/homework/13136这个作业的目标了解项目开发的过程,学习github的使用方法GitHub链接:https:/
  • 2024-03-12采用Java实现论文查重
    这个作业属于哪个课程<软件工程2024(广东工业大学)>这个作业要求在哪里<个人项目>这个作业的目标<熟悉个人软件开发流程、熟悉各类工具的使用,学会用PSPG进行项目规划评估程序质量并优化程序>Gitee链接:https://github.com/jueshishuaimengou/yh/tree/main/3122
  • 2023-10-11论文查重
    作业要求https://edu.cnblogs.com/campus/gdgy/CSGrade21-12/homework/13014作业所属课程https://edu.cnblogs.com/campus/gdgy/CSGrade21-12?page=11----作业目标了解论文查重机理;Git与GitHub的链接使用;深刻体会个人开发流程----一
  • 2023-09-17个人项目
    这个作业要求在哪里个人项目-论文查重算法这个作业的目标1、完成PSP表格。2、完成“论文查重算法”的设计并进行测试。3、代码签入Github中。4、编写博客记录。GitHub链接仓库地址计算模块接口TxtIOUtils类readTXT读取文件,采用java中同步阻塞的IO字节流
  • 2023-09-14个人项目:Python实现简易论文查重
    这个作业属于哪个课程计科1/2班这个作业要求在哪里个人项目这个作业的目标按照规定流程完成个人项目,完整体验制作项目制作相关流程,制作简易论文查重系统GitHub作业链接:GitHub作业链接1.PSP表格PSP2.1PersonalSoftwareProcessStages预估耗时(分钟)
  • 2023-06-27局部敏感哈希LSH(SimHash与MinHash)
    SimHash1.算法思想假设我们有海量的文本数据,我们需要根据文本内容将它们进行去重。对于文本去重而言,目前有很多NLP相关的算法可以在很高精度上来解决,但是我们现在处理的是大数据维度上的文本去重,这就对算法的效率有着很高的要求。而局部敏感hash算法可以将原始的文本内容映射为
  • 2023-03-17【特征】操作码序列
    【特征】操作码序列通常对PE格式文件(.exe文件等),用IDAPro反汇编得到对应的asm(包含汇编代码)文件。从asm文件中可以提取操作码、函数调用等信息作为特征训练机器学
  • 2023-03-17【小结】操作码序列
    【小结】操作码序列通常对PE格式文件(.exe文件等),用IDAPro反汇编得到对应的asm(包含汇编代码)文件。从asm文件中可以提取操作码、函数调用等信息作为特征训练机器学