• 2024-11-18数据结构(倒排索引)
    倒排索引和正排索引倒排索引是什么?倒排索引也被称作反向索引(invertedindex),是用于提高数据检索速度的一种数据结构,空间消耗比较大。倒排索引首先将检索文档进行分词得到多个词语/词条,然后将词语和文档ID建立关联,从而提高检索效率。分词就是对一段文本,通过规则或者算
  • 2024-11-18【tokenization分词】WordPiece, Byte-Pair Encoding(BPE), Byte-level BPE(BBPE)的原理和代码
    目录前言1、word(词粒度)2、char(字符粒度)3、subword(子词粒度)WordPieceByte-PairEncoding(BPE)Byte-levelBPE(BBPE)总结前言Tokenization(分词)在自然语言处理(NLP)的任务中是最基本的一步,将文本处理成一串tokens用于后续的处理,把文本处理成token有一系列的
  • 2024-11-122024华为OD机试真题---中文分词模拟器
    华为OD机试中的中文分词模拟器题目,通常要求考生对给定的不包含空格的字符串进行精确分词。这个字符串仅包含英文小写字母及英文标点符号(如逗号、分号、句号等),同时会提供一个词库作为分词依据。以下是对这类题目的详细解析一、题目描述给定一个连续不包含空格的字符串Q,该字
  • 2024-11-09深入解析 Transformers 框架(四):Qwen2.5/GPT 分词流程与 BPE 分词算法技术细节详解
    前面我们已经通过三篇文章,详细介绍了Qwen2.5大语言模型在Transformers框架中的技术细节,包括包和对象加载、模型初始化和分词器技术细节:深入解析Transformers框架(一):包和对象加载中的设计巧思与实用技巧深入解析Transformers框架(二):AutoModel初始化及Qwen2.5模型加载全
  • 2024-11-0776_api_intro_text_segment
    中文文本分词API接口提供精准的中文文本分词接口。1.产品功能提供精准、高效的中文分词接口;自定义的分词分隔符;每月两次次更新分词基础数据库;全接口支持HTTPS(TLSv1.0/v1.1/v1.2/v1.3);全面兼容AppleATS;全国多节点CDN部署;接口极速响应,多台服务器构建API
  • 2024-11-07安装和启动ElasticSearch
    安装和启动ElasticSearch我们直接使用docker部署好的ElasticSearch访问路径:http://192.168.144.160:9200ES默认端口是9200ES基本使用<dependencies><dependency><groupId>org.springframework.boot</groupId><artifactId>spri
  • 2024-11-02NLP segment-05-文本相似度计算 similarity java 开源实现
    拓展阅读分词系列专题jieba-fenci01结巴分词原理讲解segmentjieba-fenci02结巴分词原理讲解之数据归一化segmentjieba-fenci03结巴分词与繁简体转换segmentjieba-fenci04结巴分词之词性标注实现思路speechTaggingsegmentjieba-fenci05结巴分词之简单聊一聊
  • 2024-11-01NLP segment-03-基于 TF-IDF 实现关键词提取 java 开源实现
    拓展阅读分词系列专题jieba-fenci01结巴分词原理讲解segmentjieba-fenci02结巴分词原理讲解之数据归一化segmentjieba-fenci03结巴分词与繁简体转换segmentjieba-fenci04结巴分词之词性标注实现思路speechTaggingsegment关键词系列专题NLPsegment-01-聊一聊
  • 2024-10-30es安装拼音分词后Kibana出现内存错误
    出现错误 今天在安装es的拼音分词器,并重启es容器后,登录Kibana无法使用,查询日志发现如下报错WaitinguntilallElasticsearchnodesarecompatiblewithKibanabeforestartingsavedobjectsmigrations...|type=log@timestamp=2024-10-30T10:26:36+08:00tags=["inf
  • 2024-10-20基于Python的自然语言处理系列(34):Huggingface 自定义分词器与数据集
            在自然语言处理(NLP)中,分词是将原始文本转换为模型可处理的数字形式的关键步骤。无论是情感分析、文本生成,还是问答系统,分词都决定了模型如何理解输入数据。Huggingface的transformers库提供了多种强大的分词工具,使我们可以灵活地加载、保存和使用预训练
  • 2024-10-16elasticsearch之倒排索引
    倒排索引elasticsearch有如此高的搜索性能,无异于使用了倒排索引。倒排索引中有两个重要的概念:文档(Document):用来搜索的数据,其中的每一条数据就是一个文档。例如一个网页、一个商品信息词条(Term):对文档数据或用户搜索数据,利用某种算法分词,得到的具备含义的词语就是词条。例如:我
  • 2024-10-15Elasticsearch(一)
    ES相关概念对比MySQLElasticsearch(ES):用于数据存储、计算和搜索安装ES:ES是部署在Linux操作系统下的,可以通过Docker去部署:首先引入ES的镜像,可以官网下载或者用dockerpull拉取镜像可以执行该命令,注意es版本dockerrun-d\--namees\-e"ES_JAVA_OPTS=-Xms512m-Xmx512
  • 2024-10-15ElasticSearch的倒排索引和相关概念与MySQL的对比
    ElasticSearch的倒排索引和相关概念在用关系型数据库时,一些频繁用作查询条件的字段我们都会去建立索引来提升查询效率。在关系型数据库中,我们一般都采用B树索引进行存储,所以B树索引也是我们接触比较多的一种索引数据结构,但是在使用过程中,我们发现无法使用关系型数据库进行类
  • 2024-09-21自然语言处理综述笔记
    自然语言处理综述自然语言处理涉及许多领域,包括词汇、句法、语义和语用分析,文本分类、情感分析、自动摘要、机器翻译和社会计算等。自然语言处理主要分两个流程:自然语言理解(NLU)和自然语言生成(NLG)处理流程大致可分为五步:第一步获取语料。第二步对语料进行预处理,其中包括语料
  • 2024-09-20自然语言处理(NLP)实战项目
    自然语言处理(NLP)实战项目可以涵盖多个领域和应用场景,以下是一些具体的实战项目示例,涵盖了从基础到高级的不同层次:1.情感分析(SentimentAnalysis)目标:识别和分类文本中的情感倾向(正面、负面、中性)。应用场景:社交媒体监控、客户反馈分析、产品评论分析。技术栈:数据收集:使用
  • 2024-09-19机器学习-贝叶斯算法的研究和实践(评论检测)
    项目背景:★我们公司的应用有个需求是对用户发表的评论进行过滤,除了人工审核干预以外,我们还需要自动化检测评论来规避这些行为,为此我们研究贝叶斯算法,写了评论检测的项目用于过滤垃圾评论。贝叶斯算法介绍​贝叶斯分类算法是统计学的一种分类方法,它是一类利用概率统计知识
  • 2024-09-14文本相似度计算
    一、PSP表格PSP2.1PersonalSoftwareProcessStages预估耗时(分钟)实际耗时(分钟)Planning计划3035·Estimate·估计这个任务需要多少时间3035Development开发400450·Analysis·需求分析(包括学习新技术)6070·DesignSpec·生成设计文
  • 2024-09-13第一次软件工程项目--论文查重
    这个作业属于哪个课程https://edu.cnblogs.com/campus/gdgy/CSGrade22-34/这个作业要求在哪里https://edu.cnblogs.com/campus/gdgy/CSGrade22-34/homework/13229这个作业的目标个人项目——论文查重GitHub地址:https://github.com/samuhaer4581/3122004581.git
  • 2024-09-12NLP(文本处理技术)在数据分析中的应用实例
    在Python中,你可以实现多种自然语言处理(NLP)技术。Python拥有丰富的库和框架,使得NLP任务变得更加容易和高效。接下来将列举一些NLP(文本处理技术)具体功能的Python实现。一:文本预处理1:英文版#文本预处理#导入所需的库importrefromtextblobimportTextBlobfromgensim
  • 2024-09-11SpringDataElasticSearch自己犯的错误
    最近在创建一个DEMO,是想实现RAG的。最初是想能够通过向量数据库来作为数据源的保存点的,他比起传统的ES有着很大的优势,比如好的模型生成的文本向量数据之间,如果意思相近,则距离更近,即使没有关键字命中也可以关联到相关的文本。但是,好的中文TextEmbedding太难找了,就想着想用ES凑
  • 2024-09-10基于tf-idf的论文查重
    基于tf-idf的论文查重github地址:https://github.com/gomevie/gomevie/tree/main这个作业属于哪个课程广工计院计科34班软工这个作业要求在哪里作业要求这个作业的目标设计并实现一个论文查重算法,通过比较原文和抄袭版论文文件,计算并输出重复率。PSP表格
  • 2024-09-10NLTK英文文本分词的常用模块
    目录1.断句模块:2.分词模块:3.去除文本中的除标点符号:4.去除停用词:5.词频提取与词频绘图: 5.1词频的提取5.2画出词频5.3画出出现频率最高的三个词 6.单词搜索1.断句模块:importnltkfromnltk.tokenizeimportsent_tokenize#英文断句模块#要断句的文本parag
  • 2024-09-09论文查重
    这个作业属于哪个课程22级计科1班这个作业要求在哪里作业要求这个作业的目标使用代码实现论文查github项目链接链接PSPPSP2.1PersonalSoftwareProcessStages预估耗时(分钟)实际耗时(分钟)Planning计划2020·Estimate估计这个任务需要多
  • 2024-09-09*Python*jieba库简单分词
            jieba库是一个用Python编写的用于中文文本处理的开源库,它的主要功能是将连续的中文字符序列切分成一个个单独的词语。jieba分词支持多种分词模式,并且可以方便地加载自定义词典,以提高分词的准确率。1、安装jieba库pipinstalljieba2、精确模式精确模
  • 2024-09-07Python 中文分词
    Python中文分词结巴中文分词https://github.com/fxsjy/jieba安装 pipinstalljiebapipinstallpaddlepaddle 20.5.1. 分词演示 #encoding=utf-8importjiebaimportpaddlepaddle.enable_static()jieba.enable_paddle()#启动paddle模式。strs=[