首页 > 其他分享 >文本分词加停用词去除

文本分词加停用词去除

时间:2024-08-06 09:55:30浏览次数:15  
标签:skip next stopwords words 用词 filtered 分词 加停

import os
import jieba


def load_stopwords(stopwords_path):
    """加载停用词表"""
    with open(stopwords_path, 'r', encoding='utf-8') as file:
        stopwords = set(file.read().split())
    return stopwords


def remove_consecutive_stopwords(words, stopwords):
    """移除分词结果中连续的停用词"""
    filtered_words = []
    skip_next = False
    for word in words:
        if word in stopwords:
            if not skip_next:
                # 标记下一个词为需要跳过的停用词(如果它是停用词的话)
                skip_next = True
        else:
            # 如果当前词不是停用词,或者之前的词不是停用词(即没有连续的停用词),则保留它
            filtered_words.append(word)
            skip_next = False
            # 处理最后一个词是停用词且后面没有其他词的情况
    if filtered_words and filtered_words[-1] in stopwords:
        filtered_words.pop()
    return filtered_words


def process_text(text, stopwords):
    """去除停用词并进行分词,同时尝试移除连续的停用词

标签:skip,next,stopwords,words,用词,filtered,分词,加停
From: https://blog.csdn.net/m0_63990585/article/details/140946989

相关文章

  • es安装和ik分词器
    es相关联知识记录一下,方便以后学习1、es集群的安装和部署docker-compose2、es设置账号和密码3、es安装和ik分词器一、docker拉取es镜像dockerpulldocker.elastic.co/elasticsearch/elasticsearch:7.14.0二、创建es目录并授权mkdir-p/data/es/single/dat......
  • coreseek4.1使用sphinx做索引的索引控制shell脚本及逻辑 及 linux安装coreseek4.1的sp
    一、coreseek4.1使用sphinx做索引的索引控制shell脚本及逻辑    sphinx做索引时索引数据来源可以有多种方式,比如数据库mysql,pgsql,mssql,odbc,也可以是python脚本,也可以是xml数据文件,xmlpipe(publish:November1,2017-Wednesday)。    一般来说,如果索引的数据比较简单,......
  • 分词算法:自然语言处理中的关键技术
    分词算法:自然语言处理中的关键技术大家好,我是微赚淘客系统3.0的小编,是个冬天不穿秋裤,天冷也要风度的程序猿!分词(Tokenization)是自然语言处理(NLP)中的一项基础技术,旨在将文本拆分成有意义的单位,如单词或词组。分词在文本分析、信息检索、机器翻译等应用中发挥着重要作用。本文将介......
  • 中文分词器,整理自Ai
    1.Jieba(结巴)分词pipinstalljiebaimportjieba#使用默认模式进行分词seg_list=jieba.cut("我爱自然语言处理",cut_all=True)print("".join(seg_list)) 2.SnowNLPpipinstallsnownlpfromsnownlpimportSnowNLPs=SnowNLP("我爱自然语言处理")print('......
  • ElasticSearch第1讲(4万字详解 Linux下安装、原生调用、API调用超全总结、Painless、IK
    ElasticSearch官方文档:https://www.elastic.co/guide/en/elasticsearch/reference/current/getting-started.html非官方中文文档:https://learnku.com/docs/elasticsearch73/7.3极简概括:基于ApacheLucene构建开源的分布式搜索引擎。解决问题:MySQLlike中文全文搜索不走索引......
  • elasticsearch8.X tokenizer分词器优化
    一、使用指定中文分词器1.1一个查询小例子我们安装好es和kibana之后,就可以在kibana控制台开始我们的查询探索之旅。首先创建一个包含了两个字段“product"和"summary"的索引product_00:PUTproduct_00{"mappings":{"properties":{"product":{"typ......
  • Elastic Search使用ik分词器测试分词效果实现------Elastic Search
    POST_analyze{"analyzer":"ik_max_word","text":"一刀999是兄弟就来砍我"}POST_analyze{ "analyzer":"ik_max_word", "text":"一刀999是兄弟就来砍我"}{"tokens":[......
  • elasticsearch: 安装ik中文分词(es 8.14.2)
    一,测试分词命令:1,查看已安装的插件:[lhdop@blog~]$curl-XGET"localhost:9200/_cat/plugins?v&s=component"namecomponentversion2,standard分词[lhdop@blog~]$curl-XGET"localhost:9200/_analyze?pretty"-H'Content-Type:application/json&......
  • R语言汽车口碑数据采集抓取、文本数据分词和词云可视化实现
    原文链接:https://tecdat.cn/?p=34469原文出处:拓端数据部落公众号本文以R语言为工具,帮助客户对汽车网站的口碑数据进行抓取,并基于文本数据分词技术进行数据清理和统计。通过词频统计和词云可视化,对口碑中的关键词进行分析,挖掘出消费者对汽车的评价和需求,为汽车制造商和销售商提供......
  • elasticsearch之ik分词器和自定义词库实现
    ElasticSearch分词器所谓的分词就是通过tokenizer(分词器)将一个字符串拆分为多个独立的tokens(词元-独立的单词),然后输出为tokens流的过程。例如"mynameisHanMeiMei"这样一个字符串就会被默认的分词器拆分为[my,name,isHanMeiMei].ElasticSearch中提供了很多默认的分词器,我......