jieba 分词

时间：2024-05-26 18:11:13浏览次数：24

标签：jieba rword word items elif counts 分词

print("学号后两位为33（2023310343133）")
import jieba
txt = open("西游记.txt","r",encoding='gb18030').read()
words = jieba.lcut(txt)
counts = {}
for word in words:
if len(word) == 1: #排除单个字符的分词结果
continue
elif word == "行者" or word == "大圣" or word =="老孙":
rword = "孙悟空"
elif word == "师父" or word == "三藏" or word == "长老":
rword = "唐僧"
elif word == "呆子":
rword = "八戒"
else:
rword = word
counts[rword] = counts.get(rword,0) + 1
items = list(counts.items())
items.sort(key=lambda x:x[1],reverse=True)
for i in range(20):
word,count = items[i]
print("{0:<10}{1:>5}".format(word,count))

标签：jieba,rword,word,items,elif,counts,分词
From： https://www.cnblogs.com/xyl050818/p/18214076

搜索引擎ElasticSearch18_IK 分词器和ElasticSearch集成使用3
一、上述查询存在问题分析在进行字符串查询时，我们发现去搜索"搜索服务器"和"钢索"都可以搜索到数据；而在进行词条查询时，我们搜索"搜索"却没有搜索到数据；究其原因是ElasticSearch的标准分词器导致的，当我们创建索引时，字段使用的是标准分词器： { "query": { ......
ES 中分词方式 ik_max_word和 ik_smart的区别以及词典对两种形式的作用
在Elasticsearch中，IK分词器是一个非常流行的中文分词插件，它支持两种分词模式：IK-MAX-WORD：这种模式会将文本最大程度地切分成独立的词汇。它主要通过条件随机场(ConditionalRandomField,CRF)模型来识别词汇边界，然后使用动态规划寻找最优的词段划分。IK-SMART：这种模式结合了......
LangSegment：多语言(97种语言)的混合文本自动分词工具
项目简介它是一个强大的多语言（97种语言）的混合文本自动分词工具。[中日英韩：已测试]主要用途：它非常适合各种TTS语音合成项目，多语种混合文本的前端推理，和预处理后端训练。它基于py3langid的扩展实现（>=python3.6）。LangSegmentItisamulti-lingual(97languages)textcon......
LangSegment：多语言(97种语言)的混合文本自动分词工具
项目简介它是一个强大的多语言（97种语言）的混合文本自动分词工具。[中日英韩：已测试]主要用途：它非常适合各种TTS语音合成项目，多语种混合文本的前端推理，和预处理后端训练。它基于py3langid的扩展实现（>=python3.6）。LangSegmentItisamulti-lingual(97languages)textcon......
情感分词新手实践
AmazonFullReview情感分析任务input:RemarkTextoutput:Sentiment(\(\{-1,0,1\}\))convertto\(\{0,1,2\}\)forcalculatingaccuracyMark:之前没有用torch做过NLP，因此相当于一个tutorial数据准备工作文本分词NLP需要将文本数据分词并转换为词汇表中的......
Elasticsearch N-gram分词器介绍 (7)
一.概述Ngram是一种基于统计语言模型的算法。Ngram基本思想是将文本里面的内容按照字节大小进行滑动窗口操作，形成长度是N的字节片段序列。此时每一个字节片段称为gram。对所有gram的出现频度进行统计，并且按照事先设定好的阈值进行过滤，形成关键gram列表，也就是这个文本的向量特......
Elasticsearch 所有内置分词器介绍(6)
一.概述Tokenizer分词器接收字符流(es的text类型)，将其分解为单个term(通常是单个单词),然后输出标记流。分词器除了分解，还负责记录以下内容：1）记录每个单词(term)的顺序或位置(用于”phrase短语“和单词邻近性查询）2）term原始单词的开始和结束字符偏移量（使用......
分词器tokenizers
总览为了让语言变为模型能够理解的形式（tokens），每个字词必须映射为独一无二的序号，这时需要使用分词器tokenizer对语言进行转换。例如对于“areyouok”，gemma模型的tokenizer会将之转换为一个List：[2,895,692,4634]。顺便一提，第一个序号2是开始标记<bos>。本文是学......
ES分词器
1 normalization：文档规范化,提高召回率2 字符过滤器（characterfilter）：分词之前的预处理，过滤无用字符HTMLStripCharacterFilter：html_strip参数：escaped_tags需要保留的html标签MappingCharacterFilter：typemappingPatternReplaceCharacterFilter：typepattern_repl......
Elasticsearch 认识分词(1)
一.概述分词是构建倒排索引的重要一环。根据语言不同可以分为英文分词、中文分词等；根据分词实现的不同又分为标准分词器、空格分词器、停用词分词器等。在传统的分词器不能解决特定业务场景的问题时，往往需要自定义分词器。1.1认识分词对于分词操作来说，英语单词......

jieba 分词

相关文章

赞助商

阅读排行