首页 > 其他分享 >jieba 分词

jieba 分词

时间:2024-05-26 18:11:13浏览次数:24  
标签:jieba rword word items elif counts 分词

print("学号后两位为33(2023310343133)")
import jieba
txt = open("西游记.txt","r",encoding='gb18030').read()
words = jieba.lcut(txt)
counts = {}
for word in words:
if len(word) == 1: #排除单个字符的分词结果
continue
elif word == "行者" or word == "大圣" or word =="老孙":
rword = "孙悟空"
elif word == "师父" or word == "三藏" or word == "长老":
rword = "唐僧"
elif word == "呆子":
rword = "八戒"
else:
rword = word
counts[rword] = counts.get(rword,0) + 1
items = list(counts.items())
items.sort(key=lambda x:x[1],reverse=True)
for i in range(20):
word,count = items[i]
print("{0:<10}{1:>5}".format(word,count))

标签:jieba,rword,word,items,elif,counts,分词
From: https://www.cnblogs.com/xyl050818/p/18214076

相关文章

  • 搜索引擎ElasticSearch18_IK 分词器和ElasticSearch集成使用3
    一、上述查询存在问题分析在进行字符串查询时,我们发现去搜索"搜索服务器"和"钢索"都可以搜索到数据;而在进行词条查询时,我们搜索"搜索"却没有搜索到数据;究其原因是ElasticSearch的标准分词器导致的,当我们创建索引时,字段使用的是标准分词器: {    "query": {  ......
  • ES 中分词方式 ik_max_word和 ik_smart的区别以及词典对两种形式的作用
    在Elasticsearch中,IK分词器是一个非常流行的中文分词插件,它支持两种分词模式:IK-MAX-WORD:这种模式会将文本最大程度地切分成独立的词汇。它主要通过条件随机场(ConditionalRandomField,CRF)模型来识别词汇边界,然后使用动态规划寻找最优的词段划分。IK-SMART:这种模式结合了......
  • LangSegment:多语言(97种语言)的混合文本自动分词工具
    项目简介它是一个强大的多语言(97种语言)的混合文本自动分词工具。[中日英韩:已测试]主要用途:它非常适合各种TTS语音合成项目,多语种混合文本的前端推理,和预处理后端训练。它基于py3langid的扩展实现(>=python3.6)。LangSegmentItisamulti-lingual(97languages)textcon......
  • LangSegment:多语言(97种语言)的混合文本自动分词工具
    项目简介它是一个强大的多语言(97种语言)的混合文本自动分词工具。[中日英韩:已测试]主要用途:它非常适合各种TTS语音合成项目,多语种混合文本的前端推理,和预处理后端训练。它基于py3langid的扩展实现(>=python3.6)。LangSegmentItisamulti-lingual(97languages)textcon......
  • 情感分词新手实践
    AmazonFullReview情感分析任务input:RemarkTextoutput:Sentiment(\(\{-1,0,1\}\))convertto\(\{0,1,2\}\)forcalculatingaccuracyMark:之前没有用torch做过NLP,因此相当于一个tutorial数据准备工作文本分词NLP需要将文本数据分词并转换为词汇表中的......
  • Elasticsearch N-gram分词器介绍 (7)
    一.概述Ngram是一种基于统计语言模型的算法。Ngram基本思想是将文本里面的内容按照字节大小进行滑动窗口操作,形成长度是N的字节片段序列。此时每一个字节片段称为gram。对所有gram的出现频度进行统计,并且按照事先设定好的阈值进行过滤,形成关键gram列表,也就是这个文本的向量特......
  • Elasticsearch 所有内置分词器介绍(6)
    一.概述Tokenizer分词器接收字符流(es的text类型),将其分解为单个term(通常是单个单词),然后输出标记流。分词器除了分解,还负责记录以下内容:1)记录每个单词(term)的顺序或位置(用于”phrase短语“和单词邻近性查询)2)term原始单词的开始和结束字符偏移量(使用......
  • 分词器tokenizers
    总览为了让语言变为模型能够理解的形式(tokens),每个字词必须映射为独一无二的序号,这时需要使用分词器tokenizer对语言进行转换。例如对于“areyouok”,gemma模型的tokenizer会将之转换为一个List:[2,895,692,4634]。顺便一提,第一个序号2是开始标记<bos>。本文是学......
  • ES分词器
    1 normalization:文档规范化,提高召回率2 字符过滤器(characterfilter):分词之前的预处理,过滤无用字符HTMLStripCharacterFilter:html_strip参数:escaped_tags需要保留的html标签MappingCharacterFilter:typemappingPatternReplaceCharacterFilter:typepattern_repl......
  • Elasticsearch 认识分词(1)
    一.概述分词是构建倒排索引的重要一环。根据语言不同可以分为英文分词、中文分词等;根据分词实现的不同又分为标准分词器、空格分词器、停用词分词器等。在传统的分词器不能解决特定业务场景的问题时,往往需要自定义分词器。1.1认识分词对于分词操作来说,英语单词......