首页 > 其他分享 >分词-1

分词-1

时间:2024-04-02 17:34:42浏览次数:20  
标签:jieba cut list seg STUDIO Mode 分词

# encoding=utf-8
import jieba
 
jieba.enable_paddle()# 启动paddle模式。
strs=["我关注了数据STUDIO","我是数据分析师","四川大学"]
for str in strs:
    seg_list = jieba.cut(str,use_paddle=True) # 使用paddle模式
    print("Paddle Mode: " + '/'.join(list(seg_list)))
 
seg_list = jieba.cut("我毕业于四川大学,我关注了数据STUDIO", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list))  # 全模式
 
seg_list = jieba.cut("我毕业于四川大学,我关注了数据STUDIO", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list))  # 精确模式
 
seg_list = jieba.cut("他来到了网易杭研大厦")  # 默认是精确模式
print(", ".join(seg_list))
 
seg_list = jieba.cut_for_search("我是云朵君,我关注了数据STUDIO")  # 搜索引擎模式
print(", ".join(seg_list))

Paddle enabled successfully......
Paddle Mode: 我/关注/了/数据/STUDIO
Paddle Mode: 我/是/数据/分析师
Paddle Mode: 四川大学
Full Mode: 我/ 毕业/ 于/ 四川/ 四川大学/ 大学/ ,/ 我/ 关注/ 了/ 数据/ STUDIO
Default Mode: 我/ 毕业/ 于/ 四川大学/ ,/ 我/ 关注/ 了/ 数据/ STUDIO
他, 来到, 了, 网易, 杭研, 大厦
我, 是, 云朵, 君, ,, 我, 关注, 了, 数据, STUDIO

标签:jieba,cut,list,seg,STUDIO,Mode,分词
From: https://www.cnblogs.com/wajava/p/18111122

相关文章

  • MAC M1使用docker 安装es kibana ik分词器
    1.拉取elasticsearch镜像资源,本人下载的是8.6.2版本dockerpullelasticsearch:8.6.22.在本机中提前创建好yml文件elasticsearch.ymlhttp:  host:0.0.0.0xpack.security.enabled:falsexpack.security.enrollment.enabled:truexpack.security.http.ssl: enabl......
  • 中文地址分词算法-Java版
    addresstool用于处理中文地址的分词和匹配,采用NLP分词算法进行中文地址分词,在中文地址分词基础上对垃圾地址进行识别,过滤,标记等。根据杂乱的业务地址自动化生成标准中文地址库,并支持随机业务地址关联到标准地址操作,实测速度达到25000条/每秒今天我们测试一下addresstool的......
  • 中文地址智能分词算法-Java版
    addresstool用于处理中文地址的分词和匹配,采用NLP分词算法进行中文地址分词,在中文地址分词基础上对垃圾地址进行识别,过滤,标记等。根据杂乱的业务地址自动化生成标准中文地址库,并支持随机业务地址关联到标准地址操作,实测速度达到25000条/每秒今天我们测试一下addresstool的地址分......
  • springboot 集成elasticsearch Ik分词
    前提是我们elasticsearch服务已经集成了IK分词,具体集成下载对应的elasticsearchIK分词插件,在es插件包下创建IK文件夹,将下载好的IK包上传上去解压后重启es1、pom引入co.elastic.clientselasticsearch-java7.16.2jakarta.jsonjakarta.json-api2.0.1org.springframew......
  • jieba分词+sk-learn计算样本问题最相似的问题
    场景:输入一段内容,找到问题集中跟该内容最相似的问题importjiebafromsklearn.feature_extraction.textimportTfidfVectorizerfromsklearn.metrics.pairwiseimportcosine_similaritytemplates=["出来钓鱼了喂","王大腚爱钓鱼","格小格爱爱钓鱼",......
  • jieba 分词器包的导入
    anaconda安装jieba(被折腾了很久)终于搞定_anaconda离线安装jieba-CSDN博客在命令窗口pip的时候老师说让更新后面并且更新失败  ......
  • ElasticSearch中使用ik分词器进行实现分词操作
    简介:在默认的情况下,ES中只存在Stander分词器,但是这个分词器往往不满足我们的分词需求,这里通过ik分词器进行自定义我们的分词操作1、第一步将ik分词器进行下载下载地址:https://github.com/medcl/elasticsearch-analysis-ik需要注意,需要选择和自己的ES版本对应的版本2、将ik分词......
  • 3.分词器(Analyzer)
    分词器有什么用?分词器是搜索引擎的一个核心组件,负责对文档内容进行分词(在ES 里面被称为Analysis),也就是将一个文档转换成单词词典(Term Dictionary)。单词词典是由文档中出现过的所有单词构成的字符串集合。为了满足不同的分词需求,分词器有很多种,不同的分词器分词逻辑可能......
  • tokenizer分词器中的BPE分词方法的原理、样例、代码示例
    BytePairEncoding(BPE):想象一下你正在玩一种叫做“文字乐高”的游戏。在这个游戏中,你有很多小块,每个小块上写着一个字母或汉字。你的任务是用这些小块来构建单词或句子。开始时,你只能用单个字母或汉字的小块。但是游戏规则允许你找出那些经常一起出现的字母或汉字对,然后把它......
  • 【神经网络算法】一文搞懂Tokenization(分词)
    本文将从分词的本质、中英文分词、分词的方法三个方面,带您一文搞懂Tokenization(分词)。一、分词的本质核心逻辑:将句子、段落、文章这种长文本,分解为以字词为单位的数据结构。文本切分:分词是将连续的文本切分为独立的、有意义的词汇单元的过程。这些词汇单元可以是单词、......