首页 > 其他分享 >中文分词器,整理自Ai

中文分词器,整理自Ai

时间:2024-08-01 12:58:09浏览次数:8  
标签:中文 cut 分词器 Ai THULAC seg install print 自然语言

1. Jieba(结巴)分词


pip install jieba
import jieba

# 使用默认模式进行分词
seg_list = jieba.cut("我爱自然语言处理", cut_all=True)
print(" ".join(seg_list))

 

2. SnowNLP

pip install snownlp
from snownlp import SnowNLP

s = SnowNLP("我爱自然语言处理")
print(' '.join(s.words))

 

3. PkuSeg

pip install pkuseg
import pkuseg

pku_seg = pkuseg.pkuseg()
print(' '.join(pku_seg.cut("我爱自然语言处理")))

 

4. THULAC
由于THULAC需要下载模型文件,因此安装步骤稍微复杂一些:
- 首先通过pip安装THULAC 包:
pip install thulac
- 然后下载模型文件,通常可以从[THULAC GitHub页面](https://github.com/thunlp/THULAC-)找到下载链接或说明。
- 加载模型并使用:
import thulac

thu_lac = thulac.thulac(seg_only=True)

print(thu_lac.cut("我爱自然语言处理", text=True))

 

5. HanLP

pip install pyhanlp
from pyhanlp import HanLP

seg_list = HanLP.segment("我爱自然语言处理")
print(' '.join([term.word for term in seg_list]))

 

请注意,某些分词器可能需要额外的步骤来下载和加载模型文件,具体步骤请参考各个分词器的官方文档或GitHub页面上的说明。

上述代码示例提供了基本的分词功能调用方式,您可以根据自己的需求调整分词模式或其他参数。

标签:中文,cut,分词器,Ai,THULAC,seg,install,print,自然语言
From: https://www.cnblogs.com/augustone/p/18336428

相关文章

  • 中文翻译《ASPICE in practice》之“SUP.8 配置管理”
    2.16SUP.8配置管理2.16.1目的配置管理流程的目的是建立和维护流程或项目的所有工作产品的完整性,并将其提供给相关各方。 在配置管理(CM)的背景下,配置管理系统至关重要。我们指的是一个或多个CM工具的组合,以支持物理存储和处理以及相关规则,例如指令、流程和约定;后者例......
  • 中文翻译《ASPICE in practice》之“ACQ.4 供应商监控”
    仅供参考,欢迎指正!2.1ACQ.4供应商监控2.1.1目的供应商监控过程的目的是根据商定的要求监控供应商的绩效。除了讨论供应商监控之外,这个过程还涉及与供应商的合作和沟通。合作的基础是选择供应商并且客户与供应商之间存在合同协议。MAN过程和SUP过程中的方法可应用于......
  • 使MySQL 8.5支持“Asia/Shanghai”格式时区配置
    默认情况下,MySQL不支持设置“Asia/Shanghai”格式时区信息,如根据数据记录的时区信息去转换时间时,会发生意想不到的空。“表达式1”会返回正常的时间转换结果:--表达式1SELECTCONVERT_TZ('2024-08-0111:04:04','+00:00','+08:00');“表达式2”会返回NULL:--表达式2SELE......
  • 论文写作遇到AIGC检测难题?笔灵AI去痕,让你的论文更贴近自然语言
    在当今时代,AI在学术写作中的应用日益普及,但这也引发了关于学术诚信和原创性的讨论。尽管使用AI撰写论文可能在一定程度上简化了写作过程,但学术界已经对这种趋势做出了回应,引入了AI生成内容(AIGC)检测机制,以识别和处理那些完全依赖AI生成的论文。一、论文AI检测与对策学术界已经......
  • 降AI率不再难:笔灵AI去痕工具,让你的论文原创性飙升
    在学术界,论文的质量评估标准越来越严格,除了传统的抄袭问题外,AI生成内容(AIGC)的检测也成为新的关注点。知网、维普等平台都具备检测论文AI率的功能。尽管使用GPT等AI工具写论文可以避免重复率问题,但AI率往往偏高,这就需要我们采取措施来降低。一、传统方法与AI辅助工具的结合降......
  • 怎样降低AIGC降痕对论文原创性的影响?笔灵AI去痕,轻松提升学术诚信
    随着AI技术的飞速发展,AI写作工具已经成为学术研究和论文撰写的强大助手。尽管如此,AI生成内容(AIGC)的痕迹问题也引起了学者们的广泛关注。维护论文的原创性不仅是对学术诚信的坚守,也是确保学术成果得到认可的关键。为了解决这一问题,我特别推荐一款AIGC痕迹降低工具,它能够有效地......
  • await 调用的函数不一定必须是 async 函数。 await 关键字通常用于 async 函数内部,用
    await调用的函数不一定必须是async函数。 await关键字通常用于async函数内部,用来等待一个Promise对象的解决。但如果被await调用的对象不是Promise,那么它会被直接返回。 functionnotPromiseFunction(){return42;}asyncfunctionexample(){const......
  • 2024短视频掘金项目,AI制作治愈系风景,奇幻天空特效,操作简单,日入3位数
    今日的项目:许多人可能已经在手机上欣赏过那些由AI创造的虚拟场景:小狗在雪地中欢快奔跑,云朵在街头飘荡,或是雨雪中的温馨画面。这些并非真实的摄影作品,而是人工智能的杰作。目前,不少账号仅通过发布这类视频内容,无需真人出镜,便吸引了数万甚至数十万的粉丝。比如在抖音和微信......
  • 从 UTF-8 编码到 GBK 编码的转换,解决中文在日志里显示乱码
    从UTF-8编码到GBK编码的转换,通过中间步骤先将UTF-8转换为宽字符,再将宽字符转换为GBK。std::stringUtf8ToGbk(conststd::string&utf8){intlen=MultiByteToWideChar(CP_UTF8,0,utf8.c_str(),-1,NULL,0);std::unique_ptr<wchar_t[]>wstr(newwchar_t......
  • 服务器LSI9361 RAID卡更换为BCM9560 RAID卡重启系统蓝屏解决方法
    一、问题现象服务器配LSI9361RAID卡,安装的系统为WindowsServer2022、2019、2016时。当LSI9361RAID卡故障后,使用BCM9560RAID卡替代后,无法进入系统后。报错提示如下图:二、解决方法 2.1 WindowsServer2022系统1、服务器启动时按F8键,选择“安全模式”进入系统。2......