• 2024-06-13如何对jar包修改并重新发布在本机
    本人苦于jieba不能如何识别伊利丹·怒风,召唤者坎西恩这种名字,对jieba-analysis进行了解包和打包步骤1:找到对应jar 步骤2:在cmd中输入jar-xvfxxx.jar解压包,解压完成后将内容重新收集在一个文件夹 步骤3:修改需要修改的文件,我这里只需要修改dict即可步骤4:修改完成后在该文件
  • 2024-06-13Python文档处理操作(1)——统计分析文档内容
    -----案例1:要求-----读取文件data1.txt的内容,统计其中所有不同字符的数量,并输出结果。-----案例1:代码示例-----f=open('data1.txt')#打开名为'data1.txt'的文件,并将文件对象赋值给变量fls=[]#初始化一个空列表ls,用于存储文件中出现的不同字
  • 2024-06-04NLP--关键词
        在去停用词后的文本中进行词频统计和关键词统计以及词云图显示,来进行文本的关键词提取,让人一目了然。1.词频统计    统计文本中多次出现的词语,来寻找文章中的关键词,因为多次出现很可能就是关键内容。调用统计数量的Counter库和用来分词的jieba库。观察出现
  • 2024-05-31NLP--情感分析第一步分词
       在汉语中,词通常认为是一个或一个以上的文字构成的有意义的句子的最小单位。在英文中根据空格就可以直接分词。中文分词比英文难很多,可以采用基于词典分词,基于语法分词,基于统计分词。   常用的分词工具是jieba,又叫结巴,当将一个一个词分开时,读起来就像结巴一样,十
  • 2024-05-26jieba 分词
    print("学号后两位为33(2023310343133)")importjiebatxt=open("西游记.txt","r",encoding='gb18030').read()words=jieba.lcut(txt)counts={}forwordinwords:iflen(word)==1:#排除单个字符的分词结果continueelifword==&qu
  • 2024-04-02分词-1
    #encoding=utf-8importjiebajieba.enable_paddle()#启动paddle模式。strs=["我关注了数据STUDIO","我是数据分析师","四川大学"]forstrinstrs:seg_list=jieba.cut(str,use_paddle=True)#使用paddle模式print("PaddleMode:"+'
  • 2024-04-02调整字典
    使用 add_word(word,freq=None,tag=None) 和 del_word(word) 可在程序中动态修改词典。使用 get_FREQ(word) 用来统计当前词的词频。使用 suggest_freq(segment,tune=True) 可调节单个词语的词频,使其能(或不能)被分出来。注意:自动计算的词频在使用HMM新词发现功能时
  • 2024-03-26jieba分词+sk-learn计算样本问题最相似的问题
    场景:输入一段内容,找到问题集中跟该内容最相似的问题importjiebafromsklearn.feature_extraction.textimportTfidfVectorizerfromsklearn.metrics.pairwiseimportcosine_similaritytemplates=["出来钓鱼了喂","王大腚爱钓鱼","格小格爱爱钓鱼",
  • 2024-03-25jieba 分词器包的导入
    anaconda安装jieba(被折腾了很久)终于搞定_anaconda离线安装jieba-CSDN博客在命令窗口pip的时候老师说让更新后面并且更新失败  
  • 2024-03-05C# 分词jieba中文分词
    一、简介:ieba.NET是jieba中文分词的.NET版本(C#实现)。当前版本为0.42.2,基于jieba0.42,提供与jieba基本一致的功能与接口,但不支持其最新的paddle模式。关于jieba的实现思路,可以看看这篇wiki里提到的资料。此外,也提供了KeywordProcessor,参考FlashText实现。KeywordProcessor可
  • 2024-03-01第六章 字符串
    第6章字符串一、字符编码格式最早字符串编码:ASCIIGB2312-1980:中国定制的中文编码,1个字节兼容ASCII,2个字节表示中文GBK:是GB2312-1980的扩充CP936:是微软在GBK上扩充UTF8:1个字节兼容ASCII,3个字节表示汉字二、转义字符与原始字符串转义字符含义转义字符含义\b退
  • 2024-02-02理论与实战:一篇看懂Python词云
    理论与实战:一篇看懂Python词云后宫王镇贴前言:本文初编辑于2024年2月2日该项目代码的仓库地址:https://github.com/A-Piece-Of-Maple/WordCloudCSDN:https://blog.csdn.net/rvdgdsva博客园:https://www.cnblogs.com/hassle总结截至2024.2.2,想要学习词云,能够找到的文章大部
  • 2024-01-30wordcloud库和jieba库的使用
    目录wordcloud库的简单示范使用wordcloud库报错记录anaconda安装第三方jieba库jieba库的简单示范任务1:三国演义中的常见词汇分布在“三国"这两个隶书字上,出现频率高的词字体大任务2:三国演义中出现频率前十的人名。必须是以下这十个名字,名字组成心形wordcloud库的简单示范from
  • 2024-01-29如何在 Python 中使用 jieba 库来进行关键词提取
    jieba是一个流行的中文分词库,通过简单的几行代码,您就可以轻松地使用jieba库来提取中文文本中的关键词。本文将介绍jieba库的安装方法以及关键词提取的示例代码,并希望对您有所帮助。正文:1.安装jieba库:首先,我们需要安装jieba库。可以使用以下命令来安装jieba库:```pipinstalljieba
  • 2024-01-271.27学习进度
    1.jieba库可以对中文进行分词2.由于yarn是集群运行,executor可以在所有服务器上执行,所以每个服务器都需要有哦jieba库提供支撑3.如何尽量提高任务计算的资源计算cpu核心和内存量,通过–executor-memory指定executor内存,通过–executor-cores指定executor的核心通过—num-executors指
  • 2023-12-29西游记jieba分词统计
    importjieba排除非人名excludes={"一个","那里","怎么","我们","不知","和尚","妖精","两个","甚么","不是","只见","国王","徒弟","呆子","如何"
  • 2023-12-29jieba分词
    importjiebapath="all.txt"#读取文本文件file=open(path,"r",encoding="utf-8")text=file.read()file.close()words=jieba.lcut(text)#使用jieba分词counts={}#统计词频forwordinwords:iflen(word)==1:#过滤掉长度为1的词语
  • 2023-12-28jieba分词-红楼梦-次数前20
    importjieba读取文本文件path="红楼梦.txt"file=open(path,"r",encoding="utf-8")text=file.read()file.close()使用jieba分词words=jieba.lcut(text)统计词频counts={}forwordinwords:#过滤掉长度为1的词语iflen(word)==1:continue#更
  • 2023-12-28jieba库
    ```importjieba#读取文本文件path="红楼梦.txt"file=open(path,"r",encoding="utf-8")text=file.read()file.close()#使用jieba分词words=jieba.lcut(text)#统计词频counts={}forwordinwords:#过滤掉长度为1的词语iflen(word)==1:
  • 2023-12-28红楼梦jieba 分词
    importjiebatxt=open("D:\pycharm\python123\jieba分词作业\红楼梦.txt","r",encoding='utf-8').read()words=jieba.lcut(txt)#精确模式进行分词count={}#创建空字典forwordinwords:iflen(w
  • 2023-12-28西游记jieba分词
    importjiebatxt=open("西游记.txt","r",encoding='utf-8').read()words=jieba.lcut(txt)#使用精确模式对文本进行分词counts={}#通过键值对的形式存储词语及其出现的次数forwordinwords:iflen(word)==1:continueelifwordin
  • 2023-12-28jieba 分词-红楼梦
    importjiebaexcludes={"什么","一个","我们","那里","你们","如今","说道","知道","起来","姑娘","这里","出来","他们","众人","自己",
  • 2023-12-28jieba 分词
    jieba分词:importjiebawithopen("C:\\Users\\86133\\Desktop\\liaozhai.txt","r",encoding='utf_8')asf:words=jieba.lcut(f.read())counts={}forwordinwords:iflen(word)==1:continueeli
  • 2023-12-28聊斋jieba库
    importjiebaprint("0217向悦")#读取文本文件path="聊斋志异.txt"file=open(path,"r",encoding="utf-8")text=file.read()file.close()#使用jieba分词words=jieba.lcut(text)#统计词频counts={}forwordinwords:#过滤掉长度为1的词语
  • 2023-12-28红楼梦jieba分词
    importjiebaexcludes={"什么","一个","我们","那里","你们","如今","说道","知道","起来","姑娘","这里","出来","他们","众人","自己",&quo