• 2024-09-30python 敏感词识别处理
    定义词库1、敏感词库(black_word.txt)2、jeiba分词库(jieba_db_file.txt)(我这简单的就用文本来记录了,可以将这些词库都通过数据库来存储,对企业来说通过可视化页面去增删改可能会更方便运营处理)代码示例importosimportjiebablack_word_list=list()defload_word
  • 2024-09-13第一次软件工程项目--论文查重
    这个作业属于哪个课程https://edu.cnblogs.com/campus/gdgy/CSGrade22-34/这个作业要求在哪里https://edu.cnblogs.com/campus/gdgy/CSGrade22-34/homework/13229这个作业的目标个人项目——论文查重GitHub地址:https://github.com/samuhaer4581/3122004581.git
  • 2024-09-09*Python*jieba库简单分词
            jieba库是一个用Python编写的用于中文文本处理的开源库,它的主要功能是将连续的中文字符序列切分成一个个单独的词语。jieba分词支持多种分词模式,并且可以方便地加载自定义词典,以提高分词的准确率。1、安装jieba库pipinstalljieba2、精确模式精确模
  • 2024-09-07Python 中文分词
    Python中文分词结巴中文分词https://github.com/fxsjy/jieba安装 pipinstalljiebapipinstallpaddlepaddle 20.5.1. 分词演示 #encoding=utf-8importjiebaimportpaddlepaddle.enable_static()jieba.enable_paddle()#启动paddle模式。strs=[
  • 2024-09-05【NLP自然语言处理】文本处理的基本方法
    目录
  • 2024-09-03python学习
    jieba.lcut()用于对中文分词,split是对字符串操作,使字符变为列表分割importjiebatext="欢迎来到通大"seg_list=jieba.cut(text,cut_all=False)print("精确模式:"+"/".join(seg_list))精确模式:欢迎/来到/通大jieba.posseg()进行词性标注importjie
  • 2024-09-0320240903_190143 从清华到MIT知识点
    分词库的安装下载只需要一次即可pipinstalljieba分词的使用精准模式默认二级使用精准模式importjiebali=jieba.lcut(句子)全模式importjiebali=jieba.lcut(句子,cut_all=True)词频统计li=["a","b","a"]d={}forwinli: #查看这个w在字典中有几
  • 2024-09-02亦菲喊你来学机器学习(19) --TF-IDF中文处理
    文章目录TF-IDFjieba库中文分词分词自定义添加词典TF-IDF应用中文文章1.收集数据2.数据预处理3.构建TF-IDF模型对象4.排序取值总结TF-IDFTF-IDF(TermFrequency-InverseDocumentFrequency,词频-逆文档频率)是一种用于信息检索与文本挖掘的常用加权技术。TF-IDF
  • 2024-08-12【python学习】使用 jieba和 rank_bm25进行文本相似度计算
    介绍如何使用jieba分词库和rank_bm25库中的BM25Okapi算法来计算文本相似度。我们将通过一个简单的示例,展示如何实现这一过程。准备句子列表首先,我们准备一个包含多个句子的列表:sentences=["这是一个测试句子","温格高赢得了2023环法冠军","北京奥
  • 2024-07-23基于Memotrace(留痕)、jieba、wordcloud、cnsenti的微信聊天记录分析(一)(环境准备+词频统计+生成云图)
     创作背景在数字化时代,社交媒体和即时通讯工具已成为人们日常生活中不可或缺的一部分。微信,作为中国最流行的即时通讯软件之一,不仅承载了人们的日常交流,更记录了无数情感的起伏与心灵的触碰。小明,一个对生活充满好奇与热情的年轻人,最近通过微信结识了一位特别的女生——小芳
  • 2024-07-2320、Python之容器:红楼主角都有谁?10行代码生成《红楼梦》词云图
    引言Python系列前面的文章中,我们介绍了Python中容器的基本使用,上一篇中,我们又重点介绍了Counter计数器的使用。这些介绍,应该足以应付日常的工作需求了。在今天的文章中,我想以词云图的生成这个综合案例,巩固一下前面关于容器、字典推导式、Counter的使用。同时,介绍两个比较好
  • 2024-06-13如何对jar包修改并重新发布在本机
    本人苦于jieba不能如何识别伊利丹·怒风,召唤者坎西恩这种名字,对jieba-analysis进行了解包和打包步骤1:找到对应jar 步骤2:在cmd中输入jar-xvfxxx.jar解压包,解压完成后将内容重新收集在一个文件夹 步骤3:修改需要修改的文件,我这里只需要修改dict即可步骤4:修改完成后在该文件
  • 2024-06-13Python文档处理操作(1)——统计分析文档内容
    -----案例1:要求-----读取文件data1.txt的内容,统计其中所有不同字符的数量,并输出结果。-----案例1:代码示例-----f=open('data1.txt')#打开名为'data1.txt'的文件,并将文件对象赋值给变量fls=[]#初始化一个空列表ls,用于存储文件中出现的不同字
  • 2024-06-04NLP--关键词
        在去停用词后的文本中进行词频统计和关键词统计以及词云图显示,来进行文本的关键词提取,让人一目了然。1.词频统计    统计文本中多次出现的词语,来寻找文章中的关键词,因为多次出现很可能就是关键内容。调用统计数量的Counter库和用来分词的jieba库。观察出现
  • 2024-05-31NLP--情感分析第一步分词
       在汉语中,词通常认为是一个或一个以上的文字构成的有意义的句子的最小单位。在英文中根据空格就可以直接分词。中文分词比英文难很多,可以采用基于词典分词,基于语法分词,基于统计分词。   常用的分词工具是jieba,又叫结巴,当将一个一个词分开时,读起来就像结巴一样,十
  • 2024-05-26jieba 分词
    print("学号后两位为33(2023310343133)")importjiebatxt=open("西游记.txt","r",encoding='gb18030').read()words=jieba.lcut(txt)counts={}forwordinwords:iflen(word)==1:#排除单个字符的分词结果continueelifword==&qu
  • 2024-04-02分词-1
    #encoding=utf-8importjiebajieba.enable_paddle()#启动paddle模式。strs=["我关注了数据STUDIO","我是数据分析师","四川大学"]forstrinstrs:seg_list=jieba.cut(str,use_paddle=True)#使用paddle模式print("PaddleMode:"+'
  • 2024-04-02调整字典
    使用 add_word(word,freq=None,tag=None) 和 del_word(word) 可在程序中动态修改词典。使用 get_FREQ(word) 用来统计当前词的词频。使用 suggest_freq(segment,tune=True) 可调节单个词语的词频,使其能(或不能)被分出来。注意:自动计算的词频在使用HMM新词发现功能时
  • 2024-03-26jieba分词+sk-learn计算样本问题最相似的问题
    场景:输入一段内容,找到问题集中跟该内容最相似的问题importjiebafromsklearn.feature_extraction.textimportTfidfVectorizerfromsklearn.metrics.pairwiseimportcosine_similaritytemplates=["出来钓鱼了喂","王大腚爱钓鱼","格小格爱爱钓鱼",
  • 2024-03-25jieba 分词器包的导入
    anaconda安装jieba(被折腾了很久)终于搞定_anaconda离线安装jieba-CSDN博客在命令窗口pip的时候老师说让更新后面并且更新失败  
  • 2024-03-05C# 分词jieba中文分词
    一、简介:ieba.NET是jieba中文分词的.NET版本(C#实现)。当前版本为0.42.2,基于jieba0.42,提供与jieba基本一致的功能与接口,但不支持其最新的paddle模式。关于jieba的实现思路,可以看看这篇wiki里提到的资料。此外,也提供了KeywordProcessor,参考FlashText实现。KeywordProcessor可
  • 2024-03-01第六章 字符串
    第6章字符串一、字符编码格式最早字符串编码:ASCIIGB2312-1980:中国定制的中文编码,1个字节兼容ASCII,2个字节表示中文GBK:是GB2312-1980的扩充CP936:是微软在GBK上扩充UTF8:1个字节兼容ASCII,3个字节表示汉字二、转义字符与原始字符串转义字符含义转义字符含义\b退
  • 2024-02-02理论与实战:一篇看懂Python词云
    理论与实战:一篇看懂Python词云后宫王镇贴前言:本文初编辑于2024年2月2日该项目代码的仓库地址:https://github.com/A-Piece-Of-Maple/WordCloudCSDN:https://blog.csdn.net/rvdgdsva博客园:https://www.cnblogs.com/hassle总结截至2024.2.2,想要学习词云,能够找到的文章大部
  • 2024-01-30wordcloud库和jieba库的使用
    目录wordcloud库的简单示范使用wordcloud库报错记录anaconda安装第三方jieba库jieba库的简单示范任务1:三国演义中的常见词汇分布在“三国"这两个隶书字上,出现频率高的词字体大任务2:三国演义中出现频率前十的人名。必须是以下这十个名字,名字组成心形wordcloud库的简单示范from
  • 2024-01-29如何在 Python 中使用 jieba 库来进行关键词提取
    jieba是一个流行的中文分词库,通过简单的几行代码,您就可以轻松地使用jieba库来提取中文文本中的关键词。本文将介绍jieba库的安装方法以及关键词提取的示例代码,并希望对您有所帮助。正文:1.安装jieba库:首先,我们需要安装jieba库。可以使用以下命令来安装jieba库:```pipinstalljieba