首页 > 其他分享 >NLP--词袋模型

NLP--词袋模型

时间:2024-06-04 16:58:34浏览次数:19  
标签:NLP -- 模型 词袋 列表 单词 用词 分词

词袋模型如同所有单词打散放到一个袋子中,因此这种模型无法估计语义和语序问题,每个单词都是独立的。

1.文本分词:调用jieba库,使用精确模式对每个句子进行分词,并存入列表。

2.去除停用词:遍历停用词文件的每一行,删除字符串头和尾的空白字符(包括\n,\r,\t等),加到停用词集合里。然后遍历分词后列表的每一行,再遍历每一行的每一个单词,如果该单词不在停用词集合里,就把该单词放入新的行列表中,最后将所有行列表存入文本列表中。

3.建立文本词典:去除停用词,建立总词典,使用set函数将重复的词去掉并转化为列表。

4.建立词袋模型:for语句建立词袋模型,只包含0和1。

5.词袋模型局限性:维度灾难,向量中大量元素为0,没有考虑词与词之间的顺序和结构信息,存在语义鸿沟的问题。

标签:NLP,--,模型,词袋,列表,单词,用词,分词
From: https://blog.csdn.net/weixin_53389235/article/details/139447364

相关文章

  • NLP--关键词
        在去停用词后的文本中进行词频统计和关键词统计以及词云图显示,来进行文本的关键词提取,让人一目了然。1.词频统计    统计文本中多次出现的词语,来寻找文章中的关键词,因为多次出现很可能就是关键内容。调用统计数量的Counter库和用来分词的jieba库。观察出现......
  • Linux进程和计划任务管理
    查看和控制进程程序是保存在外部存储介质(如硬盘)中的可执行机器代码和数据的静态集合,而进程 是在CPU 及内存中处于动态执行状态的计算机程序。查看进程了解系统中进程的状态是对进程进行管理的前提,使用不同的命令工具可以从不同的 角度查看进程状态。1.ps命令——查看......
  • WQS二分 学习笔记
    问题引入前置问题:把长度为\(n\)的正整数序列分为若干段,一段代价为这段和的平方加一个常数\(c\),求最小代价。设\(f_i\)表示考虑前\(i\)个数且最后一段结尾为\(i\)的代价,答案为\(f_n\),\(f_i=\max_{j=0}^{i-1}\{f_j+(s_i-s_j)^2+c\}\),可以斜率优化,时间复杂度\(O(n)\)......
  • 学习笔记482—手把手教你如何用mac访问win10共享文件
    这个方法巨简单,只需要两台电脑都用同一个网络,我的两台电脑都是连接wifi使用的,跟着图文一步步来操作哦操作步骤:......
  • 路过的朋友,欢迎来看看通俗易懂版本的Nacos
    ​一、什么是Nacos?一个更易于构建云原生应用的动态服务发现、服务配置和服务管理平台。 Nacos的关键特性: 二、注册中心演变及其设计思想1、RestTemplate调用远程服务如果此时,服务端接口接口名或参数或请求方式更改了,那么就得同步修改此restTemplate方法,感觉很麻烦。......
  • 编程题
    编程题编写一个函数,接受一个字符串,并返回该字符串中所有大写字母的数量。defcount_uppercase(string):returnsum(1forcharinstringifchar.isupper())实现一个函数,接受一个整数列表,并返回其中所有奇数的平方和。defsum_of_odd_squares(numbers):return......
  • JSON类型处理器
    数据库的user表中有一个info字段,是JSON类型:格式像这样:{"age":20,"intro":"佛系青年","gender":"male"}而目前User实体类中却是String类型:这样一来,我们要读取info中的属性时就非常不方便。如果要方便获取,info的类型最好是一个Map或者实体类。而一旦我们把info改为对象......
  • pt-online-schema-change 在线无缝修改表
    pt-online-schema-change支持在不妨碍读写操作的情况下修改表的结构。这种方法允许管理员无缝地修改表,同时保持数据的完整性,并最大限度地减少中断。为了完成在线修改的目标,pt-online-schema-change工具遵循定义明确的步骤:·创建空副本:pt-online-schema-change会为将要修改的......
  • superAGI核心源码分析
    main.pyimportrequestsfromfastapiimportFastAPI,HTTPException,Depends,Request,status,Queryfromfastapi.middleware.corsimportCORSMiddlewarefromfastapi.responsesimportJSONResponsefromfastapi.responsesimportRedirectResponsefromfastapi_......
  • ssl证书安全认证的原理是什么?
    SSL证书安全认证的原理是什么?SSL证书是一种数字安全证书,由受信任的CA机构验证身份后颁发,可以对数据传输进行加密以及对服务器进行身份验证。在配置SSL证书后,网站地址栏会显示“https://”开头,同时显示安全锁标志或绿色地址栏,这表示该网站已经通过了权威的第三方CA机构认证,用户可......