首页 > 其他分享 >NLP--情感分析第一步分词

NLP--情感分析第一步分词

时间:2024-05-31 13:57:33浏览次数:23  
标签:NLP jieba -- 基于 模式 电商 分词 冗余

      在汉语中,词通常认为是一个或一个以上的文字构成的有意义的句子的最小单位。在英文中根据空格就可以直接分词。中文分词比英文难很多,可以采用基于词典分词,基于语法分词,基于统计分词。

      常用的分词工具是jieba,又叫结巴,当将一个一个词分开时,读起来就像结巴一样,十分形象。jieba分词结合了基于规则和基于统计两类方法。具有三种分词模式:

(1)精确模式:将句子进行最精确的切开,适合文本分析,不存在冗余。

(2)全模式:尽可能全面划分所有可以成词的词语,速度非常快,但不可避免存在很多冗余。

(3)搜索引擎模式:在精确模式基础上对长词再次划分,提高召回率,适合用于搜索引擎分词。

      除了jieba外,还有分词工具,比如snowNLP,PkuSeg,THULAC,HanLP等。其中,snowNLP除了分词外还有一个亮点是可以快速判断一句话的情感倾向,因为语料库是电商评论数据,所以对电商评论准确率较高。

标签:NLP,jieba,--,基于,模式,电商,分词,冗余
From: https://blog.csdn.net/weixin_53389235/article/details/139328632

相关文章

  • nuget添加readme
    提问nuget如何添加readme回答目录csproj其他nuget最佳实践https://learn.microsoft.com/en-us/nuget/create-packages/package-authoring-best-practices......
  • javax.validation分组校验
    /*没有加分组groups的属于Default默认分组。添加分组groups的属于自定义分组,不属于默认分组。validation校验默认使用默认分组校验,不会校验自定义分组。因此如果需要校验自定义分组的字段,需要校验的时候加上自定义分组,如:Valida......
  • 我有一个数组 [ 1,2 , 3,-4,-1,4 ],希望按 [-4,1,-1,2,3,4] 的顺序排列。
    我有一个数组[1,2,3,-4,-1,4],希望按照[-4,1,-1,2,3,4]的顺序排序。想要按照负数、正数、绝对值大小排序。我可以帮实现。以下是使用Python代码实现此排序逻辑的方法:defspecial_sort(nums):"""按照负数、正数、绝对值大小排序。Args:nu......
  • 关于Nginx 的 location 匹配规则总结
    Nginx版本:1.18.0location匹配的变量Nginx的location规则匹配的变量是 $uri,所以不用管后面的参数 $query_string (或者 $args)location匹配的种类格式主要是这个:location[空格|=|~|~*|^~|@]/uri/{...}其实上面分为三部分:最前面的字符(l......
  • 老域控升级注意事项DFS FRS
    要看2016的sysvol复制方式是不是DFS,2008r2以上的原生域复制方式默认都是DFS了,2003和以前的版本是FRS,如果是从2003升级上来的AD,没改的话还是FRS,FRS最高支持到win2016判断SYSVOL复制方式使用的是DFSR还是FRS:1.在任意一台域控上检查注册表HKEY_LOCAL_MACHINE\System\CurrentCon......
  • java模仿微博代码_Java相对时间转换 工具代码
    privateStringdateToRelativeTime(Datedate){SimpleDateFormatdf=newSimpleDateFormat("yyyy-MM-ddHH:mm:ss");Datenow=newDate();longbetween=(now.getTime()-date.getTime())/1000;//除以1000是为了转换成秒......
  • 错误:使用已移动的值,而该值无法使用
    请考虑以下代码:fnprint_or(opt:Option<()>,tail:Vec<i32>)->Vec<i32>{opt.map_or(tail,|_|{println!("{:?}",tail);tail})}Playground错误信息显示:error[E0382]:useofmovedvalue:`tail`-->src/lib.rs:2:22|1|fn......
  • [转帖]关于OpeSSL生成自签名证书-包含完整证书链生成(全网最全)
    https://www.cnblogs.com/linziping/p/16857167.html  相信大家对证书已经有一个比较直关的了解,这里只讲如何创建自签证书,关于openssl的使用或者证书的相关内容,此处不做过多讲解废话不多说,直接上手。一般证书分为根证书,中间证书,用户证书三级,也可以是根证书和......
  • vue 导出xlsx (报错./cptable in ./node modules/xlsx-style/dist/cpexcel.js)
    安装 xlsx 和  xlsx-stylesrc下创建文件夹utils, utils文件夹下创建index.js文件,index.js文件内容如下:*CreatedbyAnqion16/11/18.*//***Parsethetimetostring*@param{(Object|string|number)}time*@param{string}cFormat*@returns{stri......
  • Python 如何从 Google 地图短链接显示 X 和 Y?
    我有这样的google地图短链接:https://maps.app.goo.gl/wsmXZrYfP8V3ur2RAIwantpythonscripttoaskusertoinputgooglemaplink,thenprintXandYIuserinput:https://maps.app.goo.gl/wsmXZrYfP8V3ur2RApythoncodewillgetfulllink......