首页 > 其他分享 >中文语料库 没有类似https://www.english-corpora.org/里的 A/B compare的好用的

中文语料库 没有类似https://www.english-corpora.org/里的 A/B compare的好用的

时间:2024-05-07 22:33:25浏览次数:14  
标签:词性 www 搭配 语料库 corpora pos 查询 length word2

BCC 一旦用~,统计,就查不全

CCL 有个“搭配查询” 但是很不好用,必须指明 词性 和 词长/距离,coca里任意1-4距离,词性也是任意

 

搭配查询,用于查询(对比)不同动词前后的共现名词的频次差异。例如: 查询表达式“刷(n,=2)|擦(n,=2)”,表示查询“刷”和“擦”后面的词长为2的名词。两个动词后的名词n是相同的,检索程序会返回n跟“刷”和“擦”共现时的频次。检索结果页面对“刷n”和“擦n”分两栏进行对照显示。点击某个具体的“刷n”或“擦n”实例,系统就执行普通查询,跳转到普通查询结果页面。

搭配查询的表达式规范为:word1(pos,=length)|word2(pos,=length) word1和word2代表两个要比较的目标词语。在 | 前后,对word1和word2搭配词的描述是相同的,都是 (pos, =length)格式,其中pos代表搭配词的词性,length代表搭配词的词长(字数)。

搭配查询的功能设计比较简单,还有待进一步完善。

标签:词性,www,搭配,语料库,corpora,pos,查询,length,word2
From: https://www.cnblogs.com/hhdom/p/18178577

相关文章

  • 碎片和水位线回收的验证过程 转发 https://www.modb.pro/db/1780420808865845248
    1、数据库基础内容表空间-数据文件-段-区-块一个表空间由一个或者多个数据文件组成高水位线和表碎片的示意图其中被划掉的字代表delete删除,其中耶就是后续的insert,只会在末尾增加,而不是填充被删除的字段,这样就会导致数据库在搜寻数据时会浪费很多资源。整理碎片后大概是这......
  • http请求头中application/x-www-form-urlencoded和multipart/form-data区别
    application/x-www-form-urlencoded和multipart/form-data是两种不同的Content-Type,它们在网络请求中(尤其是POST请求)用来指定表单数据的编码格式application/x-www-form-urlencoded:•这是最常见的表单数据编码方式,也是HTML表单的默认编码类型。•所有表单字段名和值都会......
  • 【爬虫】项目篇-在https://www.kanunu8.com/book2抓取电子书
    目录1)使用正则表达式2)使用bs41)使用正则表达式#使用requests库和正则表达式抓取在https://www.kanunu8.com/book3/任选的一本电子书importrequestsimportreimportosimporttimeheader={'user-agent':"Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit......
  • python使用request发送x-www-form-urlencoded类型的数据
    场景:当接口的Content-Type类型是x-www-form-urlencoded,使用json类型去请求,无法请求成功解决方法:使用parse.urlencode()方法对json数据进行解码处理,再传入。实例代码如下:importrequestsfromurllibimportparsesession=requests.session()headers={"Content-Type":"app......
  • 中文自然语言处理小白教程(二)——语料库的安装与使用
    自20世纪80年代以来,随着计算机应用技术的不断发展,世界各大语言都建立了许多不同规模、不同类型的语料库。这些语料库经过深度加工,应用范围也变得越来越广泛,在自然语言处理(NLP)中发挥着越来越重要的作用。因此,语料库已经成为了NLP的重要基础。本章将介绍语料库的基本概念、种类与......
  • 服务器端jupyter notebook映射到本地浏览器的操作【文章转自https://www.cnblogs.com/
    这篇文章转自主要介绍了服务器端jupyternotebook映射到本地浏览器的操作,做科研经常有这样的需求:即需要借助服务器的计算资源,本地编辑的工程文件需要每次都传到服务器才能运行。jupyter是较好的交互式编辑工具,有没有一种方式可以在jupyter上编辑属于服务器的文件呢?这就引出了我们......
  • www._______.com 男人最爱小网站!
    又来丰富你的收藏夹啦,5个网站,希望你喜欢。1️⃣IP检测地址:ipcheck.ing不管你是会魔法的老法师,还是不会魔法的小白,这个免费开源的IP工具箱都值得收藏。你可以用它来帮你查阅IP信息,检查GitHub等常见网站是否可用,判断DNS有无泄漏,查看分流规则是否正常,以及网速测试、全球......
  • vs2019单独重新安装python37_64失败解决办法(bilibili上我最早写的是https://www.bilib
    上个周末的时候,我发现用vs2019编写python的时候。代码高亮出现了奇怪的问题,进入解决方案的时候,print还是蓝色的,但是过了几秒钟后就变为黑色了,因此在最开始的时候我试图通过换一个皮肤和在管理扩展里面找扩展来解决,但是还是有相关问题。于是到vs2019对应的python文件夹找问题,目录是......
  • x-www-form-urlencoded 方式
    转载:https://blog.csdn.net/Wu7z_/article/details/108224944?spm=1001.2101.3001.6650.2&utm_medium=distribute.pc_relevant.none-task-blog-2~default~CTRLIST~Rate-2-108224944-blog-78784787.pc_relevant_recovery_v2&depth_1-utm_source=distribute.pc_relevant.......
  • 带 www 和不带 www
    域名(domainname)是人类可读的服务器的地址名称。一台物理机器可能包含多台服务器,一台服务器也可能由多台物理机器支撑。一个服务器可以有多个域名。域名通常是多级的,比如www.badiu.com,com是顶级域名(Top-LevelDomain,TLD),位于com前的baidu、www是标签label或者组件compo......