首页 > 其他分享 >http://ccl.pku.edu.cn:8080/ccl_corpus/CCLCorpus_Readme.html

http://ccl.pku.edu.cn:8080/ccl_corpus/CCLCorpus_Readme.html

时间:2024-04-20 21:56:21浏览次数:22  
标签:8080 cn CCL 语料库 pku ccl edu corpus

北京大学CCL语料库简介

语料库网址: http://ccl.pku.edu.cn:8080/ccl_corpus 

CCL语料库及其检索系统为纯学术非盈利性的。不得将CCL语料库检索系统及其产生的检索结果用于任何商业目的。CCL不承担由此产生的一切后果。

CCL语料库仅供语言研究参考之用。语料本身的正确性需要您自己加以核实

CCL语料库中的中文文本未经分词处理。检索系统以汉字为基本单位

使用说明

语料库规模与分布

 

3 如何引用CCL语料库?

中文

詹卫东、郭锐、常宝宝、谌贻荣、陈龙,2019,北京大学CCL语料库的研制,《语料库语言学》2019年第6卷第1期,总第11辑,pp.71-86。

詹卫东、郭锐、谌贻荣,2003,北京大学中国语言学研究中心CCL语料库,网址:http://ccl.pku.edu.cn:8080/ccl_corpus

English

ZHAN Weidong, GUO Rui, CHANG Baobao, CHEN Yirong & CHEN Long, 2019, The building of the CCL corpus: Its design and implementation, Corpus Linguistics, 2019, Vol.6, No.1, pp.71-86

ZHAN, Weidong, GUO, Rui, CHEN, Yirong, 2003, The CCL Corpus of Chinese Texts, Available online at the website of Center for Chinese Linguistics (abbreviated as CCL) of Peking University, http://ccl.pku.edu.cn:8080/ccl_corpus

4 版本发展

序号 版本 总规模① 现代汉语 古代汉语 汉英双语
(1) 2004版 107,791,180 (1亿字符) 85,398,433 字 22,392,747 字
(2) 2006版 未统计 219MB(229,700,435字节) 196MB(206,222,888字节) 69.3MB(71,618,853 字节)
(3) 2007版 未统计 603MB(632,428,846字节) 同上 同上
(4) 2009版 未统计 695MB 397MB 同上
(5) 2014版 783,463,175(7.8亿字符) 581,794,456(5.8 亿字符) 201,668,719(2亿字符) 中文字数:6,176,546(600万字)
英文词数:3,934,609(300万词)
(6) 2024版 5,841,676,206(58.4 亿字符) 4,746,907,429(47.5 亿字符) 1,094,768,777(10.9 亿字符) 中文字数:192,057,581(1.9亿字)
英文词数:103,578,166(1亿词)


注① 指现代汉语加古代汉语的字数规模。2024版CCL语料库若将汉英双语对齐语料中汉语语料统计在内,总规模达到60亿字

标签:8080,cn,CCL,语料库,pku,ccl,edu,corpus
From: https://www.cnblogs.com/hhdom/p/18148244

相关文章

  • CCLCorpus_Readme.html
    CCL语料库检索系统使用说明2024-01-01目 录1普通查询     1.1操作符     1.2基本项     1.3简单项     1.4复杂项     1.5过滤项     1.6子句     1.7查询表达式2高级查询3批量查询4模式查询......
  • LCD显示器 --- 8080接口 和 RGB接口 的区别
    主要介绍LCD显示的基本原理,涉及像素、分辨率、颜色模型、RGB888等格式、Framebuffer、8080接口、RGB接口。1.LCD显示出图片的基本原理LCD作为显示器,它的显示原理和图片是一样的。图片可以看作由一个一个点(即像素pixel)组成。每行有xres个像素,有yres行,则这个图片的分辨率(resol......
  • yolo,rcnn,fastrcnn,ssd等算法有的区别
    chatgpt回答:YOLO(YouOnlyLookOnce),RCNN(Region-basedConvolutionalNeuralNetworks),FasterR-CNN,SSD(SingleShotMultiBoxDetector)等算法都是用于目标检测的经典算法,它们在实现目标检测任务时有一些区别。YOLO:YOLO是一种单阶段(single-stage)目标检测算......
  • memory-cnblog
    linux虚拟内存系统进程的虚拟内存用户区分段:代码段、数据段、堆、共享库、栈内核区:存放进程信息,PID\程序计数器、打开文件列表、task和mm(描述虚拟内存)结构等Linux加载进程时(exec系列系统调用)会为该地址空间每个段分配VMA,VMA数据结构(vm_area_struct)会描述该段的虚拟空间......
  • deepspeed 训练多机多卡报错 ncclSystemError Last error
     最近在搞分布式训练大模型,踩了两个晚上的坑今天终于爬出来了我们使用2台8*H100遇到过错误110.255.19.85:ncclSystemError:Systemcall(e.g.socket,malloc)orexternallibrarycallfailedordeviceerror.10.255.19.85:Lasterror:10.255.19.85:socketStartCo......
  • 【nvm,npm , cnpm , yarn】
    nvmnvm官网nvm是一个nodejs的版本管理工具。可以安装和切换不同版本的node.js。nvminstall[arch]:安装指定版本nodenvmlist[available]:查看已安装的node版本列表。available表示查看所有可安装的node版本列表nvmon:开启node.js版本管理。nvmoff:关闭n......
  • 云原生周刊:CNCF 2023 年度调查报告 | 2024.4.15
    开源项目推荐highlight该项目是一个开源全栈监控平台。其功能包括错误监控、会话重放、日志记录、分布式跟踪等。HelmComposeHelmCompose是一个helm插件,用于在单个配置文件中管理一个或多个图表的多个版本。HAMi异构AI计算虚拟化中间件(HAMi),是一个“一站式”图表,旨在......
  • Docker mysql 配置文件读取失败 [Warning] World-writable config file '/etc/mysql/c
    这个警告表明MySQL正在忽略/etc/mysql/conf.d/my.cnf这个配置文件,因为它被设置为了全世界可写。这个警告是基于安全性的考虑。当配置文件被设置为全世界可写时,任何人都可以修改它,这可能会导致安全风险,因为恶意用户可以更改MySQL的配置,从而影响数据库的行为和安全性。为了......
  • npm,registry,镜像源,npm切换源,yarn,cnpm,taobao,nrs
    描述我们在使用node的npm下载依赖的时候,往往下载速度很慢,那是因为npm默认的是npm处于国外的官方镜像源。所以需要切换到国内的镜像源来加速依赖下载。所以本文推荐一款简单好用npm镜像源管理器,可以方便开发者管理自己的镜像源。推荐:npm-registry-nrs......
  • ViT:拉开Trasnformer在图像领域正式挑战CNN的序幕 | ICLR 2021
    论文直接将纯Trasnformer应用于图像识别,是Trasnformer在图像领域正式挑战CNN的开山之作。这种简单的可扩展结构在与大型数据集的预训练相结合时,效果出奇的好。在许多图像分类数据集上都符合或超过了SOTA,同时预训练的成本也相对较低 来源:晓飞的算法工程笔记公众号论文:AnI......