北京大学CCL语料库简介
语料库网址: http://ccl.pku.edu.cn:8080/ccl_corpus
CCL语料库及其检索系统为纯学术非盈利性的。不得将CCL语料库检索系统及其产生的检索结果用于任何商业目的。CCL不承担由此产生的一切后果。
CCL语料库仅供语言研究参考之用。语料本身的正确性需要您自己加以核实。
CCL语料库中的中文文本未经分词处理。检索系统以汉字为基本单位。
1 使用说明
2 语料库规模与分布
3 如何引用CCL语料库?
中文
詹卫东、郭锐、常宝宝、谌贻荣、陈龙,2019,北京大学CCL语料库的研制,《语料库语言学》2019年第6卷第1期,总第11辑,pp.71-86。
詹卫东、郭锐、谌贻荣,2003,北京大学中国语言学研究中心CCL语料库,网址:http://ccl.pku.edu.cn:8080/ccl_corpus
English
ZHAN Weidong, GUO Rui, CHANG Baobao, CHEN Yirong & CHEN Long, 2019, The building of the CCL corpus: Its design and implementation, Corpus Linguistics, 2019, Vol.6, No.1, pp.71-86
ZHAN, Weidong, GUO, Rui, CHEN, Yirong, 2003, The CCL Corpus of Chinese Texts, Available online at the website of Center for Chinese Linguistics (abbreviated as CCL) of Peking University, http://ccl.pku.edu.cn:8080/ccl_corpus
4 版本发展
序号 | 版本 | 总规模① | 现代汉语 | 古代汉语 | 汉英双语 |
(1) | 2004版 | 107,791,180 (1亿字符) | 85,398,433 字 | 22,392,747 字 | 无 |
(2) | 2006版 | 未统计 | 219MB(229,700,435字节) | 196MB(206,222,888字节) | 69.3MB(71,618,853 字节) |
(3) | 2007版 | 未统计 | 603MB(632,428,846字节) | 同上 | 同上 |
(4) | 2009版 | 未统计 | 695MB | 397MB | 同上 |
(5) | 2014版 | 783,463,175(7.8亿字符) | 581,794,456(5.8 亿字符) | 201,668,719(2亿字符) | 中文字数:6,176,546(600万字) 英文词数:3,934,609(300万词) |
(6) | 2024版 | 5,841,676,206(58.4 亿字符) | 4,746,907,429(47.5 亿字符) | 1,094,768,777(10.9 亿字符) | 中文字数:192,057,581(1.9亿字) 英文词数:103,578,166(1亿词) |
注① 指现代汉语加古代汉语的字数规模。2024版CCL语料库若将汉英双语对齐语料中汉语语料统计在内,总规模达到60亿字。