CCL语料库检索系统使用说明
2024-01-01
目 录
正 文
一 普通查询 返回目录
这一小节介绍查询表达式的形式规范及不同类型查询表达式的功能。
查询表达式由操作符、基本项、简单项、复杂项、过滤项、子句等构成。下面依次介绍。
1.1 操作符 返回目录
查询表达式中可以使用的特殊符号包括13个:
序号 | 符号 |
1 | 空格 |
2 | | |
3 | $ |
4 | # |
5 | + |
6 | - |
7 | ~ |
8 | ! |
9 | : |
10 | [ |
11 | ] |
12 | ( |
13 | ) |
这些符号分为五组:
序号 | 符号 | 用法/语法形式 | 查询功能说明 |
Operator1 | 空格 | | A B A B C... A|B A|B|C|... |
Operator1是二元操作符,用于构成“简单项”(参见1.3)。 |
Operator2 | $ # + - ~ | A$NumberB A#NumberB A+NumberB A-NumberB A~NumberB |
Operator2是二元操作符,它必须跟整数连用,用于构成“复杂项”(参见1.4)。 |
Operator3 | ! | !A | Operator3是一元操作符,用于标记其后的基本项在查询结果显示页面居中高亮。 |
Operator4 | : | KEY:A KEY:[A B] KEY:[A|B] |
Operator4是二元操作符,用于构成“过滤项”(参见1.5)。 |
Operator5 | [ - ] [ ] ( ) |
A$[m-n]B KEY:[A B] KEY:[A|B] |
Operator5这组操作符是定界符。 可用于$操作符之后标记数值范围; 可用于在 : 操作符之后标记简单项。 可在模式查询中标记变项,或在普通查询中标记简单项。 |
注:上表中A、B等表示任意字符串(不含操作符);Number表示0和正整数;m、n表示0和正整数,m≤n。KEY表示系统预留关键字。
符号的含义如下:
序号 | 符号 | 说明 |
1 | 空格 | 相当于逻辑中的“并”关系。 |
2 | | | 相当于逻辑中的“或”关系。 |
3 | $ | 表示它两边的“简单项”出现于同一句中,按照左边在前、右边在后的次序共现。两个“简单项”之间相隔字数小于或等于Number。 |
4 | # | 表示它两边的“简单项”出现于同一句中,不考虑前后次序。两个“简单项”之间相隔字数小于或等于Number。 |
5 | + | 表示它两边的“简单项”出现于同一句中,按照左边在前、右边在后的次序共现。两个“简单项”之间相隔字数刚好等于Number。 |
6 | - | 表示它左边的“简单项”出现于句子中,并且,在右边相隔Number个字的范围内,-号右边的“简单项”不出现。 |
7 | ~ | 表示它左边的“简单项”出现于句子中,并且,在左边相隔Number个字的范围内,~号右边的“简单项”不出现。 |
8 | ! | 表示它后面的“简单项”是本次查询的主关键字符串,显示查询结果时以该“简单项”作为中心来进行定位。 |
9 | : | 用于path,author,name,type,pattern 等关键字后面,分隔关键字和它们的取值。 |
10 | [ - ] [ ] |
用于 $ 操作符之后,指定字符间隔数值范围; 用于 : 操作符之后,标记过滤项取值。 |
11 | ( ) | 用于模式查询表达式中,标记变项; 用于普通查询表达式中,标记简单项。 |
注意:
(1)上述操作符均不能作为基本项在语料库中进行检索。
(2)Operator5中的短横线 - 跟 Operator2中的 - 是同一个字符,但二者用法(环境)不同,作用不同。
1.2 基本项 返回目录
指连续字符串,字符串中不包含1.1小节所定义的查询表达式需要用到的特殊符号(包括空格)。
1.3 简单项 返回目录
简单项可以由以下三种形式的序列组成。
(1) 基本项
(2) 基本项1 Operator1 基本项2 Operator1 ...
(3) (基本项1 Operator1 基本项2 Operator1 ...)
注意:
在实际表达式中,Operator1 前后不能有空格。
在实际表达式中,简单项前后可以用西文括号 ( 和 ) 括起来,以使表达式结构更醒目。
1.4 复杂项 返回目录
复杂项可以由以下三种形式的序列组成。
(1) 简单项
(2) 简单项1 Operator2 Number 简单项2
(3) 简单项1 Operator2 Number Operator3 简单项2
在查询结果显示页面,默认以第一个简单项居中定位并高亮显示,操作符 ! 不能用于查询表达式第一个简单项,即操作符 ! 不能出现在复杂项开头。
复杂项中当operator2是 $ 和 + 号时,可以不限于两个简单项的组合。
- 复杂项可以是多个“$”连用。
例如:查询“被$10把$3给$2了”,表示“被、把、给、了”四个关键字在一个句子中共现,并且相互之间有间隔字符的要求,“被”在“把”之前出现,二者之间间隔小于10个字符。同时,“把”在“给”之前出现,二者之间间隔小于3个字符。同时,“给”在“了”之前出现,二者之间间隔小于2个字符。
- 复杂项可以是多个“+”连用。
例如:查询“你+3他+2了”,表示“你、他、了”三个关键字在一个句子中共现,并且相互之间有间隔字符的要求,“你”在“他”之前出现,二者之间间隔恰好3个字符。同时,“他”在“了”之前出现,二者之间间隔恰好2个字符。
- 复杂项还可以是“$”与“+”的组合搜索。
例如:查询“我$10你+3他$2了”,表示“我、你、他、了”四个关键字在一个句子中共现,并且“我”在“你”之前,二者间隔小于等于10个字符。同时,“你”在“他”之前,二者间隔恰好等于3个字符。同时,“他”在“了”之前,二者间隔小于等于2个字符。
- 操作符$支持指定查询字符间隔的范围(如[6-10]表示间隔6到10个字符),这种查询方式也可以跟“+”操作符组合。
例如:“我$[6-10]你+3他$2了”,表示:“我” 和“你”间隔字符在6到10个字符之间,“你”和“他”间隔等于3个字符,“他”和“了”间隔小于等于2个字符。
- 操作符$可以达到跟 + 操作符相同的查询效果,即支持指定查询字符间隔为一个固定距离。
例如:“把$[4-4]给”表示查询结果例句需要符合条件:“把”和“给”中间间隔字符数恰好为4个字符。“把$[4-4]给”的查询效果相当于“把+4给”。
注意:
|
Number为0和正整数。Operator2,Operator3前后均不能有空格。 |
|
Operator2后面的Number是必须的,不能省略。Number=0表示相邻,Number=1表示间隔1个单位,其余依此类推。 |
|
Operator2中,只有$和+这两个操作符支持多项连用,其余操作符不支持多项连用,也不支持跟$和+这两个操作符连用。 |
|
操作符 - 和/或 ~ 经常需要跟 $ 和/或 +操作符组合使用,这种情况下,可以先用 $ 和/或 + 构成的复杂项查询式查询,然后再用“在结果中查询”的方式,通过操作符 - 和/或 ~ 来排除一些例句,逐步检索到需要的用例。可参考第10节“查询举例”中第47、48例。 |
1.5 过滤项 返回目录
过滤项包含以下类型:
(1)path:简单项
(2)time:简单项
(3)pattern:简单项
(4)author:简单项
(5)translator:简单项
(6)type:简单项
(7)ch:简单项
(8)en:简单项
(9)name:简单项
(10)enname:简单项
说明:
|
通过指定path(路径)、time(年代)、pattern(重叠形式)、author(作者)、translator(译者)、type(文本类型)、ch(中文句子)、en(英文句子)、name(中文篇名)、enname(英文篇名)等等过滤项,用户可以缩小查询语料的范围。 |
|
过滤项path用于指定查询语料所在的文件夹或者文件名。“path:简单项”的功能是指在特定path(文件夹或文件名)范围内查询。“path”关键字后面跟的字符串要符合上面1.3“简单项”所定义的查询表达式形式规范,其余过滤项也是如此。 |
|
过滤项time用于指定查询语料所在的朝代或年代。“time:简单项”的功能是指在特定时间(朝代或年份)范围内查询。比如:“time:清”,查询“清代”的语料;“time:2008”,查询2008年的语料。 |
|
过滤项pattern用于查询汉语中的各种重叠形式,重叠形式指“AA”“ABB”“AABB”“AB不AB”“A一A”等等含有重复字符的形式。过滤项pattern在特定重叠模式下支持词性过滤。在“高级查询”页面,如果用户查询"pattern:AABB“重叠形式,则可以同时指定“AB”词性,例如:指定"AB"为动词,返回查询结果将包含“指指点点”所在的句子,而排除“高高兴兴”这样的AABB形式。 |
|
上述过滤项中,(1)(2)仅适用于单语语料;(3)同时适用于单语和双语语料;(4)-(10)仅适用于汉英双语语料库。 |
注意:
|
path是最常用的缩小语料查询范围的方法(可参考下文第10节“查询举例”的例22-29)。 |
|
“选择(时间)范围”(见下文第6节)也是一种过滤功能,即缩小查询语料的范围。 |
|
用户可以指定要查询的语料文件所在的文件夹,或者语料文件对应的开始和结束时间(年代/朝代)来缩小查询范围。 |
|
“选择范围”通过鼠标操作来选择文件夹,比较方便,但是,如果一个文件夹下包含的文件太多,可能会超出检索程序允许的参数长度限制,导致程序出错退出。 对于包含文件数量特别多的文件夹(如“四库全书”文件夹),请勿使用“选择范围”来缩小语料查询范围。而是采用在查询表达式中包含"path:四库全书"的方法来缩小查询范围。 |
1.6 子句 返回目录
子句可以是以下两类表达式:
(1) 复杂项
(2) 过滤项
1.7 查询表达式 返回目录
查询表达式可以是以下形式的序列:
(1) 子句
(2) 子句1 子句2 ...
注意:
子句和子句之间必须以西文空格字符隔开,表示逻辑“AND”关系。
二 高级查询 返回目录
高级查询页面的查询功能与普通查询页面的查询功能基本相同。
高级查询页面设置了一些输入特定查询条件的文本框,方便用户指定查询条件。
高级查询页面设置的文本框仅支持两个简单项拼接的复杂项查询方式。
如果是三项或以上拼接的复杂项查询表达式,只能在普通查询页面的搜索框中输入完整的查询表达式。
三 批量查询 返回目录
用户可以上传查询文件(txt文本文件),文件中可以包含多个普通查询表达式。文件格式为:每一行是一个合法的查询表达式。
批处理查询文件中允许的最大查询表达式数量为30,也就是说,用户上传的批处理查询文件中最多允许30个文本行。
返回的查询结果是一个网页(html文件),其中按照批处理查询文件中原顺序列出了每一个查询表达式,点击每个查询表达式的的超链接,可以显示该查询表达式的具体用例。
批量查询结果显示页面有下载功能,直接点击每个关键词后对应的下载按钮,即可下载该关键词对应的普通查询结果(txt文本文件)。
批量查询的检索结果文件中包含的检索结果数量最多不超过100例。
四 模式查询 返回目录
在模式查询页面,用户可以检索特定的模式,比如“爱(X)不(X)”;模式“爱(X)不(X)”表示查询“爱”跟“不”之间间隔若干个字符,用户可以指定X的字符个数(长度),两个X表示是相同的字符串。
4.1 模式查询表达式 返回目录
为了与文本中的字母进行区分,模式查询表达式中匹配的变量字符要用括号 ( ) 括起来。注意,查询表达式中的括号是西文括号“()”,不是中文的括号“()”。比如查找模式“爱X不X”,其对应的查询表达式为“爱(X)不(X)”。X的长度也可以指定,比如:
查询表达式为“爱(X,=2)不(X)”,表示要求X的长度为2;
查询表达式为“爱(X,<3)不(X)”,表示要求X的长度不超过3,即长度为1或2均可;
查询表达式为“爱(X,1-3)不(X)”,表示要求X的长度介于1-3之间。
注意:
模式查询针对的语料并未分词。因此,查询“爱(X)不(X)”,也可以匹配上“恩爱得不得了”。 | |
模式查询仅是形式意义上的匹配。不见得匹配上的实例在语义上也符合模式的要求。比如查询“爱(X)不(X)”,也可以匹配上“他的全部的爱是不是在羞辱中消失了”。这里的“爱是不是”不符合一般的“爱X不X”的语义模式。 | |
上面举例中,模式查询表达式 “爱(X)不(X)”的X代表的是任意字符。因此,查询“爱(X)不(X)”,也可以匹配上“少年,认真的恋个爱好不好”。其中“好”是形容词,不是动词。 | |
模式查询支持指定词性查询,模式查询表达式“爱(v)不(v)”中的v表示动词verb。在模式查询页面,变量如果用小写字母,如v,n,a等,则代表词性标记。v、n、a分别表示动词、名词、形容词。 | |
此外,在模式查询时,可以使用下标,对匹配到的词语进行区分,“爱(v1)不(v2)”中v1和v2都表示动词,但是要求是不相同的两个动词。 |
综上所述,模式查询并不一定能检索到真正在句法语义上符合用户检索需求的实例,而是仅仅返回了字符形式层面符合查询表达式条件要求的例句。因此,对检索系统返回的模式匹配结果,需要用户根据研究目的来进一步加以甄别。
附:模式查询表达式的BNF范式:
Query ::= <TERM><LPAREN><PlaceHolder><RPAREN> [(<LPAREN><PlaceHolder><RPAREN>) | <TERM>]*
PlaceHolder ::= <PLACEHOLDER><DISTANCE_START>
(
( [<DISTANCE_MORE>|<DISTANCE_LESS>| <DISTANCE_EQUAL>]<NUMBER>) |
(<NUMBER><SCOPE><NUMBER>)
)
<PLACEHOLDER> ::= [a-zA-Z]
<DISTANCE_MORE> ::= “>”
<DISTANCE_LESS> ::= “<”
<DISTANCE_EQUAL> ::= “=”
<SCOPE> ::= “-”
<NUMBER>::= [0-9]*
需要注意的是:
(1) 不允许对模式中变量的长度进行多重定义,如“有(V,<8)没(V,>7)”为不合法的查询表达式。
(2) 如果变量长度未指定,则系统默认最大的长度为10。即“爱(V)不(V)”等价于“爱(V,1-10)不(V)”。
4.2 模式查询结果页面的显示 返回目录
“模式查询”的默认结果页面跟“普通查询”的结果页面相同,参见下文 第八节 的说明。
“模式查询”的结果页面上,有一个“统计”按钮。统计功能的使用说明:
(1)点击“统计”按钮,系统对“模式查询”表达式中的“变项(如X,v等)”进行计数,返回每个模式实例在语料库中的频次信息。
(2)在“当前页面结果排序”下拉框中选择“按频次降序”或“按频次升序”,再点击“统计”按钮,可以根据每个模式实例的频次降序或升序,排序输出。
(3)在返回检索结果页面,点击一个模式实例,即可跳转到以该模式实例为关键词的普通查询结果页面。
例如:查询“爱(X)不(X)”模式,返回的默认结果页面如下,假设共在227个文档中出现。
逐个列出模式实例所在的句子[具体句例略]
点击“统计”按钮后,返回结果形如:
共在43个文档中出现
爱动不动: 3 ; (X,动)
爱去不去: 2 ; (X,去)
爱打不打: 1 ; (X,打)
爱念不念: 1 ; (X,念)
爱怕不怕: 1 ; (X,怕)
爱戒不戒: 1 ; (X,戒)
爱懂不懂: 1 ; (X,懂)
爱用不用: 1 ; (X,用)
……
根据这个统计结果可以知道,在CCL语料库中,“爱X不X”中的X有:动,去,打,念,怕,戒,懂,用,……
点击“爱用不用”,检索系统就以“爱用不用”作为查询表达式,调用“普通查询”功能,返回语料库中包含“爱用不用”的例句。
五 搭配查询 返回目录
搭配查询,用于查询(对比)不同动词前后的共现名词的频次差异。例如: 查询表达式“刷(n,=2)|擦(n,=2)”,表示查询“刷”和“擦”后面的词长为2的名词。两个动词后的名词n是相同的,检索程序会返回n跟“刷”和“擦”共现时的频次。检索结果页面对“刷n”和“擦n”分两栏进行对照显示。点击某个具体的“刷n”或“擦n”实例,系统就执行普通查询,跳转到普通查询结果页面。
搭配查询的表达式规范为:word1(pos,=length)|word2(pos,=length) word1和word2代表两个要比较的目标词语。在 | 前后,对word1和word2搭配词的描述是相同的,都是 (pos, =length)格式,其中pos代表搭配词的词性,length代表搭配词的词长(字数)。
搭配查询的功能设计比较简单,还有待进一步完善。
六 选择(时间)范围 返回目录
默认情况下,查询语料的范围是全部语料文件。
用户可以有三种途径,缩小查询语料的范围:
(1)采用 “path:xxx”方式,指定在特定的文件夹(文件名)中进行查询;(参考1.5过滤项关于path的用法说明。这是最常用最主要的缩小语料范围的方法)
(2)用鼠标点击“选择范围”按钮,在弹出的语料库文件夹目录树中,选取特定的若干文件夹或文件,指定查询范围;
(3)用鼠标点击“选择时间”按钮,在弹出的下拉菜单选项框中,选择开始时间和结束时间,指定查询范围;
(2)和(3)的具体操作方式说明如下:
点击“选择范围”按钮,用户可以在下拉菜单中选择查询语料所在的文件夹。古代汉语语料和现代汉语语料有各自的文件夹目录树结构。用户在查询时,可以点选单个或多个文件夹或文件,在选定的文件夹或文件范围内查询语料。
取消之前设定的范围:点击“选择范围”按钮后,选择“清空”,即回到在全部语料文件范围内查询。
点击“选择时间”按钮,用户可以在下拉菜单中选择查询语料的开始时间和结束时间。结束时间只能晚于开始时间或跟开始时间相同。用户指定开始时间和结束时间后,检索的对象将仅涉及在指定时间范围内的语料。
取消之前选择的时间:点击“选择时间”按钮后,不选择时间,即回到缺省状态,如果选择新的开始时间和结束时间,则改变检索语料的时间范围。
注意:“选择范围”功能的使用限制:
选择文件夹下包含的子文件或文件数量不能超过256个。如果超过,程序无法执行查询操作。
比如:在古代汉语查询“四库全书”文件夹下语料,或者在“四库全书”目录下,选择查询子目录“10宋”文件夹(即"10宋"文件夹下全部语料),都会因为这些文件夹下面包含的文件数量过多,而无法返回检索结果。
建议尽可能使用“path”过滤关键字方式来缩小查询范围。比如:"path:四库全书"跟其他查询表达式同时使用,就表示在“四库全书”(文件夹中包含“四库全书”这个字符串)范围内查询。(可参考下文第10节“查询举例”的例22-29)
七 在结果中查询 返回目录
对于复杂的查询要求,可以尝试通过多次查询完成,即利用“在结果中查询”功能,逐次逼近检索目标。(可参考下文第10节“查询举例”中例47-50。)
“在结果中查询”的功能是指在上一次检索基础上,用户输入新的查询条件,然后点击“在结果中查询”按钮,系统会将此次用户输入的查找条件跟上一次的查找条件(LastQuery)合并(AND运算),执行一次查询。查询结果是上一次查询结果的一个子集。
比如:用户想查找“宁可……也”的例句,同时不希望“也”后面出现“不”这样的否定词。检索方式可以如下:
(1)先输入查询表达式“宁可$10也”,返回的结果是包含“宁可”和“也”,且二者相隔10字以内的句子。
(2)在检索结果显示页面,再输入查询表达式“也-4不”,点击“在结果中查询”按钮。这样返回的检索结果就把“也”后面4个字范围内有“不”的句子去除掉了。
“普通查询”和“模式查询”的检索结果页面,都有“在结果中查询”按钮(功能)。
在输入查询条件的文本框中,输入查询表达式要遵循上文第一节规定的查询表达式的规范。
无论是“普通查询”还是“模式查询”状态下,“在结果中查询”都只允许“普通查询”表达式。
换言之,并不支持“在结果中查询”对应的检索框中输入“模式查询”表达式。
八 查询结果的显示与下载 返回目录
8.1 查询结果的显示单位
查询结果以原始语料文件(纯文本格式)中的一个自然文本行为单位输出显示,用户可以指定查询结果的显示长度(左右n个字范围)。
如果想显示查询关键字所在的整句,可以通过指定足够大的显示长度(比如1000)来实现。当用户指定的显示长度超过原文本行的字符长度时,以文本行长度为限显示查询结果。
8.2 查询结果的“标亮”和“关键词居中” 返回目录
标亮词:在一个检索结果显示行中以红颜色标出的词,可以有多个;
中心词:是一个特殊的标亮词,显示查询结果的每行文本时,以“中心词”位于页面水平中心位置对齐。
查询表达式中的“复杂项”和“过滤项”中的pattern项目都可以作为“标亮词”。
这里“标亮词”是指跟“标亮词”匹配的字符串。
如果用户使用“在结果中查询”功能,则第一次查找的关键字称为"主query",第二次查找的关键字称为"次query", 在检索结果页面,系统使用不同的颜色区分主query和次query,主query使用红色高亮,次query使用蓝色高亮。注意:当超出显示长度则页面中的次高亮query不再高亮显示。
用户如果在查询表达式中没有用Operator2指定“中心词”,系统会自动把第一个检索关键词当作“中心词”,在结果页面作为“标亮词”对待。
用户如果在查询表达式中用Operator2指定了“中心词”,那么该“中心词”在结果页面作为“标亮词”对待。
8.3 结果页面的显示宽度 返回目录
显示宽度定义:
检索结果中句子长度需根据页面宽度进行裁剪(或折行)。如果是有关键词的检索,则关键词必须居中。如果检索条件没有指定关键词,则所有返回的检索结果中,长度最长的文本不超过页面宽度。 。
根据需求,页面显示分为下面几种情况:
搜索类型 |
指定字数 |
结果形式 |
处理方式 |
单语查询 |
最多显示字数 左 XX右 XX |
HTML网页 |
如果指定字数不超过页面宽度,按照指定字数; 否则,按照 系统默认的最大长度显示 |
下载(txt文件) |
按照指定字数 |
||
双语查询 |
最多显示字数 左 XX右 XX |
HTML网页 |
目标语言 (查询输入的语言) 按照指定字数;对 照语言不进行压缩 |
下载(txt文件) |
8.4 结果页面中关键词一例一行 返回目录
对于有关键词的检索,如果一个文档(document)——在语料库中对应为原自然文本的一段 ——中包含了n个检索关键词,则该文档被显示n次,每次都以关键词居中显示。
在查询结果显示页面右上角指明了本次查询结果文档doc总数,但是同一关键词可能在一个文档中出现多次,因此采用二级显示如下:
为了对索引的命中数(结果数或document数)与关键词的命中数进行区分,同时兼顾执行效率,使用如下的呈现方式:
最左边使用两级编号,其中“1.1”表示第一个document的第一条查询命中;“9.1”,“9.2”,“9.3”,“9.4”,“9.5”,表示属 于同一个document,但是分别为不同的命中,即9号文档共有5个实例匹配用户指定的查询条件。
8.5 查询结果的排序 返回目录
用户可以指定按照“中心词”左边字符串排序,或按照“中心词”右边字符串排 序。排序方式为字符内码(GB码)降序。
排序依据包括:
(I)如果是返回符合检索表达式条件的句子,则可以根据关键词上下文环境中字符串的内码排序(上文、下文、上下文)。
(II)如果是返回符合检索表达式条件的句子(或段落、篇章)中的特定的词或模式,可以根据跟关键词构成搭配关系的字符串的频次排序。
除在网页上显示的检索结果支持排序外,下载的结果文件中也支持排序。
8.6 查询结果的扩展 返回目录
对于有关键词的检索,在返回的结果页面上有一个“上下文”链接,点击后,可 以扩展显示当前例句的上下文。
8.7 查询结果的下载 返回目录
用户可以将查询所得结果保存到自己本地计算机的磁盘上。
在查询结果显示网页上,点击“下载”按钮,查询结果即以txt文件形式保存到本地磁盘上。
文件中每行是一条检索结果,行末在【 】内注明了该句的出处、作者、路径等信息。
用户可以根据需要指定下载结果的条数,缺省为500条。用户可设定的最大下载检索结果条数为2万条。
用户在下载结果前,可以通过翻页功能定位到第n页。下载的检索结果从当前结果页面的第一条记录开始。
用户指定下载检索结果条数较多时,文件可能会比较大,下载速度缓慢,请耐心等待,请勿重复提交下载请求。
九 双语查询 返回目录
双语查询对中文和英文,均支持普通查询和高级查询。具体查询方法参考上文“一 普通查询”和“二 高级查询”。
双语查询对中文,还支持“批量查询”的功能。具体查询方法参考上文“三 批量查询”。
双语查询对中文,还支持“模式查询”的功能。具体查询方法参考上文“四 模式查询”。
注意:
- 双语查询页面可以直接查询像“把$10被”和“(put)$10(up)”这样的复杂查询表达式,但复杂查询表达式不适用于过滤项。
- 双语查询页面不支持像“ch:把$10被”和“en:(put)$10(up)”这样的查询表达式。
- 双语查询中,过滤项仅适用于简单项查询表达式,如:“ch:[这个|这些]” 和“en:[this|these]”。
- 双语查询中,一般无须使用过滤项。比如:在查询表达式输入框,直接输入“这个|这些”就可以了,不必输入“ch:[这个|这些]”。
9.1 对英语词组的查询 返回目录
词组两端用引号确定边界,比如:"take care of"
9.2 英语词形处理 返回目录
检索一个单词时,该单词的不同词形变化形式也作为检索关键词看待。比如用户查 take 的时候,系统会将包含took、 taken、takes、taking的文档也作为查询结果返回。
十 查询举例 返回目录
查询式 | 含义 |
|
查出所有包含“计算机硬件”的句子。 |
|
查出所有包含“把”,同时也包含“被”的句子,即两个关键字之间无次序限制,无距离限制,只需要在一个自然段内。 |
|
查出所有包含“残疾儿童”,同时也包含“职业教育和培训”的句子,即两个关键字之间无次序限制,无距离限制,只需要在一个自然段内。 |
|
查出含有“把”或“被”的句子,两个关键字只需有一个在句中出现,该句子就作为查询结果输出。注意:- 号属于opertaor2,其后必须有数字,且不能有空格 |
|
查出含有“把”,但在“把”右边4个字范围内不含“不”的句子。 |
|
查出含有“给”,但在“给”左边4个字范围内不含“把”的句子。 |
|
查出同时含有“与其”和“不如”的句子,并且“与其”在先,“不如”在后出现,中间间隔10字以内。 |
|
查出同时含有“与其”和“不如”的句子,并且“与其”在先,“不如”在后出现,中间间隔2到4字。 |
|
查出同时含有“的”和“的”的句子,并且前一个“的”跟后一个“的”间隔10字以内。 |
|
查出同时含有“put”和“up”的句子,并且第一个关键词“put”跟第二个关键词“up”间隔8到10个字符。注意:双语语料库中的查询表达式,包括普通查询和模式查询,基本可以沿用现代汉语语料库的查询表达式的规范。 |
|
查出同时含有“被”、“把”和“给”的句子,并且第一个关键词“被”跟第二个关键词“把”间隔4字以内,第二个关键词“把”跟第三个关键词“给”间隔10字以内。 |
|
查出同时含有“能力”和“大”的句子,且“能力”和“大”之间的间隔在3个字之内,二者的先后次序不受限制。 |
|
查出同时含有“吃”和“亏”的句子,并且“吃”在先,“亏”在后出现,二者之间刚好间隔3个字。 |
|
查出同时含有“被”“把”“给”的句子,并且第一个关键词“被”跟第二个关键词“把”间隔1个字,第二个关键词“把”跟第三个关键词“给”间隔6个字。 |
|
查出同时含有“被”“把”“给”的句子,并且第一个关键词“被”跟第二个关键词“把”间隔1个字,第二个关键词“把”跟第三个关键词“给”间隔6个字以内。 |
|
查出同时含有“被”和“给”的句子,并且“被”在先,“给”在后出现,二者之间间隔10个字以内。显示查询结果时,以“给”为“中心词”,即“给”居中对齐。 |
|
查出同时含有“把”和“给”的句子,并且“把”在先,“给”在后出现,二者之间间隔10个字以内。 或者,查出同时含有“被”和“给”的句子,并且“被”在先,“给”在后出现,二者之间间隔10个字以内。 |
|
查出同时含有“把”和“给”的句子,并且“把”在先,“给”在后出现,二者之间间隔10个字以内。 或者,查出同时含有“被”和“给”的句子,并且“被”在先,“给”在后出现,二者之间间隔10个字以内。 显示查询结果时,以“给”为“中心词”,即“给”居中对齐。 |
|
查出同时含有“把”和“给”的句子,并且“把”在先,“给”在后出现,二者之间间隔2-4个字。 或者,查出同时含有“被”和“给”的句子,并且“被”在先,“给”在后出现,二者之间间隔2-4个字。 显示查询结果时,以“给”为“中心词”,即“给”居中对齐。 |
|
查出“了”与标点符号“。?,!”等紧邻出现的句子。这实际上就部分地达到了查询“句尾了”(汉语学界一般所说的“了2”)的目的。 |
|
查出“把”跟“下去”在同句中共现,且相隔10个字符以内,“下去”后接句号、叹号或问号,即“下去”在句尾的句子。 |
|
在语料中查找含“所以”的句子,同时该语料文件的文件夹或文件名中要含“老舍”这个词语。这相当于查询老舍作品中使用“所以”的例句。注意:“所以”跟path之间需要有一个空格。 |
|
在语料中查找含重叠形式“A来A去”的句子,同时该语料文件的文件夹或文件名中要含“老舍”这个词语。这相当于查询老舍作品中使用“A来A去”的例句。 |
|
在语料中查找含“新年贺词”的句子,同时该语料文件的文件夹或文件名中含“人民日报”“2010”这两个关键词。这相当于在“2010年人民日报”这个范围内查询含“新年贺词”的例句。 |
|
在语料中查找含重叠形式“AABB”的句子,同时该语料文件的文件夹或文件名中含“老舍”,语料时间是“1954”年。 |
|
查询“虽然”“但是”“了”三个关键词共现的句子,要求“虽然”跟“但是”相隔4个字,“但是”跟“了”相隔4到8个字。语料范围限定在“报刊”语料中。 |
|
查询语料范围为文件夹或文件名称中同时包含“孔子”和“宋”两个关键词。 |
|
查询语料范围为文件夹或文件名称中同时包含“孔子”和“宋”两个关键词。 |
|
查询语料范围为文件夹或文件名称中或者包含“孔子”,或者包含“宋”,即两个关键词有其一即符合查询条件。 |
|
在模式查询页面,查询“有一种X叫Y”这样的例子,其中X和Y是两个不同的字符串,且长度都为两个汉字字符。(返回结果:有一种力量叫感动;有一种放弃叫成全;……) |
|
在模式查询页面,查询“有一种X叫Y”这样的例子,其中X和Y是两个不同的字符串,且长度都在5个字符以内。 |
|
在普通查询页面,查询“有一种X叫Y”这样的例子,X是两个字符,在“微博”文件夹范围内查找。 |
|
在模式查询页面,查询“死的死逃的逃”这样的例子,其中X和Y是两个不同的字符串,且X的长度在1-4个字符;Y的长度也是1-4个字符。 |
|
在模式查询页面,查询“走也走不了,甩也甩不掉”这样的例子,其中两个变项都是动词v(不同形),第2个变项v后跟着逗号。v的长度没有限制。 |
|
在模式查询页面,查询“走也得走,不走也得走”这样的例子,其中两个变项都是动词v(同形),第2个变项v后跟着逗号。v的长度没有限制。 |
|
在模式查询页面,查询“一个人和人”这样的例子,其中两个变项都是名词n(同形),n的长度小于3个字符。 |
|
在模式查询页面,查询“穿”后接名词n的例子,变项n的长度为2到3个字符。 |
|
在模式查询页面,查询“爱X不X”这样的例子,其中X变项为动词v,且是单音节动词。(返回结果:爱借不借;爱理不理;爱管不管……) |
|
在模式查询页面,查询“爱X不X”模式的例子,其中X变项为动词v,词长小于3,即为单音节动词或双音节动词; |
|
在模式查询页面,查询“爱X不X”模式的例子,其中X变项为动词v,词长在1到3之间,即可以是单音节、双音节、三音节动词; |
|
在搭配查询页面,查询“穿”和“戴”后接名词n(在两个动词后的n形式相同)的例句,n的长度为3。 返回查询结果页面示例: 穿深蓝色19,戴深蓝色1, n对应为具体的名词词语“深蓝色”,“深蓝色”后面的数字是该用例在语料库中出现的频次。 |
|
在搭配查询页面,查询“刷”和“擦”前接名词n(在两个动词前的n形式相同)的例句,n的长度为2。 返回查询结果页面示例: 黑板刷1,黑板擦54, n对应为具体的名词词语“黑板”,“黑板”后面的数字是该用例在语料库中出现的频次。 |
|
在搭配查询页面,查询“不过来”和“不过去”前接动词v(两个组合中v形式相同)的例句,v的长度未指定。 返回查询结果页面示例: 透不过来: 79,透不过去: 8, v对应为具体的动词词语“透”,“透”后面的数字是该用例在语料库中出现的频次。 |
|
查询英语语料篇名含“Intranet”的文件中包含“Internet”的例句。查询表达式中“enname”用于指定篇名 |
|
查询英语语料篇名含“Intranet”以及“Groupware”两个关键字的文件中包含“Internet”的例句。查询表达式中“enname”用于指定篇名,可以多项并列使用,各项之间用空格分开。 |
|
查询英语语料篇名含“Intranet”或者“Groupware”两个关键字的文件中包含“Internet”的例句。 |
|
查询中文句子中包含“以太网”以及英文句子中包含“Ethernet”的汉英双语对照例句。查询表达式中“ch”对应中文句子,“en”对应英文句子。 |
|
查询“宁可”和“也”间隔10个字的句子,同时排除“也”后4个字范围内出现“不”,“也”后紧邻出现“要”的句子。 执行顺序:先在“普通查询”页面,按照查询表达式1进行查询; 然后在返回检索结果页面,输入查询表达式2,点击“在结果中查询”按钮。 |
|
查询“一个n1和n2”(如“一个毯子和饭包”)这样的例句,同时排除“每一个国家和地区”这样的句子。后者用“一个~0每”这个查询表达式可以过滤掉。该查询表达式的含义是,关键词“一个”的左边不能紧邻出现关键词“每”。 执行顺序:先在“模式查询”页面,按照查询表达式1进行查询; 然后在返回检索结果页面,输入查询表达式2,点击“在结果中查询”按钮。 |
|
查询表达式1:“澡”出现在“洗”的左侧(即句子中先说了“澡”,后面再说“洗”),目的是查找句子中“洗澡”这个词的离合用法。例如:他连澡都没洗,…… 查询表达式2:“洗”和“澡”之间间隔0到5个字。目的是把“洗……澡”这类离合用法,以及直接连用的“洗澡”非离合用法从查询表达式1的结果中剔除出去。 查询表达式3:把“澡”后紧挨着逗号“,”的例句,再从查询表达式2的检索结果中剔除出去。 查询表达式4:把“澡”后紧挨着顿号“、”的例句,再从查询表达式3的检索结果中剔除出去。 执行顺序:先在“普通查询”页面,按照查询表达式1进行查询; 然后在返回检索结果页面,输入查询表达式2,点击“在结果中查询”按钮; 然后再在返回检索结果页面,输入查询表达式3,点击“在结果中查询”按钮; 然后再在返回检索结果页面,输入查询表达式4,点击“在结果中查询”按钮。 |
|
跟上面查询表达式1——4的查询效果相同。查询表达式5是在检索框中输入一个复杂的查询表达式,一次实现上述检索意图。 |
--- 正文完 ---
联系人:詹卫东(Email:zwd@pku.edu.cn)
标签:10,查询,html,Readme,页面,语料,句子,表达式,CCLCorpus From: https://www.cnblogs.com/hhdom/p/18148248