ES 6中分词器:
Standard 分词器:适用于自然语言文本,能够识别单词、数字、电子邮件地址和 URL。
特点:
识别单词:能够识别常见的单词边界。
处理标点符号:会忽略大多数标点符号,但保留电子邮件地址和 URL。
处理数字:能够识别并保留数字。
处理特殊字符:能够处理一些特殊字符,如连字符和撇号。
Simple 分词器:简单地按非字母字符分割文本,并将所有字母转换为小写。
特点:
简单分割:只按非字母字符分割。小写转换:将所有字母转换为小写。
不处理数字:数字被视为非字母字符,会被分割掉。
WhiteSpace 分词器:仅按空格分割文本,保留所有字符。
特点:
按空格分割:只按空格分割文本。
保留所有字符:不忽略任何字符,包括标点符号和数字。
Keyword 分词器:将整个输入文本作为一个单一的词元处理,不分词。
特点:
不分词:将整个输入文本作为一个词元处理。
保留原样:不进行任何转换或修改。
ik_smart:将文本最大程度地切分成独立的词汇
ik_max_word:这种模式结合了理解歧义和未知词的算法,对文本进行词典分词的同时,也会智能识别词汇的边界,从而提高分词的准确性。