目录
一、Elasticsearch之倒排索引
1. 倒排索引是什么
- 倒排索引源于实际应用中需要根据属性的值来查找记录,这种索引表中的每一个项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而成为倒排索引。带有倒排索引的文件我们称之为倒排索引文件,简称倒排文件
2. 举例
例如有如下三个文件:
文件A:通过Python django搭建网站
文件B:通过Python scrapy爬取网站数据
文件C:scrapy-redis分布式爬虫
现在我们要查询,带有Python的文件,正常是对每个文件进行遍历,每个文件遍历一次,如果文件特别大,每个文件有一亿个字符,总共有一亿个文件,每个我们都要遍历,非常消耗资源
在存储文件之前,先对文件进行分析,将文件分词,对分词建立索引,例如下面一句话:
1 今天是星期天我们出去玩
2 明天是星期天,放假
3 今天天气很晴朗
4 xxx
5 他们出去玩了
- 我们大致整理一下,如下表:
关键词 | 文章 |
---|---|
今天 | 文章1,文章3 |
星期天 | 文章1,文章2 |
出去玩 | 文章5,文章1 |
- 实际上es在做存储的时候,更详细,如下表
- 记录了今天出现在哪个文章,出现的位置和出现的次数
关键词 | 文章 |
---|---|
今天 | (文章1,<2,10>,2) (文章3,<8>,1) |
星期天 | (文章2,<12,25,100>,3) |
出去玩 | (文章5,<11,24,89>,3)(文章1,<8,19>,2) |
3. 倒排索引待解决的问题
1 大小写转换问题,如python和Python应该为同一个词
2 词干抽取,looking和look应该处理为同一个词
3 分词,如 屏蔽系统 是屏蔽 和系统两个词还是 为屏蔽系统一个词
4 倒排索引文件过大,需要压缩编码
二、Elasticsearch之索引操作
- 下面只介绍了一些常用的索引操作,更详细的操作请查看
2.1 创建索引
# 新建一个test2的索引,索引分片数量为5,索引副本数量为1
PUT test2
{
"settings": {
"index":{
"number_of_shards":5,
"number_of_replicas":1
}
}
}
'''
number_of_shards
每个索引的主分片数,默认值是 5 。这个配置在索引创建后不能修改。
number_of_replicas
每个主分片的副本数,默认值是 1 。对于活动的索引库,这个配置可以随时修改。
'''
2.2 查询索引配置
#获取test2索引的配置信息
GET test2/_settings
#获取所有索引的配置信息
GET _all/_settings
#同上
GET _settings
#获取test1和test2索引的配置信息
GET test1,test2/_settings
2.3 更新索引
- 索引创建后无法修改分片数,但可以修改副本数
# 修改test1索引副本数量为2
PUT test1/_settings
{
"number_of_replicas": 2
}
#如遇到报错:cluster_block_exception,因为
#这是由于ES新节点的数据目录data存储空间不足,导致从master主节点接收同步数据的时候失败,此时ES集群为了保护数据,会自动把索引分片index置为只读read-only
PUT _all/_settings
{
"index": {
"blocks": {
"read_only_allow_delete": false
}
}
}
2.4 删除索引
#删除test1索引
DELETE test1
标签:test1,文件,倒排,settings,索引,Elasticsearch,文章
From: https://www.cnblogs.com/Mcoming/p/18123611