Elasticsearch是一个基于 Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引孳,基于 RESTful web接口。
功能:
分布式的搜索引擎和数据分析引擎
全文检索(like),结构化检索(a=1),数据分析(count/group by)
对海量数据进行近实时的处理(秒级)
特点:
可拓展性:大型分布式集群(数百台服务器)技术
技术整合:将全文检索、数据分析、分布式相关技术整合在一起
部署简单:开箱即用,很多默认配置不需关心,解压完成直接运行即可,拓展时,只需多部署几个实例即可,负载均衡、分片迁移集群内部自己实施。
接口简单:使用restful api经行交互,跨语言
功能强大:如全文检索,同义词处理,相关度排名
核心概念:
NRT( Near Realtime):近实时
1)写入数据时,过1秒才会被搜索到,因为内部在分词、录入索引
2)es搜索时:搜索和分析数据需要秒级出结果。
Cluster:集群
包含一个或多个启动着es实例的机器群。通常一台机器起一个es实例。同一网络下,集名一样的多个es实例自动组成集群,自动均衡分片等行为。默认集群名为"elasticsearch"。
Node:节点
每个es实例称为一个节点。节点名自动分配,也可以手动配置。
Document:文档
es中的最小数据单元。一个document就像数据库中的一条记录。通常以json格式显示。多个document存储于一个索引(Index)中。
Index:索引
包含一堆有相似结构的文档数据。
索引创建规则:
仅限小写字母;
不能包含\、/、*、?、"、<、>、、#以及空格符等特殊符号;
从7.0版本开始不再包含冒号
不能以-、或+开头
不能超过255个字节(注意它是字节,因此多字节字符将计入255个限制)
Field:字段
就像数据库中的列(Columns),定义每个document应该有的字段
Type:类型
每个索引里都可以有一个或多个type,type是index中的一个逻辑数据分类,一个type下的document,都有相同的field。
注意:6.0之前的版本有type(类型)概念,type相当于关系数据库的表,ES官方将在ES9.0版本中彻底删除type。
shard:分片
减轻单node的压力、充分利用机器性能、方便集群拓展
index数据过大时,将index里面的数据,分为多个shard,分布式的存储在各个服务器上面。可以支持海量数据和高并发,提升性能和吞吐量,充分利用多台机器的cpu。
replica:副本
为了容错
优点:高可用、只查询时可提高吞吐量
在分布式环境下,任何一台机器都会随时岩机,如果宕机,index的一个分片没有导致此index不能搜索。所以,为了保证数据的安全,我们会将每个index的分片进行备份,存储在另外的机器上。保证少数机器宕机es集群仍可以搜索。能正常提供查询和插入的分片叫做主分片(primaryshard),其余的叫做备份的分片(replicashard)。
es6默认新建索引时,5分片,1副本,也就是一主一备,共10个分片。所以,es集群最小规模为两台。es7 1分片,1副本,一共2分片。
数据库核心概念 vs Elasticsearch核心概念