首页 > 其他分享 >空间索引Spatial Indexing

空间索引Spatial Indexing

时间:2024-10-23 10:20:42浏览次数:6  
标签:index tree Indexing curve 索引 算法 Spatial 维度 MBR

空间索引Spatial Indexing

空间索引Spatial Indexing

李喆 李喆 叫我桔子吧 PhD (Database)   148 人赞同了该文章

大家第一次接触到index应该是在上数据库这门课的时候。之所以数据库需要index,主要是因为数据量和应用层面的操作这两个原因,缺一不可。回忆下数据库最基本的操作:增删改查以及稍复杂些的比如连接操作,基本都需要先锁定数据位置,再执行操作。而定位这个步骤,如果没有index,基本都是O(n)的时间复杂度,这是一个非常“耗时”的操作。虽然从复杂度角度并不能算高,但是数据库访问是非常基础非常频繁的操作,性能直接影响到终端用户。所以非常微小的提升都是非常必要的。(如果是对于数据挖掘的算法,这类算法的用户通常是研究人员,那算法的速度快慢则显得非常次要,而accuracy则更为重要)。上面说,数据量大是使用index的一个原因,那为什么现在大量的机器学习算法,那些需要海量数据的算法不需要index呢?因为这些数据都是用来training或testing,而在这些步骤中,不需要预先定位数据位置。除了个别算法,比如KNN算法的prediction步骤,需要找到K个最近邻来判断给定item的label属性。“找”这个操作就需要定位。注意这里的定位不再是指在存储器上的位置,而是在空间中的位置,这里的空间,是由数据的维度张成的空间。空间数据,也即是这些拥有多维度的数据。这是空间数据的一个比较延展性的说法。但通常,空间数据都focus on 几何类型数据,比如点,线,面,球等,当然这些点、线都是可以任意维度的。对于空间数据的搜索,我们需要空间索引spatial index来提升搜素效率(速度)。目前主流数据库(SQL server, MySQL, PostgreSQL,etc)都已加入了对spatial data的支持,这其中最主要的就是数据类型和索引的支持。

 

R-tree

空间索引系列算法中最最最重要的就是R-tree了。R-tree由Guttman大神在1984年SIGMOD上提出。有时间的话我还是建议大家去感受下原文:

Guttman A. R-trees: A dynamic index structure for spatial searching[M]. ACM, 1984.

R-tree主要吸纳了B+tree的思想,对数据进行分割。已达到对数级访问时间。Guttman首先提出了MBR的概念,即Minimum Bounding Box。MBR的含义是用一个最小的矩形(通常默认矩形的边平行于坐标轴),来框住这个几何体

俩MBR

这样我们需要找到这个几何体中的一部分是,我们只需要先找到这个MBR即可。而找MBR这件事,则容易了很多。接下来,我们只需要用一个更大的MBR框住内层的小MBR,通过先找外层的MBR,我们可以很快找到内层MBR的大概位置。这个一层一层构建MBR的操作,非常类似B+tree的层。最后,我们就建立了一个空间上的分割。下图是一个二维R-tree的栗子。

2-dimension R-tree example

后续的研究比如R*-tree等对R-tree的提升主要是针对MBR的分割算法方面的。

 

kd-tree

kd-tree

kd-tree的原理比R-tree要直接不少,对于k-dimension的数据,kd-tree的每一层,依次选一个维度把空间二分。对。。就这么简单。。。

 

Grid index

grid index即将要考虑的空间铺好网格,以便快速锁定区间。grid index尤其适合做最近邻搜索。毕竟只要考虑query所在grid的附近8个(2维时)grid就可以了。

 

oct-tree

八叉树是将3维空间的分成8份,依次再将每个子空间分成8份的操作,直到不需要再分为止。如果只在二维分的话,则每次分成四份,叫Quadtree。

 

The curse of dimensionality

虽然上述空间索引都很有效,但是当维度急剧提升时,空间索引的效率也会急剧下降。以R-tree为例,如果我们固定每个MBR最大容量为100,整个空间中有1M(million)个点,每个点的每个维度的范围是[0,1]。我们需要:1M/100 = 10000 个MBR。假设数据是均匀分布的。那么,设MBR边长为x,维度为n,则 

标签:index,tree,Indexing,curve,索引,算法,Spatial,维度,MBR
From: https://www.cnblogs.com/sexintercourse/p/18495368

相关文章

  • Elasticsearch中的倒排索引是什么?它如何工作?
    Elasticsearch是一个基于Lucene的分布式搜索和分析引擎,它能够快速地存储、搜索和分析大量数据。倒排索引(InvertedIndex)是Elasticsearch和其他全文搜索引擎用来实现高效搜索的核心数据结构。倒排索引的概念在传统的数据库或文件系统中,我们通常使用正向索引来查找信息......
  • 【Elasticsearch】分布式搜索引擎技术学习[上]
    目录一.认识与了解搜索引擎1.介绍2.安装二.初步了解Elasticsearch1.倒排索引2.IK分词器3.基础概念三.Elasticsearch基础操作1.索引库操作1.1.常见映射属性1.2.索引库的·CRUD操作2.文档操作1.1.文档的CRUD操作1.2.批量处理四.ES的Java客户端1.客户端的......
  • Explain详解与索引优化最佳实践
    Mysql安装文档参考:http://note.youdao.com/noteshare?id=12bab3ad6bde2dc0db4158df1b23b7cd&sub=69BD07746CCF4F7DA94CCFB1C4E399E8Explain工具介绍使用EXPLAIN关键字可以模拟优化器执行SQL语句,分析你的查询语句或是结构的性能瓶颈 在select语句之前增加explain关键字......
  • 简单了解Oracle数据库中如何创建索引
    首发微信公众号:SQL数据库运维原文链接:https://mp.weixin.qq.com/s?__biz=MzI1NTQyNzg3MQ==&mid=2247486530&idx=1&sn=e5132af812a8fda7d86e1f17ecaf3a17&chksm=ea375832dd40d124027c20849d71e1c55efdd89e9ddf6e93cf310926097ea6fe14424f5187c8&token=2092690319&la......
  • oracle spatial
    oraclespatial播报编辑讨论上传视频用来存储、管理、查询空间数据的功能函数本词条缺少概述图,补充相关内容使词条更完整,还能快速升级,赶紧来编辑吧!OracleSpatial是一个用来存储、管理、查询空间数据的功能函数。提供了一套SQL方案和函数,用来存储、检索、更新和查询......
  • Mongodb(4)索引,查看执行计划,聚合操作aggregate,表关联查询,批量插入测试数据,执行计
    创建索引,支持:单键索引、复合索引,唯一索引创建索引后台执行db.books.createIndex({open:1,close:1},{background:true})对内嵌文档字段创建索引:db.books.createIndex({"author.name":1})创建唯一索引db.books.createIndex({title:1},{unique:true})在包含嵌套对象的......
  • 大数据-180 Elasticsearch - 原理剖析 索引写入与近实时搜索
    点一下关注吧!!!非常感谢!!持续更新!!!目前已经更新到了:Hadoop(已更完)HDFS(已更完)MapReduce(已更完)Hive(已更完)Flume(已更完)Sqoop(已更完)Zookeeper(已更完)HBase(已更完)Redis(已更完)Kafka(已更完)Spark(已更完)Flink(已更完)ClickHouse(已更完)Kudu(已更完)Druid(已更完)Kylin(已更完)Elasticsearch(正在更......
  • mysql索引
       2.1索引概述2.1.1介绍索引(index)是帮助MySQL高效获取数据的数据结构(有序)。在数据之外,数据库系统还维护着满足特定查找算法的数据结构,这些数据结构以某种方式引用(指向)数据,这样就可以在这些数据结构上实现高级查找算法,这种数据结构就是索引。在无索引情况下,就需要......
  • 07索引
    索引索引失效的情况所查找的数据在索引中都有就叫覆盖索引所以当使用select*时非常容易出现回表查询,性能就会降低前缀取多少个,取决于需求,根据需求确定选择性选择性不重复的个数/总数使用前缀索引可以降低索引体积,提高索引效率......
  • 从 GPU 到 SambaNova,spatial computing 的数据流解决方案
    很早前看到知乎的这篇回答[1],技术栈太浅薄不能理解spatialcomputing的核心问题,而今年groq、tensotorrent、SambaNova各种新鲜技术范式出现层出不穷,把我的胃口吊得高高的,遂调研spatialcomputing。DataflowAccelerator(i.e.Graph-basedAccelerator)扯到spatialcomput......