大家第一次接触到index应该是在上数据库这门课的时候。之所以数据库需要index,主要是因为数据量和应用层面的操作这两个原因,缺一不可。回忆下数据库最基本的操作:增删改查以及稍复杂些的比如连接操作,基本都需要先锁定数据位置,再执行操作。而定位这个步骤,如果没有index,基本都是O(n)的时间复杂度,这是一个非常“耗时”的操作。虽然从复杂度角度并不能算高,但是数据库访问是非常基础非常频繁的操作,性能直接影响到终端用户。所以非常微小的提升都是非常必要的。(如果是对于数据挖掘的算法,这类算法的用户通常是研究人员,那算法的速度快慢则显得非常次要,而accuracy则更为重要)。上面说,数据量大是使用index的一个原因,那为什么现在大量的机器学习算法,那些需要海量数据的算法不需要index呢?因为这些数据都是用来training或testing,而在这些步骤中,不需要预先定位数据位置。除了个别算法,比如KNN算法的prediction步骤,需要找到K个最近邻来判断给定item的label属性。“找”这个操作就需要定位。注意这里的定位不再是指在存储器上的位置,而是在空间中的位置,这里的空间,是由数据的维度张成的空间。空间数据,也即是这些拥有多维度的数据。这是空间数据的一个比较延展性的说法。但通常,空间数据都focus on 几何类型数据,比如点,线,面,球等,当然这些点、线都是可以任意维度的。对于空间数据的搜索,我们需要空间索引spatial index来提升搜素效率(速度)。目前主流数据库(SQL server, MySQL, PostgreSQL,etc)都已加入了对spatial data的支持,这其中最主要的就是数据类型和索引的支持。

R-tree

空间索引系列算法中最最最重要的就是R-tree了。R-tree由Guttman大神在1984年SIGMOD上提出。有时间的话我还是建议大家去感受下原文:Guttman A. R-trees: A dynamic index structure for spatial searching[M]. ACM, 1984.

R-tree主要吸纳了B+tree的思想,对数据进行分割。已达到对数级访问时间。Guttman首先提出了MBR的概念,即Minimum Bounding Box。MBR的含义是用一个最小的矩形(通常默认矩形的边平行于坐标轴),来框住这个几何体。俩MBR

这样我们需要找到这个几何体中的一部分是,我们只需要先找到这个MBR即可。而找MBR这件事,则容易了很多。接下来,我们只需要用一个更大的MBR框住内层的小MBR,通过先找外层的MBR,我们可以很快找到内层MBR的大概位置。这个一层一层构建MBR的操作,非常类似B+tree的层。最后,我们就建立了一个空间上的分割。下图是一个二维R-tree的栗子。2-dimension R-tree example

后续的研究比如R*-tree等对R-tree的提升主要是针对MBR的分割算法方面的。

kd-treekd-tree

kd-tree的原理比R-tree要直接不少,对于k-dimension的数据,kd-tree的每一层,依次选一个维度把空间二分。对。。就这么简单。。。

Grid index

grid index即将要考虑的空间铺好网格,以便快速锁定区间。grid index尤其适合做最近邻搜索。毕竟只要考虑query所在grid的附近8个(2维时)grid就可以了。

oct-tree

八叉树是将3维空间的分成8份,依次再将每个子空间分成8份的操作,直到不需要再分为止。如果只在二维分的话,则每次分成四份,叫Quadtree。

The curse of dimensionality

虽然上述空间索引都很有效,但是当维度急剧提升时,空间索引的效率也会急剧下降。以R-tree为例,如果我们固定每个MBR最大容量为100,整个空间中有1M(million)个点,每个点的每个维度的范围是[0,1]。我们需要:1M/100 = 10000 个MBR。假设数据是均匀分布的。那么,设MBR边长为x,维度为n,则

2D: 所有数据平铺在平面,每个MBR边长:0.01

3D:所有数据分散在3维空间,密度开始变得稀疏,每个MBR开始变大,边长:0.046

4D:边长:0.1

...

100D:边长:0.912

在该栗子下的MBR边长公式:nD:边长:

可以看到,随着维度的增大,MBR的边长会越来越大,MBR之间的overlap也会越来越高,这样,R-tree的效率就会变得很低。这也是为什么高维度话题一直保持着较热的研究兴趣。今年(2018)SIGMOD做高维度的也大有人在,比如这一篇:Wang, Yiqiu, et al. "Randomized Algorithms Accelerated over CPU-GPU for Ultra-High Dimensional Similarity Search."Proceedings of the 2018 International Conference on Management of Data. ACM, 2018.

Space filling curve

space filling curve 是给高维度数据降维度的一种方法,通过给空间填充曲线,可以给每个点assign这条曲线上的位置。这样就从高维度多个坐标变成了曲线上的单一位置坐标。事实上你可以当作是空间排序算法。衡量space filling curve的最重要标准是,高维度相近的数据,在低维度上是否还相近。

目前space filling curve中效果最好的是 Hilbert curve,用的比较多实现比较简单的是Z-curve。要注意的是不管哪种curve,都是基于positive integer类型数据的,如果你的数据类型是float,那么要先整体平移到第一区间(正数),提升magnitude(保留一定原来的小数部分)在做rounding(变成整数)的预处理。Hilbert Curve

高维度下的利器:LSH(Locality Sensitive Hashing)

LSH是一系列可以将数据从高维度映射到低维度,同时提供理论性保证,使得在高维度相近的数据在低维度也大概率相近的哈希家族。理论性保证的形式为:

意思是,如果两个点p和q在高维度相近,那么他们在经过LSH映射到低维度后,在同一个桶内(即仍然相似)的概率高于p1。若p和q在高维度不相邻,那么他俩被映射到同一个桶内的概率应小于p2。

比较典型的LSH家族有:

基于Hamming distance 的 bit wise hashing

基于Jaccard distance 的 minHash

基于Cosine distance 的 SimHash

同时,为了降低上述p2,可以经过多个hash取and操作(concatenation LSH),但这样又会降低p1,此时可增加hash table的数量取or,来提p1。详细的做法,建议大家wiki。(如果以后有时间我会补一下)

DSH(Data Sensitive Hashing)

LSH是针对空间的,那么有没有针对数据的呢。2014年从高大神(我老板的partner,现NTU副教授)在SIGMOD提出了基于数据敏感的哈希家族DSH,使得数据的分割更加均匀,尤其适合KNN类问题。类似LSH,也是有理论性保证的。详细的就不扩展了,原文如下:Gao J, Jagadish H V, Lu W, et al. DSH: data sensitive hashing for high-dimensional k-nnsearch[C]//Proceedings of the 2014 ACM SIGMOD international conference on Management of data. ACM, 2014: 1127-1138.

关于实现

做这一块不像是AI,到处都有写好的代码而且基本是是python,matlab这些几行搞定一个算法。。(默默的羡慕一波)。而我们这些,所有的实现都应当使用C++,因为以上的技术都是针对效率的,效率嘛,不用C++说不过去啊。而且别人的算法,一般都没有现成的代码,经常还需要自己小心实现出来。。。

安利一下相关的库:

Boost Geometry的各类spatial index (就是宏太多,有点烦),还好有mailing list,不懂可以发邮件问

CGAL的space filling curve和其他几何计算

CPLEX的integer linear programming

mysql spatial索引_空间索引Spatial Indexing相关推荐

  1. 什么是mysql的索引_什么是索引?mysql目前索引有哪些?

    1.索引由数据库中一列或多列组合而成,其作用是提高对表中数据的查询速度. 索引的优点是可以提高检索数据的速度 索引的缺点是创建和维护索引需要耗费时间. 索引可以提高查询速度,会减慢写入速度. 2.索引 ...

  2. mysql 唯一索引_面试官:谈谈你对mysql索引的认识?

    引言 大家好,我渣渣烟.我曾经写过一篇<面试官:讲讲mysql表设计要注意啥>,当时写完后,似乎效果还行! 于是呢,决定再来一个mysql的数据库专题,这篇我们就来谈谈关于索引方面的mys ...

  3. mysql 制定索引_使用use index优化sql查询

    先看一下arena_match_index的表结构,大家注意表的索引结构 CREATE TABLE `arena_match_index` ( `tid` int(10) unsigned NOT N ...

  4. mysql reverse 索引_降序索引和减轻索引扫描

    Descending indexing and loose index scan 降序索引和减轻索引扫描 Comments to my previous posts, especially this ...

  5. 数据库mysql建立索引_为mysql数据库建立索引

    前些时候,一位颇高级的程序员居然问我什么叫做索引,令我感到十分的惊奇,我想这绝不会是沧海一粟,因为有成千上万的开发者(可能大部分是使用MySQL的)都没有受过有关数据库的正规培训,尽管他们都为客户做过 ...

  6. 数据库mysql的索引_数据库索引

    数据库索引 编辑 锁定 索引是对数据库表中一列或多列的值进行排序的一种结构,使用索引可快速访问数据库表中的特定信息.如果想按特定职员的姓来查找他或她,则与在表中搜索所有的行相比,索引有助于更快地获取信 ...

  7. mysql memory 索引_理解MySQL——索引与优化

    索引对查询的速度有着至关重要的影响,理解索引也是进行数据库性能调优的起点.考虑如下情况,假设数据库中一个表有10^6条记录,DBMS的页面大小为4K,并存储100条记录.如果没有索引,查询将对整个表进 ...

  8. mysql维护索引_高性能的MySQL(5)索引策略-索引和表的维护

    维护表有三个主要的目的: 1.找到并修复损坏的表. 对于MyISAM存储引擎来说,表损坏通常是系统崩溃导致的.其他的引擎也会由于硬件的问题,MySQL本身的缺陷或者操作系统的问题导致索引的损坏. 损坏 ...

  9. mysql 字典索引_【大白话mysql】你真的了解 mysql 索引吗?

    本文来源于公众号: 跬步匠心 什么是索引? 当我们使用汉语字典查找某个字时,我们会先通过拼音目录查到那个字所在的页码,然后直接翻到字典的那一页,找到我们要查的字,通过拼音目录查找比我们拿起字典从头一页 ...

  10. 什么是mysql的索引_什么是MySQL索引?【详解】

    本篇文章主要给大家介绍什么是MySQL索引? MySQL索引的建立对于MySQL的高效运行是很重要的,索引可以大大提高MySQL的检索速度. 打个比方,如果合理的设计且使用索引的MySQL是一辆兰博基 ...

最新文章

  1. 正确使用 SharePoint 对象避免内存泄漏(续)
  2. conda(pip) bad interpreter的解决办法
  3. 剑指Offer - 面试题12. 矩阵中的路径(DFS回溯)
  4. python 数据库查询返回list或tuple
  5. jeecms v3.x标签教程之[@cms_comment_page]
  6. mysql中cost对比测试
  7. zabbix 添加 host item
  8. Reporting Service RDLC 数据换行解决方案
  9. MySQL可视化工具下载安装及连接
  10. w10系统服务器管理器,Win10如何打开服务管理器
  11. 初出茅庐的小李第23篇博客之WiFi模块建立TCP通信并获取B站粉丝数据
  12. 今日睡眠质量记录74
  13. 小米4c一直显示无服务器,小米路由器4C不能上网(连不上网)怎么办?
  14. c语言 eval,分享:自己写的eval函数
  15. [slove]Unable to find required classes (javax.activation.DataHandler and javax.m
  16. 精准营销的神器:小蜜蜂获客系统助你成功
  17. 去IOE是什么意思?
  18. Android系统ROM+RAM基础裁剪
  19. 嵌入式软件架构的六个步骤(二)软件基础设施
  20. 戴尔 Precision 5470 25 周年纪念款笔记本 评测

热门文章

  1. 计算机概念图图例,写出统计图的名称和制图什么并标出图例
  2. m180n 如何设置网络打印_「hp彩色打印机」惠普m180n打印机怎么设置彩色打印? - seo实验室...
  3. HTML5期末大作业:红酒销售网页网站设计——品牌红酒销售网页模板(4页) html网页设计期末大作业_网页设计平时作业
  4. 客户消费积分管理系统的设计与实现
  5. 立创开源丨无刷电机驱动FOC驱动板
  6. [課程筆記] 機器學習2021(李弘毅) L13. Transformer (下)
  7. Windows10去除桌面快捷方式小箭头
  8. python 多线程 代理 爬取 豆果美食app
  9. 小程序navigateTo失效
  10. java操作k8s api报错:SSLHandshakeException: should not be presented in certificate_request