sphinx数据文件简析
Sphinx使用的文件包括 “sph”, “spa”, “spi”, “spd”, “spp”, “spm” ,还有锁文件(.spl)。其中sph是系统的配置文件。其它则为索引文件。
l Spi 文件:保存WordId及指向此WordId对应的文档信息在spd文件的指针。Spi文件在检索程序启动时完全加载入内存。Spi文件是分块的,块内排序,块之间也排序。分块的目的应该是为了快速检索到WordId,因为Spi中的WordId是变长压缩的,索引需要先在块级别做二分定位,再在快内解压缩查找。
文件结构,每块中结构,wordId实际存储的是差值
WordId |
SpdFilePointer |
DocNum |
HitNum |
2 Spd文件:
文件结构
DocID |
[DocInfo] |
HitFilePointer |
FieldNum |
HitNum |
3 Spp文件
文件结构
HitPos |
4 Spa文件:存储DocInfo的文件,检索程序启动时会把此文件加载如内存,sphinx可以指定DocInfo的存储方式,
① 存储到spd文件中(InLine)
②. 另外单独存储。指定此,就会生成spa文件
文件结构:
DocId |
DocInfo |
5 Spm文件:在DocInfo中,有一种特殊的属性,叫MVA,多值属性。Sphinx对此属性特殊处理,需要存储在spm文件中。检索程序启动时会把此文件加载如内存。此(MVA)属性在DocInfo对应位置存储其在此文件中的字节偏移量。
文件结构:
DocId |
Anum,A1,A2,…,An |
Bnum,B1,B2,…,Bn |
… |
由于在第一趟扫描过程中会出现WordID相同的不同Hits(不同文档或者不同位置不同字段),二趟前会根据WordID排序,WordID相同的Hits会连续出现并合并(合并到第一次出现的相同WordID中)
转载于:https://www.cnblogs.com/Jerry-blog/p/5044602.html
sphinx数据文件简析相关推荐
- php mysql 命令行模式_MySQL_MYSQL导入导出sql文件简析,一.MYSQL的命令行模式的设置- phpStudy...
MYSQL导入导出sql文件简析 一.MYSQL的命令行模式的设置 桌面->我的电脑->属性->环境变量->新建-> PATH=":path\mysql\bin ...
- PostgreSQL pg_hba.conf 文件简析
点击上方"蓝字" 关注我们,享更多干货! pg_hba.conf文件存放在数据库集群的数据目录里. HBA 的意思是 host-based authentication:基于主机的 ...
- 调试OMAPL138的GEL文件简析
合众达的GEL文件OMAPL138_ARM.gel用于在仿真器连接上OMAPL138时建立内存映射.初始化ARM时钟频率和DDR频率,激活DSP核. CCS连接上仿真器后会加载gel文件,运行gel文 ...
- (总结)Linux的/etc/services文件简析
PS:刚才一童鞋问我,Linux的/etc/services文件里面定义的端口是有什么作用的.简单说一下./etc/services文件是记录网络服务名和它们对应使用的端口号及协议.文件中的每一行对应 ...
- PostgreSQL远程数据库连接 PostgreSQL pg_hba.conf 文件简析
原文连接1:http://blog.csdn.net/zhouxuguang236/article/details/8217487 原文连接2:http://www.cnblogs.com/hilov ...
- HDMI 数据包简析
HDMI数据传输 HDMI 系统架构由信源端和接收端组成.某个设备可能有一个或多个HDMI 输入,一个或多个HDMI 输出.这些设备上,每个HDMI 输入都应该遵循HDMI 接收端规则,每个HDMI输 ...
- wireshark应用和数据包简析
前言:wireshark是一款强大抓包工具,使用它可以抓取不同的协议数据包,包括TCP.HTTP.UDP等,在使用wireshark之前要学习一下计算机网络的知识: (1)TCP/IP协议 应用层:应 ...
- IOT大数据大世界大未来,物联网产业大数据应用简析
在物联网时代,面对PB级的数据,企业将难以以一己之力完成基础设施的建设.物联网所产生的大量数据不仅会驱动现在的数据中心发生根本性的变化,同时也会驱动相关企业采用新的大数据策略. 物联网的价值在于数据: ...
- IOT大世界大未来,微构科技物联网产业大数据应用简析
在物联网时代,面对PB级的数据,企业将难以以一己之力完成基础设施的建设.物联网所产生的大量数据不仅会驱动现在的数据中心发生根本性的变化,同时也会驱动相关企业采用新的大数据策略. 物联网的价值在于数据: ...
最新文章
- ZZCustomAlertView - 一个高度自定义的iOS模态弹窗
- [译][Tkinter 教程10] Text 控件
- 有赞多级缓存解决方案怎么做的,你知道吗?
- 前端代码标准最佳实践:javascript篇
- 服务器站点解密出错,修改域超级管理员密码后站点复制出错。
- 在WebPart中上传图片到SharePoint图片库,读取Exif信息到图片的自定义属性
- 从零写一个编译器(四):语法分析之构造有限状态自动机
- 3-1机器学习中的分类与回归问题
- 计算机组成原理综合题,2013计算机组成原理复习题.doc
- .netcore 2.0 mysql_搭建连接MySql的三层架构的ASP.NetCore2.0的WebApi
- wordpress 3D 标签云显示中文需要的Flash文件
- C++Debug Assertion Failed!到底出错在哪里?
- android图片底部居中对齐,Android 解决图文混排,图片和文字居中对齐问题(ImageSpan)...
- discuz admin.php无法登录,Discuz x3.1论坛管理员无法登录后台的各种解决方法总结
- 小伙子自学C++编程简单DIY,即让你拥有一个屏幕画笔,非常实用!
- VS代码格式化快捷键
- linux 同步北京时间_Linux系统同步系统时间为北京时间
- opencv的imwrite设置图片压缩率
- vr旅游市场竞争分析,破局之路在何方?
- 2020/2/23如何高效使用Axure绘制原型图
热门文章
- 大家好!欢迎来到我的博客!
- javascript实例_网页空降与抖动
- SRE(Simple Rule Engine) Document
- ArcGIS 9.2 Server Pack 5 蓄势待发
- vue项目工程中npm run dev 到底做了什么
- 响应式网页布局 - W3Schools How-Tos 01
- 做免费的EDM,EmailCar看中的是挖掘数据的价值
- 解决替换weblogic的commons-fileupload.jar后引发的问题
- [summary] 单调队列
- WPF的转换器中使用Brush应注意问题