coreseek拼音检索第三版性能测试
实验环境:
1、操作系统:win7 64bit
2、数据集:专利数据,共有约331万条数据,时间跨度为:1985年4月1日-2012年3月8日
3、数据库:局域网中另一台电脑中的mysql
实验方法:
1、首先对patent数据集运用coreseek建立索引,对f13名字字段分别支持简拼索引和不支持拼音索引。
2、测试并比较索引时间(查出命中的1000条数据)、索引大小以及查询效率。
3、查询关键字:测量(celiang,cl)、操作(caozuo,cz)、外壳(waike,wk)、解释(jieshi,js)、装置(zhuangzhi,zz)
实验结果:
1、支持多音字简拼
索引时间:1297.65秒 索引大小:3.71G 查询效率:0.048443466468(秒)
2、不支持多音字简拼和全拼
索引时间:88.433秒 索引大小:135M 查询效率:0.041330337(秒)
实验结果分析:
1、拼音的索引时间和空间远远大于非拼音的索引时间和空间,原因如下:
(1)对需要拼音索引的字段都要进行汉字到拼音的转换
(2)拼音索引字段不仅要索引原数据字段,还要索引转换成拼音后的字段
(3)拼音索引需要指定字段为前缀索引,而前缀索引既费时又费空间
2、引入拼音检索并不会较大影响查询效率
3、拼音检索会导致索引爆炸式增长,原因是拼音是前缀索引。
4、索引过大会导致searchd服务不可用。有以下原因:
(1)32位编译的内存不能超过4G
(2)操作系统可能会限制程序一次申请内存的大小
(3)而searchd服务需要把所有索引一次性读入内存
5、拼音索引不适合用于非常大的数据集。(这与前缀索引及索引大小限制有关)
coreseek拼音检索第三版性能测试相关推荐
- 拼音检索VS五笔检索---Javascript实现
前段时间在研究用js 实现拼音首字母以及五笔首字符的检索,呵呵,终于实现了.找了好多资料.方法也是多样的.就是检索的内容多了.循环的次数多,导致检索有点慢,也有可能我写的js也不是特别的精炼,但是不管 ...
- C++ Primer 第三版 读书笔记
1.如果一个变量是在全局定义的,系统会保证给它提供初始化值0.如果变量是局部定义的,或是通过new表达式动态分配的,则系统不会向它提供初始值0 2.一般定义指针最好写成:" string * ...
- 黑客秘笈-渗透测试实用指南 第三版
黑客秘笈-渗透测试实用指南 第三版 目录 前言 提示和免责声明 介绍 渗透测试团队与红队 总结 第1章 赛前准备--安装 假定攻破练习 设定你的行动 设置你的外部服务器 红队的核心工具 Metaspl ...
- linux php mysql 中文_Linux下PHP+MySQL+CoreSeek中文检索引擎配置 | 系统运维
说明: 操作系统:CentOS 5.X 服务器IP地址:192.168.21.127 Web环境:Nginx+PHP+MySQL 站点根目录:/usr/local/nginx/html 目的:安装co ...
- 支持拼音检索的TextBox扩展控件-使用
我的上一个支持拼音检索的TextBox扩展控件,由于有些网友留言和发邮件问如何用, 如:菜鸟AAA等当时想到肯定大家都会用,就没上传示例程序. 原文为:http://www.cnblogs.com/w ...
- 豆瓣8.9,《数学之美》第三版,让你10分钟爱上数学
文末赠书 14年前,"数学之美"系列文章首载于谷歌黑板报,即获得上百万次点击,凡阅文者,皆叹相见恨晚,大学时痛恨万分的马尔可夫链.矩阵计算,甚至余弦函数等原来如此亲切,自然语言和信 ...
- 如何在大型系统中提供拼音检索服务
最近有这么一个需求,客户要求在选择一些业务数据时,能提供类似谷歌的拼音检索功能,由于目前系统中的业务数据都是存储在数据,而且 数据量都比较大,目前主要考虑两种实现方式: 第一种通过构建一个包含有所 ...
- 要点初见:OpenCL 2.0 异构计算 [第三版] 知识点整理
Word 版Github项目地址: https://github.com/BingLiHanShuang/Chinese-Knowledge-Collation-of-Heterogeneous-Co ...
- mysql coreseek_Linux下PHP+MySQL+CoreSeek中文检索引擎配置
说明: 操作系统:CentOS 5.X 服务器IP地址:192.168.21.127 Web环境:Nginx+PHP+MySQL 站点根目录:/usr/local/nginx/html 目的:安装co ...
- 手机S60第三版教程集合
QUOTE: 一楼为S60第三版通用教程,所有使用S60第三版机型的新手必读 二楼为3250专属教程,特别搜集了3250的使用技巧 三楼为N73的专属教程 5700的用户可以到5700专区 QUOTE ...
最新文章
- python2好还是python3好-新手入门选择Python2还是Python3
- Redis事务(transaction)
- altium如何制作mark点_如何选择一家优质的网站制作公司,看这2点
- oracle 不存在函数,Oracle – 此范围内不存在名称为X的函数
- 移动端touch与click
- struct sk_buff与struct socket及struct sock 结构体分析
- Android数据存储之SQLite数据库存储
- 在AJAX中可以使用的Response.Redirect 的冲突解决办法
- 大数据理论与实践9 分布式数据仓库Inceptor
- 手机chrome扫描二维码_90%的用户都不知道这项Chrome隐藏功能如何开启,超级实用!...
- 学习spss的心得体会
- 汽修汽配进销存 好用的汽修汽配行业管理软件 汽修汽配老板最常用的进销存软件
- 如何提高工作杠杆率?卖得更贵与卖出更多次
- mysql slave_pending_jobs_size_max_3分钟解决MySQL 1864 主从错误
- RHEL6 安装gstreamer 实现 rhythmbox 听mp3歌曲
- ORAN专题系列-19:5G O-RAN FrontHaul前传接口M Plane互操作性测试IOT规范
- 使用POI 导出word模板文件
- CSS实现两端对齐(及原理)
- 中职计算机教学方法,浅谈中职计算机学科的教学方法:英语课教学方法有哪些...
- 2021年11月中国商品出口总额排行榜:中国贸易顺差717.1亿美元,7个出口最终目的国(地)出口额超过百亿美元(附月榜TOP100详单)