实验环境:
    1、操作系统:win7 64bit
    2、数据集:专利数据,共有约331万条数据,时间跨度为:1985年4月1日-2012年3月8日
    3、数据库:局域网中另一台电脑中的mysql
实验方法:
    1、首先对patent数据集运用coreseek建立索引,对f13名字字段分别支持简拼索引和不支持拼音索引。
    2、测试并比较索引时间(查出命中的1000条数据)、索引大小以及查询效率。
    3、查询关键字:测量(celiang,cl)、操作(caozuo,cz)、外壳(waike,wk)、解释(jieshi,js)、装置(zhuangzhi,zz)
实验结果:
 1、支持多音字简拼
 索引时间:1297.65秒  索引大小:3.71G  查询效率:0.048443466468(秒)
 2、不支持多音字简拼和全拼
 索引时间:88.433秒  索引大小:135M  查询效率:0.041330337(秒)
实验结果分析:
    1、拼音的索引时间和空间远远大于非拼音的索引时间和空间,原因如下:
 (1)对需要拼音索引的字段都要进行汉字到拼音的转换
 (2)拼音索引字段不仅要索引原数据字段,还要索引转换成拼音后的字段
 (3)拼音索引需要指定字段为前缀索引,而前缀索引既费时又费空间
 2、引入拼音检索并不会较大影响查询效率
 3、拼音检索会导致索引爆炸式增长,原因是拼音是前缀索引。
 4、索引过大会导致searchd服务不可用。有以下原因:
 (1)32位编译的内存不能超过4G
 (2)操作系统可能会限制程序一次申请内存的大小
 (3)而searchd服务需要把所有索引一次性读入内存
 5、拼音索引不适合用于非常大的数据集。(这与前缀索引及索引大小限制有关)

coreseek拼音检索第三版性能测试相关推荐

  1. 拼音检索VS五笔检索---Javascript实现

    前段时间在研究用js 实现拼音首字母以及五笔首字符的检索,呵呵,终于实现了.找了好多资料.方法也是多样的.就是检索的内容多了.循环的次数多,导致检索有点慢,也有可能我写的js也不是特别的精炼,但是不管 ...

  2. C++ Primer 第三版 读书笔记

    1.如果一个变量是在全局定义的,系统会保证给它提供初始化值0.如果变量是局部定义的,或是通过new表达式动态分配的,则系统不会向它提供初始值0 2.一般定义指针最好写成:" string * ...

  3. 黑客秘笈-渗透测试实用指南 第三版

    黑客秘笈-渗透测试实用指南 第三版 目录 前言 提示和免责声明 介绍 渗透测试团队与红队 总结 第1章 赛前准备--安装 假定攻破练习 设定你的行动 设置你的外部服务器 红队的核心工具 Metaspl ...

  4. linux php mysql 中文_Linux下PHP+MySQL+CoreSeek中文检索引擎配置 | 系统运维

    说明: 操作系统:CentOS 5.X 服务器IP地址:192.168.21.127 Web环境:Nginx+PHP+MySQL 站点根目录:/usr/local/nginx/html 目的:安装co ...

  5. 支持拼音检索的TextBox扩展控件-使用

    我的上一个支持拼音检索的TextBox扩展控件,由于有些网友留言和发邮件问如何用, 如:菜鸟AAA等当时想到肯定大家都会用,就没上传示例程序. 原文为:http://www.cnblogs.com/w ...

  6. 豆瓣8.9,《数学之美》第三版,让你10分钟爱上数学

    文末赠书 14年前,"数学之美"系列文章首载于谷歌黑板报,即获得上百万次点击,凡阅文者,皆叹相见恨晚,大学时痛恨万分的马尔可夫链.矩阵计算,甚至余弦函数等原来如此亲切,自然语言和信 ...

  7. 如何在大型系统中提供拼音检索服务

    最近有这么一个需求,客户要求在选择一些业务数据时,能提供类似谷歌的拼音检索功能,由于目前系统中的业务数据都是存储在数据,而且 数据量都比较大,目前主要考虑两种实现方式:   第一种通过构建一个包含有所 ...

  8. 要点初见:OpenCL 2.0 异构计算 [第三版] 知识点整理

    Word 版Github项目地址: https://github.com/BingLiHanShuang/Chinese-Knowledge-Collation-of-Heterogeneous-Co ...

  9. mysql coreseek_Linux下PHP+MySQL+CoreSeek中文检索引擎配置

    说明: 操作系统:CentOS 5.X 服务器IP地址:192.168.21.127 Web环境:Nginx+PHP+MySQL 站点根目录:/usr/local/nginx/html 目的:安装co ...

  10. 手机S60第三版教程集合

    QUOTE: 一楼为S60第三版通用教程,所有使用S60第三版机型的新手必读 二楼为3250专属教程,特别搜集了3250的使用技巧 三楼为N73的专属教程 5700的用户可以到5700专区 QUOTE ...

最新文章

  1. python2好还是python3好-新手入门选择Python2还是Python3
  2. Redis事务(transaction)
  3. altium如何制作mark点_如何选择一家优质的网站制作公司,看这2点
  4. oracle 不存在函数,Oracle – 此范围内不存在名称为X的函数
  5. 移动端touch与click
  6. struct sk_buff与struct socket及struct sock 结构体分析
  7. Android数据存储之SQLite数据库存储
  8. 在AJAX中可以使用的Response.Redirect 的冲突解决办法
  9. 大数据理论与实践9 分布式数据仓库Inceptor
  10. 手机chrome扫描二维码_90%的用户都不知道这项Chrome隐藏功能如何开启,超级实用!...
  11. 学习spss的心得体会
  12. 汽修汽配进销存 好用的汽修汽配行业管理软件 汽修汽配老板最常用的进销存软件
  13. 如何提高工作杠杆率?卖得更贵与卖出更多次
  14. mysql slave_pending_jobs_size_max_3分钟解决MySQL 1864 主从错误
  15. RHEL6 安装gstreamer 实现 rhythmbox 听mp3歌曲
  16. ORAN专题系列-19:5G O-RAN FrontHaul前传接口M Plane互操作性测试IOT规范
  17. 使用POI 导出word模板文件
  18. CSS实现两端对齐(及原理)
  19. 中职计算机教学方法,浅谈中职计算机学科的教学方法:英语课教学方法有哪些...
  20. 2021年11月中国商品出口总额排行榜:中国贸易顺差717.1亿美元,7个出口最终目的国(地)出口额超过百亿美元(附月榜TOP100详单)

热门文章

  1. java分布式事务框架_Java分布式事务,及解决方案
  2. 华为性格测试 我就这麽水过的 好水
  3. CSS 零基础到实战(05)布局、盒子模型、弹性盒子【前端就业课 第二阶段】
  4. visio流程图怎么合并线_6步轻松做Visio跨职能流程图
  5. linux复制文件命令
  6. Mac更换JDK版本
  7. Warning: phpinfo() has been disabled for secur...
  8. Python常用模块 之 base64模块
  9. paddlepaddle手写字体识别
  10. PCB寄生电容和寄生电感的计算