大数据的特点有四个层面:第一,数据体量巨大。从TB级别,跃升到PB级别;第二,数据类型繁多。网络日志、视频、图片、地理位置信息等等。第三,价值密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。第四,处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”——Volume,Variety,Value,Velocity。大数据搜索引擎的主要挑战在于:海量处理规模、多字段多类型数据融合、高效的索引压缩技术及毫秒级的索引更新技术。

JZSearch大数据搜索引擎是灵玖软件联合中科院与北理工的信息检索专家,针对大数据搜索业务需求而打造的一套搜索引擎,具有专业精准、高扩展性和高通用性的特点。可支持文本、数字、日期、字符串等各种数据类型的高效索引,支持邻近搜索、负面搜索、语义关联搜索,可提供各类数据库的实时搜索服务,并支持少数民族语言。目前已经应用于中国邮政搜索引擎、河北省标准搜索引擎、富基融通(纳斯达克上市公司:EFUT)商品搜索以及新疆维文搜索引擎。

主要功能:

搜索基本功能包括:

1多字段关联搜索:非结构化与结构化字段的关联搜索,支持指定字段的搜索,也可以搜索多个字段,以及复杂表达式的综合搜索;

2 指定字段排序:可以按照任意指定字段的排序;

3 精确搜索:支持精确匹配以及模糊匹配,默认为模糊匹配,忽略字母大小写,采用双引号进行精确匹配;

搜索特色功能包括:

1 内嵌正负面情感等极性分析,可以搜索任意对象的正负面结果;

2 语义联想搜索:如搜索“马铃薯”可以同时返回“土豆”的内容,搜索“北京市”可以返回“北京”或者“首都”的内容;语义联系词表用户可以自行根据专业知识定制;

3 搜索结果去重:按照指定字段对搜索结果进行去重;

4 邻近搜索功能:可以要求两个关键词必须在一定的词场范围内。

5 内嵌了智能分词系统。

6 数据库实时同步:数据库增删改10秒内即可同步到搜索引擎中

搜索维护功能包括:

1 支持增量索引:系统可以在搜索服务不停的前提下,继续索引新的数据,索引完成后,可以搜索新的数据;

2 自动备份与恢复机制,在建立索引和自动优化之前,在当前索引文件被破坏无法搜索的前提下,系统将自动恢复上次搜索正常的备份文件;

3 自动缓存机制:系统自动保存最近常用的搜索条件与结果,再次搜索时将直接推送搜索结果内容,可以将搜索响应速度提升30%以上;缓存会随着新的索引数据自动更新,不存在缓存延迟问题;

4 自动优化机制:在系统索引碎片较多时,系统会自动优化归并;

5 屏蔽指定文档、指定关键词的搜索服务,也可以恢复屏蔽信息;

6 实现的是多线程搜索服务;

7 兼容当前所有厂商的数据库系统,其中SQL Server, Oracle, MySQL,DB2等。系统支持多表关联搜索;支持Windows/Linux/FreeBSD等操作系统,支持C/C++/C#/Java二次开发。

python大数据搜索_【大数据搜索】JZSearch大数据搜索引擎相关推荐

  1. 数据科学家数据分析师_站出来! 分析人员,数据科学家和其他所有人的领导和沟通技巧...

    数据科学家数据分析师 这一切如何发生? (How did this All Happen?) As I reflect on my life over the past few years, even ...

  2. python大数据平台_基于腾讯位置大数据平台的全球移动定位数据Python爬取与清洗...

    前不久投稿了一篇论文是以腾讯位置大数据为基础进行人口空间化研究的,但是还未见刊,见刊后会给大家分享下具体的研究方法. 首先打开腾讯位置大数据星云图链接:https://xingyun.map.qq.c ...

  3. python图形绘制星空图_如何将枯燥的大数据呈现为可视化的图和动画?

    在回答之前,先简单的介绍我自己,我是澎湃新闻美数课(数据新闻)栏目的课代表,擅长做数据可视化视频和信息图. 喂喂喂!憋看到我这个身份,就跑啊,下面有一吨实用干货等你~~~ 前段时间做了一个关于诺贝尔人 ...

  4. jquery数据折叠_通过位折叠缩小大数据

    jquery数据折叠 Sometimes your dataset is just too large, and you need a way to shrink it down to a reaso ...

  5. echarts 大屏可视化_看似复杂炫酷的数据可视化设计,用这波神器轻松搞定!

    数据大屏与数据可视化 数据可视化是目前对数据展示最常用的方式.数据的可视化设计有助于将复杂的数据,用最易理解的方式展示在用户的面前. 数据可视化在中后台的设计中很常见,通常主要用于分析和决策,对实时性 ...

  6. 内存 增量数据持久_内存中数据模型和大数据持久性

    内存 增量数据持久 ORM框架在需要与关系数据库进行交互时可以帮助开发人员. 对于关系数据库,有许多出色的ORM框架,例如Hibernate和Apache OpenJPA,其中一些确实很棒. 如今,大 ...

  7. informatica数据脱敏_助您首个大数据项目破茧成蝶的实践指南

    自从本世纪初软件应用开始在整个业务流程中盛行以来,一个不争的事实就是:数据改变了我们的工作方式.越来越多的企业认识到必须在大数据方面有所作为,但他们却并未切实规划出如何开展这项工作.而调查发现,切实展 ...

  8. 大数据相加_推动媒体融合与大数据相加发展

    深圳特区报讯 7月7日至8日,备受瞩目的第十二届中国传媒年会在贵州贵安新区东盟国际会议中心举行.本次年会以"媒体深度融合与大数据"为主题,近300名与会嘉宾深入思考研讨媒体融合与大 ...

  9. 大数据算法_【中科大】大数据算法(2020年春季)

    算法与理论是计算机科学的核心领域之一.随着大数据时代的来临,传统的算法理论已经不能很好地解决人工智能. 物联网.工业制造等领域所遇到的实际问题.本门课程主要介绍基于大数据的新型算法技术,如随机采样.数 ...

  10. 机器学习 大数据 数据挖掘_什么是机器学习? 来自数据的情报

    机器学习 大数据 数据挖掘 机器学习的定义 机器学习是人工智能的一个分支,其中包括用于自动根据数据创建模型的方法或算法. 与通过遵循明确的规则执行任务的系统不同,机器学习系统从经验中学习. 基于规则的 ...

最新文章

  1. AlexeyAB DarkNet YOLOv3框架解析与应用实践(五)
  2. Enterprise Library Step By Step系列(十二):异常处理应用程序块——进阶篇
  3. Cell Research封面 | 刘志华组揭示肠道菌群可促进胰岛素的分泌
  4. 永磁同步电机试验系统的设计
  5. 11-Reliability, Availability, and Serviceability (RAS) Extensions
  6. 【机器学习】小孩都看得懂的 GAN
  7. 字典-字典的统计、合并、清空操作
  8. 慢连接攻击的原理和防范
  9. 基于邮件推拉技术的数据库远程数据同步解决方案
  10. Excel:VBA编程入门(一)
  11. IPV6IPV4网址
  12. Python爬虫学习-简单爬取网页数据
  13. flutter 真机无法调试 sdk报错_中小团队的Flutter实践经验总结
  14. 计划驱动的软件过程:waterfall model(瀑布模型,或称之为SDLC模型)
  15. WordPress重要文件wp-seting.php文件详解
  16. Linux 内存管理篇(1)内存寻址
  17. 【Scratch3.0案例教学】手把手教小朋友Scratch3.0制作消灭新冠病毒游戏 scratch案例教学
  18. PDM数据表结构字段导出到excel
  19. oracle的clob类型对应java,java对oracle9i中CLOB类型的操作
  20. 分布式消息队列RocketMQ工作原理与应用(一)

热门文章

  1. 今年嵌入式行业研究生应届生毕业大概薪资多少,大数据告诉你
  2. 工程院院士:微软黑屏敲响我国信息安全警钟
  3. informix报错244_AIX安装informix数据库
  4. SVM原理篇之手撕SVM
  5. 初探OroCRM和捆绑扩展
  6. 老子云3D数字人为银行带来全新金融服务体验,全面促进资产增值!
  7. 计算机画图保存的图片文件在哪,电脑画图工具在哪里 展开后即可看见画图工具点击...
  8. 易信简单开启邮件提醒
  9. 利用Matlab进行图像的编码与压缩(仿照jpeg)
  10. Java 批量判断参数是否为空 判断集合