大数据产业创新服务媒体

——聚焦数据 · 改变商业


1月15日,全球著名的大数据搜索与实时处理公司Elastic公司CEO Shay Banon突然发文宣布,Elasticsearch和Kibana的其中一项开源许可协议将发生变更。

据悉,此次许可协议变更对大部分免费使用默认发行版的社区用户没有影响,主要限制的是云服务提供商。

当然这并不是Elastic第一次更改开源许可协议。专家介绍,Elastic曾在2018年就更改过一次开源许可协议。

同样,在开源领域,数据库软件MongDB、Redis Lab、图数据库Neo4j等在2018年就修改过相关的开源许可协议,以改变其在数据库商业化方面面临的“吸血”困境。

此次Elastic修改开源软件许可协议,必然会对使用Elasticsearch和Kibana的大量用户生产重大影响,尤其会对公有云上的用户造成冲击。如何规避影响,保证应用稳定持续运营是大量的中国用户面临的一个主要问题。

另外,在开源软件得到大量应用的情况中,用户不得不面对开源软件协议修改带来的巨大风险。

1.中国也有自己的大数据综合搜索引擎Transwarp New Search

作为目前世界上非常流行的数据搜索与实时分析引擎,Elasticsearch大名鼎鼎,单单2018年其下载量就超过了2.25亿人次,全球众多公司以某一种形式使用它。

Elasticsearch首个版本发布于2012年。经过7年多的更新迭代,Elastic Stack生态已经日渐成熟,在国内拥有越来越多的用户,应用Elasticsearch的开发人群也不断扩大。

开发者利用Elastic Stack开发出灵活的软件,在搜索、日志记录、安全防护、运维指标监控、数据库加速等应用场景,以及在互联网与软件业、金融业等行业得到广泛应用。

近些年来,云服务提供商一直在使用开源产品,修改其代码,开发托管(收费)服务解决方案版本。然而,修改后的代码将无法作为开源代码加以访问。

同时云服务商的商业行为也妨碍了开源软件公司商业化。在开源许可下,如何实现盈利,实现更健康的发展,则成为开源软件公司面临的最大挑战。

因此,Elasticsearch和Kibana在许可证方面进行了重大的更改,由开源Apache 2.0许可证,改为采用SSPL(服务器端公共许可证)。

早在2018年,MongoDB就改变了许可协议,采用了SSPL(服务器端公共许可证),以保护开源代码,避免被云服务提供商用来开发自己的SaaS/DBaaS产品。

毫无疑问,Elastic更改许可协议对用户尤其是云上托管的应用必然造成巨大的冲击。不少国家都把开源软件修改许可协议,列为软件产业发展的一大风险,引发全球相关用户的恐慌。

幸运的是,在国家政策的大力支持下,我国信创产业不断发展壮大。在大数据综合搜索的国产化自主可控方面,国内已经推出了自己的产品。

中国大数据与AI基础软件的领导企业星环科技已经推出了完全可以替换Elasticsearch的大数据综合搜索引擎——Transwarp New Search这一国际领先的大规模统计和搜索融合引擎,不但可以完成用户对全文搜索、关系的精确查询及分析需求,而且还在半结构化数据检索、时空数据检索、语义检索、模糊检索等方面更胜一筹。

受国家自主可控政策的支持,以及星环科技技术的不断突破,星环科技已经完成了大数据基础软件的完全自主研发,未来将不会存在开源软件Hadoop身影,其大数据基础软件产品在不同领域开始替换甲骨文、IBM等国外软件。

超过2000多家不同行业的用户,选择使用星环科技自主研发的平台构建大数据底层的基础设施,为各个行业赋予相关的业务能力,涉及金融、政府、能源、制造、交通、教育等。

2.New Search青出于蓝而胜于蓝

星环科技自研的Transwarp New Search用于在企业内部构建大数据搜索引擎。New Search支持Word/Excel/PDF/CSV/互联网数据/图片/音影等非结构化数据格式的存储和检索,在PB级数据量上进行检索时,能够秒级返回。

在开发接口方面,New Search提供了完整的SQL语法,支持并提供搜索语法SQL扩展,通过和星环科技的分析型数据库Inceptor优化器有效结合,使开发者无需了解底层架构,就可以开发出高效的搜索引擎。

与开源的大数据搜索引擎Elasticsearch(ES)相比,星环科技自研New Search具有更多的优势:

New Search提供分布式计算引擎,能满足多表关联和复杂聚合分析等场景需求,改变了开源的Elasticsearch聚合结果不准确的问题,提供精确聚合。

New Search支持标准SQL、SQL扩展搜索语义,以及Oracle、DB2L方言,配套星环自己的安全管控平台Guardian 和大数据管理平台Manager,方便安全管理和运维管理。

在全文检索方面,New Search支持pdf/word/excel等常用格式文档的存储和搜索,提供中、维、藏、英、法、日、韩、德、西、葡等多种语言分词器,支持文章相似度匹配、关键字提取、摘要提取等自然语言处理功能。

New Search时空数据库模块支持包括点、线、多边形、集合类型在内的OGC定义的标准图形类型,支持基于WMTS协议的瓦片服务,支持伴随分析、轨迹相似度匹配等时空数据库算法。

另外,New Search在大数据量、大集群环境下的性能表现优异,相对于开源的Elasticsearch(ES)有了明显的改善:

在硬件投入成本有限时,用户希望要尽可能提高资源利用率,因此集群单节点支持实例量就显得至关关重要。New Search单节点支持单实例 50TB,远超过开源ES单节点单实例10TB。

当用户的数据总量达到百TB-PB量级时,采用开源ES软件当实例超过100个节点时,会出现连环失联等稳定性问题。而星环科技的New Search产品为大集群专门调优参数,能大幅缓解节点失联等问题,而采用最新一代的New Search,支持节点或实例达到200个以上节点时,依然能有更好的稳定性。

大数据搜索对高可用要求高,应能保证99%以上的SLA服务水平协议,在有节点异常情况下可自动快速恢复,当需要人工运维介入时能提供工具快速诊断和修复集群。开源ES软件TB数量级节点重启一般需要数小时,而星环科技的New Search,TB数量级节点重启只需几分钟。下图所示为NS在不同存量数据规模情况下的重启耗时,其中cold和hot的区别在于是否排除操作系统pageCache影响。

对于数据维度高,需要做多表关联分的业务,星环科技的New Search一改开源ES不直接支持多表关联操作的做法,满足一个查询结果需要从两个或两个以上表中提取字段数据的多表关联查询的需求。

对于短平快查询,开源ES支持最大并发量一般在700-800,且受GC影响,查询性能有毛刺。而星环科技的New Search一代产品查询流程优化,减少一次rpc,响应时间减少30%,而且通过offheap、automerge、cooling等技术减少heap占用,受GC影响变小。

最新一代New Search,进行了线程池优化和lucene优化,内存占用继续减小1/3,受GC波动更小,既满足短平快查询秒级需求,又能满足查询高峰期高并发量。如下图所示,单机存量数据为4.5T的情况下,New Search通过对堆外内存的高效使用,大幅度减少了堆内存的占用,明显降低了GC压力。

用户的查询主要针对最近N天内的数据,对再老的数据查询频度相对不高。面对这一需求,开源ES没有对冷热数据做特别处理,而星环科技的New Search对冷热数据做了优化,提升了查询性能。

当集群规模很大,表格分片较多的情况下,开源ES由于其自身PP架构和平衡策略的局限,会造成DDL操作延迟非常高,造成明显的使用卡顿和集群高负载。而New Search的中心式架构能够明显优化这方面的性能, 测试对比如下图。

当每天的增量数据增加时,用户对入库性能就会提出特别的要求。如何保证入库数据的性能呢?开源ES的数据入库性能随着数据量增大会逐渐变小。星环科技的New Search一代产品优化存储格式,性能提升10%-20%;而二代产品加入bloomfilter索引,将入库性能随着数据量增大的影响尽可能减小,入库性能继续提高30%-70%。另外,支持bulkload功能,通过BulkLoad的方式快速导入海量数据 。

如下图所示,是New Search在使用 TPC-DS标准数据进行批量写入测试中的性能表现和ES的对比,单位为单节点/MB/秒。

除了综合搜索产品的技术、性能之外,星环科技在大数据基础软件方面,可圈可点的地方还可多,如星环科技被认为是大数据领域产品线最丰富的企业,产品涉及大数据领域众多应用需求和场景,在国内有更多成功的案例,也能为中国用户提供更好的本地化服务与支持等。

随着开源软件在全球范围内不断发展壮大,开源软件的影响日益扩大,并成为软件产业发展不可忽视的重要力量。开源软件在全球的发展证明了这种模式不仅是商业模式,而且也是研发模式、推广模式、产业化的模式。

伴随着众多开源软件的商业化,以及众多开源软件成功IPO,在巨大的利益诱惑下,开源软件企业频频修改开源协议,造成的风险不但不防。同样开源软件也可能受到贸易摩擦、贸易制裁的影响。因此,在国家自主可控政策的支持下,发展自主研发、自主可控的大数据基础软件大势所趋,以满足中国企业大数据应用的需求。

—— / END / ——

以下内容更精彩


2020年度产业图谱:

●2020中国数据智能产业图谱1.0版

●从产业图谱看中国2020年数据智能行业的发展态势

2020数据猿《#榜样的力量#寻找新冠战“疫”,中国数据智能产业先锋力量》大型公益主题策划活动:

●《新冠战“疫”——中国数据智能产业最具社会责任感企业》榜

●《看过大佬们发的朋友圈之后,我相信:明天会更好,明年定会春暖花开》条漫

2019数据猿年度金猿榜:

●2019大数据产业趋势人物榜TOP 10

●2019大数据产业创新服务企业榜TOP 15

●2019大数据产业创新服务产品榜TOP 40

大数据搜索不只开源Elastic,星环科技自研New Search青出于蓝相关推荐

  1. 【观察】大数据3.0新时代 星环科技的思与行

    申耀的科技观察 读懂科技,赢取未来! 众所周知,如今的世界正在以加速度进入到智慧时代,特别是随着各项业务的云化深入以及万物互联,数据处理能力的进一步提升,智能算法一次又一次的突破,以及云计算在传统产业 ...

  2. 刚刚!国产大数据基础软件第一股星环科技成功上市,开盘大涨超52%

    作者 | 冬梅 10 月 18 日,"国产大数据基础软件第一股"星环信息科技(上海)股份有限公司(简称"星环科技")正式登陆科创板,股票代号为星环科技(6880 ...

  3. 自研代码率超70%,国产大数据基础软件第一股星环科技成功上市!

    整理 | 杨阳 出品 | AI科技大本营(ID:rgznai100) 今早,星环科技上市敲钟,正式登陆科创板,股票代号"N星环-U(688031)",发售价每股47.34元,开盘后 ...

  4. 【ElasticSearch】大数据搜索选开源还是商业软件?ElasticSearch 对比 Splunk

    1.概述 转载:大数据搜索选开源还是商业软件?ElasticSearch 对比 Splunk述 本文就架构,功能,产品线,概念等方面就ElasticSearch和Splunk做了一下全方位的对比,希望 ...

  5. 星环科技自研技术,加速大数据从持久化、统一化、资产化、业务化到生态化

    从2013年成立开始,星环科技就专注于大数据基础技术与企业数据业务的更好结合,同时面对中国更为复杂的数据应用场景,研发了多种更贴合国内大数据应用需求的大数据管理技术,在大数据技术领域有多项基础技术突破 ...

  6. 大数据搜索选开源还是商业软件?ElasticSearch 对比 Splunk

    2019独角兽企业重金招聘Python工程师标准>>> 本文就架构,功能,产品线,概念等方面就ElasticSearch和Splunk做了一下全方位的对比,希望能够大家在制定大数据搜 ...

  7. 【观察】星环科技:布局行业大模型赛道,加速国产化替代进程

    以ChatGPT和GPT所代表的大模型,已经在国内形成了"海啸效应",几乎所有的科技公司都在想方设法进入大模型的赛道.背后的核心驱动力,就在于大模型的最大价值在于普遍提升个人生产力 ...

  8. 基于星环科技大数据平台 辽宁城市建设职业技术学院打造智慧校园

    当今世界,发展职业教育已经成为各国应对危机.促进就业.迎接新工业革命挑战的共同行动.同时数字化技术的快速发展,改变着学习和教育,将成为职业教育系统整体改革与创新发展的战略选择. 星环科技与北京点为信息 ...

  9. 内蒙农信携手星环科技建设农信大数据平台,激活金融业务创新

    背景 内蒙古自治区农村信用社联合社(简称"内蒙农信")经过多年的信息化建设,目前投产使用的信息化系统近100套,产生了大量的数据.该社于2019年采用MPP架构的分布式数据库,实现 ...

最新文章

  1. Ajax实现简单用户名重名查询
  2. python填写excel-使用Python填写Excel文件的简便方法
  3. 为什么 UEFI 方式启动的 U 盘必须使用 FAT32 文件系统?
  4. Golang学习 - bufio 包
  5. 若依前后端分离版怎样根据数据库生成代码并快速实现某业务的增删改查
  6. # 秒转换成分钟_10分钟时间,我用Excel完成了别人一天的数据分析工作
  7. 全局变量-基本代码演练
  8. 将一个对象拆开拼接成URL
  9. [转]数据库事务ACID特性
  10. apache kafka_Apache Kafka简介
  11. 创造需求的6个关键点
  12. 关于HTML中onSubmit属性的触发时机
  13. 区块链 智能合约是有状态的吗
  14. 我国政务大数据政策的文本分析:推进逻辑与未来进路
  15. ASP视频教程:SQL语句1
  16. pyhanlp常用功能简单总结
  17. hash(哈希)是什么
  18. 树莓派存储方案_树莓派网络存储(NAS)
  19. 【BZOJ4826】【HNOI2017】影魔(线段树)
  20. 美国国立卫生研究院(NIH)江晓芳组诚聘生物信息学博士后

热门文章

  1. web3j java版本生成公钥、私钥、地址等实例
  2. 华为网络篇 黑洞路由-23
  3. WPF中文 FontFamily
  4. 2021年高考语文咸宁查询成绩,2021年咸宁高考状元是谁分数多少分,历年咸宁高考状元名单...
  5. Java 原生 Base64 编解码、Md5、SHA-1、SHA-256 加密摘要算法
  6. 实现同时控制施耐德(Schneider Electric)和西门子(Siemens)PLC WCS系统
  7. java计算机毕业设计某医院门诊预约系统源码+数据库+系统+lw文档+mybatis+运行部署
  8. CANoe文件扩展名整理
  9. 利用随机函数产生并且显示 15 个小写的英文字符,显示排在最前面和最后面的字
  10. DP1332E是一款SOC的近场通信NFC芯片