概览

微云数聚(北京)科技有限公司是一家实力雄厚的大数据技术公司,由移动互联网技术专家团队、大数据专业团队和建模博士团队组成。微云数聚专注于研究图数据库技术及其应用,是世界领先的图数据库Neo4j在中国的战略合作伙伴和官方代理,他们研制的Neo4j简体中文扩展版,是专为中国企业量身打造、符合中国企业习惯的图数据库系统,除了提供简体中文界面,还支持节点显示成图片,显示效果由数据驱动;增加了智能查询,并且开发了简便导入Excel、MySQL和Oracle的工具--导入精灵,这些扩展将极大促进Neo4j在华语地区的推广使用。微云数聚在华为的帮助下,在推介Neo4j的过程中,与中国互联网、大数据企业客户建立了良好的合作和信用关系,为Neo4j的市场开拓奠定了良好基础。

图数据库是大数据时代的一种新型数据库,它是基于数学中图论的算法而实现的高效处理复杂关系网络的新型数据库系统。它善于处理大量的、复杂的、互联的、多变的网状数据。其效率远远高于传统的关系型数据库的百倍、千倍甚至万倍。图数据库特别适用于社交网络、实时推荐、金融征信系统等广泛的领域。领英(LinkedIn)、沃尔玛、CISCO、HP、eBay等全球知名企业都在使用图数据库Neo4j。中国企业也在逐步开始用图数据库来构建自己的应用,尤其在征信领域,工商总局、天眼查、启信宝、企信宝、企业信用信息、企查查等APP都用了图数据库,著名的股票信息软件万德也已经开始使用图数据库。华为、联想也在密切关注图数据库Neo4j,考虑将它纳入PaaS平台。作为做了一辈子IT、研究了一辈子数据库的张帜,研制出具有中国自主产权的图数据库,将是他人生下一步的关键目标!

领英是如何实现朋友推荐的?沃尔玛是如何实现零售商品推荐的?因为他们用了图数据库 Neo4j,一种擅长处理复杂网状关系的新型数据库系统。本次分享包括如下内容:

一、图数据库的基本概念;

二、图数据库的应用案例;

三、图数据库的国产化进程。

直播实录

欢迎来到直播间,大家好。我是微云数聚(北京)科技有限公司的创始人张帜,目前主要做两件事,第一件是敏捷商务智能,目前已经有很多互联网公司用到这个产品;第二件是国产化图数据库,也就是今天晚上要跟大家分享的数据库。华为、联想、中科院、招商银行、电信、移动等都在关注这个产品,有可能成为合作伙伴和潜在的用户。

这次分享的主题是大数据时代的新型数据库 — 图数据库Neo4j 的应用,大家一定用过领英 (Linkedin),很可能关心过领英如何处理社交数据的,是用什么技术实现朋友推荐的,大家也可能上过沃尔玛的网络商店,也可能好奇他是如何精准的为你推荐商品的。今天我们就一起揭开他们的神秘面纱。原来他们并没有什么秘密,他们只是用了一个新型的数据库,也就是我们今天要介绍的图数据库Neo4j。

今天分享的内容分三部分:基本概念、应用案例、国产化进程。

国产化进程,主要讲微云数聚在国产化方面所做的努力和工作,给大家做个汇报。

什么是图数据库,从理论依据来看,不是图形、图片的处理,而是基于数学里的图论的理论和算法而实现的高效处理复杂关系网络的新型数据库系统。大家都学过图论,图论里处理的就是点和线的关系,还有最小路径、最短路径、最佳运输路径等等。图数据库就是基于图论而实现的数据库系统,和我们知道的mySQL、Oracle以及Hadoop思路完全不一样。它实际上就是处理关系的、处理网络的数据库系统。

那么我们从另一个角度看,图数据库是善于处理大量的、复杂的、互联的、多变的数据。它处理这些数据的效率,远远高于关系型数据库。

从应用角度来看,图数据库适合于哪些方面呢:例如领英的社交网络、沃尔玛的零售商品实时推荐、征信系统(在中国应用征信系统前景非常好)、人工智能(如阿法狗)。如果使用图数据库来记录数据就会非常简单。在这几个领域有很广泛的应用,当然,不仅仅是这些方面,其他方面也有很多的应用。今天跟大家介绍这些,只是抛砖引玉,大家可举一反三,在自己的行业领域找到广泛应用。

从数据库的结构来看,它包含的概念非常的简单,他包含的概念只有节点和关系。节点可以带标签,节点和关系也都可以带属性。

这里有两个人,一个汽车,共三个节点,每个节点,都打了标签,上面的节点打了“个人”标签,下面节点打了“汽车”标签。

每个节点都可以带属性,第一个节点带了姓名、生日和微信三个属性。第二个节点带了姓名和生日两个属性。汽车这个节点,带有品牌和型号两个属性。这里,两个个人节点带的属性是不一样的,这说明同类型的节点不一定要有同样的属性。每一个节点的属性可以根据需要任意设置,可以多可以少,可以有可以无。上面两个节点之间有相爱的关系,爱这个关系是带箭头的,也就是有方向的。下面这个关系“住在一起”也是关系,也是可以带属性的,属性开始日期的值为2011年1月10日。

大家看到,图数据库模型的结构非常的简单,就是节点和关系。节点可以带属性、标签,关系也可以带属性。

接下来我们看看在Neo4j里怎么创建节点和查询节点的。

大家看到这个CREATE语句就创建了节点和节点之间的关系。创建节点和关系就是这么简单。

MATCH是查询语句,这个查询语句和CREATE的差别只在MATCH和CREATE单词的不同。如果我们把第一个节点中的姓名属性去掉,查询的结果就是所有爱李四的人;把第二个节点的姓名属性去掉,查到的就是所有相爱的人。

所以图数据库处理这种关系,语句非常直观和简洁。

那我们来讲一下为什么要使用图数据库。我们已经讲到了,领英和沃尔玛都用到了图数据库,用来处理复杂的关系。那么为什么用图数据库而不是关系数据库来处理这种关系数据呢?

世界本来就是由各种关系组成的。都是节点和节点之间的关系,如图所示,这个图仅仅显示了人和人之间的关系。现实中,不仅仅是人和人,也包括人和物,人和事件等复杂的关系。如果用关系数据库,效率非常低,因为它的表达不直观,计算要用到 join(连接)等复杂的关系,而图数据库是最适合处理这种网状关系的。

这一页是说关系型数据库处理复杂关系的时候,建模难、性能低、查询难、扩展难。导致传统的数据库不能处理实时的数据关系。

现在大家都在说NoSQL,NoSQL也不是为处理关系创建的,也不能处理好关系数据。

而唯独只有图数据库它是专门为处理复杂关系而创建出来的,它具有开发的优势和部署的优势。

我们现在来看关系模型和图的模型,将这两个模型作对比。左边这个关系模型,技术人员能够看得懂,非技术人员就不一定能看得懂了。而右边这个图模型,不仅技术人员,就连非技术人员也很清楚的看懂,因为它非常的直观。

我们经常在白板上画一些模型,用来讨论我们的项目,我们通常是画圈、画线。如果用关系型数据库来处理的话,就要把它映射成表格后再处理。如果用图数据库处理的话,就和白板上的模型没有什么差别,所以说白板模型就是物理模型。现在这个图就是我们的物理模型,在图数据库中,表现现实世界的关系就这么直观。

为什么要使用图数据库,这张图是按照数据库类别的一个发展趋势图,绿线代表的就是图数据,最底下的红线是关系型数据库。这张图从13年到16年,从这个图能看出来,关系数据库已非常成熟,应用也非常饱满,所以发展趋势不再往上升了。相反的,图数据库是崭新的数据库技术,随着互联网的发展,图数据库的应用需求也越来越大,人气指数也越来越高。

Neo4j是图数据库的一种,为什么要选用Neo4j呢?下面我们用图和数据来看看,为什么要用Neo4j。

Neo4j是图数据库的一种,为什么要选用Neo4j呢?下面我们用图和数据来看看,为什么要用Neo4j。

这是图数据库类别里的人气排名。Neo4j相比其他数据库,要遥遥领先。

从趋势图来看,在图数据库的类别里,Neo4j也是遥遥领先。

Neo4j建立了图数据库里最大的生态系统。

这是各种著名媒体报道的截屏。Forester预计2017年,有25%的企业使用图数据库,根据我们推广的结果看,国内很多厂家已经开始在用Neo4j了。所以达到25%比例这个目标会提前实现。

Neo4j的关键产品特征。

社区版不支持集群,免费。企业版支持集群,是收费的。前面有负载均衡,后面有三个Neo4j服务器,其中一个标有五星,表示它是Master,其它的是Slave。如果Master出现故障,会有一台Slave主动变为Master。这是一个很好的负载均衡的机制。

未来如何架构你的应用呢?以前的应用,是在上面这条线,从用户到应用,到数据库。未来我们用上Neo4j,在下方增加支路来访问Neo4j图数据库。

这是一个有趣的图数据库应用。有银行人员向政府举报,在瑞士汇丰银行,可能有潜在的诈骗、贿赂和逃逸事件。政府将收到的一堆文件转给ICIJ(国际记者调查组织)进行分析调查。这些记者是不懂IT的,如何处理这么多数据呢?技术顾问推荐他们使用图数据库Neo4j。他们装了一台Neo4j,然后把数据导进去,直接在Neo4j界面上进行查询,居然查出了成千上万的诈骗、贿赂和逃逸的事件。我举这个例子说明,Neo4j不仅仅是技术人员,也是很多非技术人员可以掌握的工具。


这张图讲演员之间复杂的关系。这张图好看,但不好用,我们要找不同人之间的关系,会非常麻烦,而且不一定能找全。如果我们把它导入到Neo4j里面去,就会变得好用。

这是Neo4j的语法,把演员之间的节点和关系,输入进去。

可以得出这张图,这张图好用了,但不好看。

我们是希望又好用又好看。这张图有图片了。我们的图片也支持gif。是微云数聚把它做的又好用又好看。

这个图是一家集团公司的投资网络和担保网络。图中,中航工业集团在正中心,直接连的是子公司,再往外是孙子公司。圆圈的大小代表了注册资本的大小,红线代表投资关系,其粗细代表投资资本的多少,绿线代表担保关系,其粗细代表担保的多少。

这个图里,微云数聚又做了贡献,在原版中,这个图中的节点大小是一致的,而微云数聚可以让这个圆圈的大小由数据驱动,投资资本大,圆圈就大。数据驱动这个功能,是微云数聚为Neo4j在本地化过程中所做的扩展。

现在可以针对这个图进行计算。比如计算亏本网络,即将所有净利润小于0的公司组成的网络找出来。

这个是舆情分析的应用,这个语句是查询标题中具有“性福”两个字的邮件的传播路径,红色是发邮件的人,蓝色是接收邮件的人。从这张图可以看出,公安局如果要抓发邮件的人,就直接抓最中心的这个人,他是始作俑者。

这是另一个舆情分析的例子,我们用新浪的数据计算出大V之间的团伙关系。

这是对股票投资的数据查询,我们把两千多只股票,和每只股票前十大股东的情况输入进去了。这个是查询名称中包含五矿的所有股份的投资情况。

还有一个功能,就是数据的钻取,鼠标双点击某个节点,可以展开这个节点的其它关系。

第一个就是沃尔玛,用它来做实时推荐。

左边是实时推荐,右边是以这个人为中心的消费习惯,中间是商品和其他商品之间的内在关系。当这个人点击了中间这个商品,系统就对这两个网络进行计算,计算出这个人可能会对哪些商品感兴趣,并在左边实时显示出来。这是沃尔玛的案例。

思科用它来做组织管理。

这是欺诈检测的应用。四个独立身份的人,每个人都有若干张银行卡,他们用每个卡到银行贷款或者借款4K美金,每个卡的风险不是很大。但是我们通过关系分析,发现上面两个人,经常给同一个电话打电话,左边两个人,经常往同一个地址寄邮件,底下两个人经常给同一个电话打电话,右边两个人,经常往同一个地址寄邮件。这四个人在某种程度上是一个合成身份的人,他们形成了一个诈骗环。如果这四个人,同时来找银行贷款,他们贷款的金额很可能就是72K美金。给银行带来的风险,就是72K的风险。


这是中国在用图数据库的案例,我这里搜集的都是征信系统。他们都用到了图数据库。

这是比较有名的股票系统,万德,也在使用图数据库。大家可以想想,在自己的领域,有哪些方面可以用到图数据库?

微云数聚在Neo4j国产化所做的工作:

第一个,汉化的版本。

第二个,图片化显示。

第三个,数据来驱动,节点和关系的大小、粗细。

第四个,我们扩展了一个智能查询的功能。

第五个,我们实现了一个导入精灵,可以直接把Excel、MySQL、Oracle等数据源的数据导入到Neo4j的数据库中去。

来源:中生代技术

原文链接

大数据时代的新型数据库 — 图数据库 Neo4j 的应用相关推荐

  1. 大数据时代第一部分思维导图_大数据时代总结思维导图模板分享

    现在的社会是一个高速发展的社会,科技发达,信息流通,人们之间的交流越来越密切,生活也越来越方便,大数据就是这个高科技时代的产物.数据涉及了方方面面,那主要介绍哪些呢?下面是分享的大数据时代思维导图模板 ...

  2. 大数据时代总结思维导图模板分享

    现在的社会是一个高速发展的社会,科技发达,信息流通,人们之间的交流越来越密切,生活也越来越方便,大数据就是这个高科技时代的产物.数据涉及了方方面面,那主要介绍哪些呢?下面是分享的大数据时代思维导图模板 ...

  3. 大数据时代的新型数据库-图数据库Neo4j介绍

    2019独角兽企业重金招聘Python工程师标准>>> 1.Neo4j简介 Neo4j是一个高性能的,NOSQL图形数据库,它将结构化数据存储在网络上形成图谱而不是表中.Neo4j也 ...

  4. 大数据时代如何建设动漫品牌

    麦咭.酸奶.中国娃娃.春节娃娃--这些听起来熟悉或陌生的名字,在8月28日举办的中国(天津)动漫品牌峰会上屡被提到,成为大数据时代下动漫品牌建设与发展的例证. 继一年前的首届中国动漫品牌峰会提出&qu ...

  5. 武新博士:新型MPP数据库将支撑起大数据时代

    大数据这个领域过去5年发展很快.热度很高,但是总的来说目前还在起步阶段.本次研讨会我会先谈谈数据,以及大数据对数据处理技术的压力,然后为大家分享一下为什么这几年数据处理技术上的创新很多. 1. 数据价 ...

  6. 图数据库——大数据时代的高铁

    如果把传统关系型数据库比做火车的话,那么到现在大数据时代,图数据库可比做高铁.它已成为NoSQL中关注度最高,发展趋势最明显的数据库. 简介 在众多不同的数据模型里,关系数据模型自20世纪80年代就处 ...

  7. 图数据库――大数据时代的高铁

    如果把传统关系型数据库比做火车的话,那么到现在大数据时代,图数据库可比做高铁.它已成为 NoSQL 中关注度最高,发展趋势最明显的数据库. 简介 在众多不同的数据模型里,关系数据模型自20世纪80年代 ...

  8. 大数据时代数据库-云HBase架构生态实践

    2019独角兽企业重金招聘Python工程师标准>>> 摘要: 2018第九届中国数据库技术大会,阿里云高级技术专家.架构师封神(曹龙)带来题为大数据时代数据库-云HBase架构&a ...

  9. 《实战数据库营销——大数据时代轻松赚钱之道》新书试读+文摘

    数据库营销中数据库是工具,营销是核心 简单来讲,数据库营销就是企业通过搜集和整理消费者的信息,预测消费者有多大可能去购买某种产品,同时利用这些信息给产品以精确定位,有针对性地制定营销策略以达到说服消费 ...

最新文章

  1. 阿里JAVA面试题剖析:一般实现分布式锁都有哪些方式?使用 Redis 如何设计分布式锁?...
  2. 洛谷 P4706 取石子 解题报告
  3. kakfa怎么看消息是否堆积_纯种哈士奇多少钱一只,怎么看是否是纯种哈士奇
  4. ZRender源码分析2:Storage(Model层)
  5. 饿了么618数据:休闲娱乐业增超200% 医美消费者翻倍
  6. 大学生慕课第二周学习笔记
  7. 录屏直播时,只有部分屏幕的解决办法
  8. IOT是什么?有哪些用途和技术?
  9. 终于把AI换脸的原理搞清了
  10. 01惯性导航常用坐标系与地球参考椭球
  11. access里的多步oledb错误_access数据库常见问题处理
  12. 判断字符串是否是对称字符串
  13. pulsesensor传感器以及STM32相关学习笔记
  14. 给后辈的一点建议,含泪整理面经
  15. 开源三维GIS之Cesium基本设置与加载天地图(五)
  16. MATLAB代码:电动汽车有序充电策略 基于峰谷分时电价引导下的电动汽车充电负荷优化
  17. c语言程序代码应缩进几格,汉诺塔c语言程序代码
  18. 如何用python提取音频
  19. css 输入框中文字水平居中,css水平居中,文字垂直居中
  20. 郭金东斥资大整合,为金浦打造世界级新材料产业基地

热门文章

  1. oracle按时间要求查询
  2. catia 桥接曲面圆角_4.3.7.1-Catia曲面之多桥接曲面_简单构面
  3. 过程 oracle 写在哪里,Oracle怎么写存储过程? 在什么地方写以及怎么调用?最好给个Sample 急(2)...
  4. assign深拷贝_前端深拷贝和浅拷贝
  5. golang goroutine实现_golang技术随笔(二)理解goroutine
  6. js把word转html在线预览,js实现word转换为html
  7. Python基础之循环语句
  8. 数据结构和算法分析: 第五章 散列
  9. eve模拟器华为镜像_EVE-NG简单入门介绍
  10. Java虚拟机详解(八)------虚拟机监控和分析工具(2)——可视化