本文转载自DataFunTalk,作者刘洋,Neo4j亚太区高级技术顾问。

导读:本文将探讨Neo4j的图数据科学平台,以及2.0版本的新功能。主要内容包括:

  • Neo4j图数据科学(GDS)的前世今生

  • Neo4j图数据科学平台

  • Neo4j GDS 2.0 版新特性

01 Neo4j图数据科学(GDS)的前世今生

Neo4j是业界最早推出图算法的厂商,图算法由早期的ALGO 3.5升级为了GDS 1.0,预示着Neo4j从算法平台向图数据科学平台的演进。

1. 是什么在驱动业务创新?

Neo4j的业务创新不是由数字驱动,而是在深入分析各个业务环节间关系的基础上,进行相应的业务变革,从而带来业务创新,因此关系是行为的最强预测因素

例如:零售商超公司可以通过分析客户与产品间的关系进行产品推荐,通过分析商品门店与供应商之间的关系来优化供应链等。这些都是分析关系驱动业务的实际案例。而图数据库则是处理关系的最佳技术。

2. 什么是图数据科学?

顾名思义,图数据科学是一门综合了图查询、图算法、图可视化,在事物、关系上进行数据科学类研究和分析的技术。传统的关系数据库不擅长处理关系,图模型是建立在关系之上的,因此借助图数据科学可以获得更好的数据分析和预测的结果。

3. 更佳的预测结果

现有的ML方法和技术主要基于维度和指标特征建立的特征工程,忽略了数据中的网络/图结构。图机器学习不仅可以识别个体特征,还能识别个体所处的网络特征,基于关系进行建模和预测。图可以为机器学习模型提供高度可信和精准的特征预测。

例如信用卡异常用户的检测,可以由基于特征模式的传统机器学习的欺诈检测系统完成。比如一个超大额的交易或是同一时间超远异地交易等,这种个体的异常特征很容易被传统的欺诈检测方法识别到。如果欺诈者在实施欺诈的过程中仍然表现出正常行为,又该如何进行检测?研究表明70%以上的看似正常行为的欺诈都是团伙欺诈,比如互相套用真实身份信息做一些看似正常的交易,这种团伙欺诈就很难被传统的欺诈检测系统发现。而图数据科学正是识别这类团伙关系的最佳方案。

02 Neo4j图数据科学平台

1. Neo4j图数据科学平台

Neo4j图数据科学平台是由图数据库、图算法库、可视化分析组件、各类连接系统等组成的技术平台。

① Neo4j Database

提供了原生的图存储、免索引链接技术,保障各类分析查询场景下的高性能。也是支持ACID的交易型数据库,保障数据的准确性、持久性、一致性、可以用于交易生产。

② GDS Library

支持各类算法和机器学习工作流的库。

③ Bloom

图形可视化的探索工具,业务用户无需学习图查询语言就可以通过鼠标的点选和拖拽完成对图的分析和探索。

④ Connectors

提供多种连接器,如果用户习惯用Python完成ML的开发,可以使用Python去调用各种图算法的功能来完成开发。

⑤ AuraDS

AuraDS是新上线的数据科学的云端方案,可以借此完成图分析的相关工作。

2. Neo4j GDS库

① 提供最健全的图算法和ML方法

  • 计算有关拓扑结构和连接性的指标

  • 建立预测模型以扩展您的图

  • 高度并行化,可扩展到百亿级的节点

② 高效和灵活的分析工作空间

  • 自动将交易图重塑为内存中的分析图

  • 针对全局遍历和聚合进行了优化

  • 创建工作流程和分层算法

  • 在模型目录(model catalog)中存储和管理预测模型

Neo4j的图算法需要将数据投影到内存中去运行,这样做的好处是可以拥有一个高性能的方案去运行各种图算法。

Neo4j的图算法还可以在运行过程中去丰富内存图的内容,比如可以将中间结果写回到内存图被其他的算法反复地调用。

GDS库包含60+图科学算法,主要有以下几大类:

  • 路径发现&搜索

寻找网络中的最短路径等路径发现的动作。

  • 中性度&重要性分析

根据网络图中的拓扑结构寻找最有影响力的节点和它们的作用,常用来推断群体中的动态。

  • 社区检测

寻找网络中节点所形成的社区集群,揭示集群的紧密型、节点集群的孤立性和结构。

  • 启发式连接预测

确定一对节点的接近程度,考虑节点的接近性及结构元素来预测未观察到的或者未来的关系。

  • 相似度分析

根据网络图中的拓扑结构寻找相似节点。

  • 图嵌入

将图中的节点和关系通过低维向量或数组的方式表示,这些向量就可以被表示为嵌入,作为机器学习的输入。

图算法在实际应用中的演进有如下几个阶段:

  • 第一阶段:知识图谱

在关联数据中搜索特定的关联模式。例如构建企业级的应用知识图谱,借助知识图谱回答特定的问题。

  • 第二阶段:图算法

使用无监督的机器学习技术识别图中的关联、异常值和趋势。例如了解图中最重要的是什么、哪里有相似性、应该在哪步做调查。

  • 第三阶段:图原生机器学习

使用嵌入来学习图中那些可能之前不知道的重要特征,训练图内监督机器学习模型来预测链接、标签和缺失数据。例如哪些客户会购买哪些商品、哪些交易存在欺诈行为。

3. 金融欺诈检测

这里以账户持有人知识图谱为例,对比图查询、图算法、基于图的特征工程进行金融欺诈检测的功能。

① 图查询

关联分析能够提高检测的效率和精确度,例如进行可以模式的搜索和匹配等。

例如:可疑账户与黑名单账户之间是否有连接、距离有多远?账户之间有没有异常的共同点、共享关键信息?

② 图算法

借助无监督的学习对欺诈进行识别。通过连通分量算法将图切分成彼此不连通的子图;通过页面排行算法计算节点在网络中的影响力,去发现某些重要程度高的节点有什么样的特征;通过Louvain模块度算法识别频繁出现的集群/社团;用Jaccard相似度算法判断账户之间的相似程度。

③ 基于图的特征工程

无需使用多个算法来描述图结构和特征,通过图嵌入来完成对于图结构表示,使用图结构进行预测。

4. 图嵌入

通过对图进行嵌入学习,以及在图中进行有监督的机器学习,来提升数据预测精准度。图嵌入就是把图进行变换,识别出之前并不了解的一些关键的模式和信息。

图(网络)往往是高维的、难以处理的;图嵌入算法作为降维技术的一种将图的节点”嵌入”到一个D维向量空间中,从而方便机器学习算法实现诸如分类的操作。

好的图嵌入过程会将连接的(或者类似的)节点在D维空间中集聚在一起,而没有连接或者差异很大的节点则分布很远。

如上图中生成的一个二维空间中,显示了不同颜色的点的位置,可以看到其分布和聚集,可以用来进一步的分析。

图嵌入分为下面三类:

  • 节点嵌入:描述每个节点的连接信息。

  • 路径嵌入:在图上遍历的过程。

  • 子图嵌入:将一个子图嵌入成向量。

GraphSAGE是目前流行的一种能够利用节点的属性信息高效产生未知节点嵌入表示的一种归纳式(inductive)学习的框架。

5. 客户用图数据科学做什么

① BANKING CIRCLE - 欺诈检测

  • 300%+欺诈检测增长

  • 10%的正面升级(行业是<1%)

  • 大约150%支付流量增加

  • 大大减少了欺诈误报的总数量

② AstraZeneca – 药品研发

  • 分析药品研发中收集的百亿条数据关系和模式

  • 根据病患的经历找到相似案例

  • 预测最有可能受益的病人

③ Meredith – 客户360 

  • 1621%接触点长度

  • 500%每个访问实体访问时间

  • 20-30%客户偏好了解和识别

④ OrbitMI - 物流运输 

  • 亚秒级的海上航线规划

  • 减少全球碳排放6万吨

  • 为客户带来12-16Million的ROI

03 Neo4j GDS 2.0版新特性

1. GDS发展路线

Neo4j GDS不仅提供了业界最广泛的图算法和各类API,还自我定位为一个图数据科学平台。其发展围绕着以下四个方面不断演进:

① 简单易用

从加载任何来源的数据,到使用图数据科学及服务的云平台,图数据科学都很容易。

② 为数据科学家量身打造

连接数据的便利性和统一的工作空间,为数据科学家回答棘手业务问题提供了简易的平台。

③ 企业级平台

分析数以千亿计的节点和关系,从POC到生产支持。

④ 数据生态

图数据科学与你最喜欢的工具一起工作,本地连接器使其他数据专家能够轻松参与其中。

2. 新版本主要功能更新

仍然围绕上面提到的四个方面:

① 简单易用

  • 图数据库科学及服务(AuraDS)

  • 统一的ML Pipelines

  • 简单地数据投影

  • 提示&警告

② 为数据科学家量身打造

  • 原生Python客户端

  • 65+预警的算法

  • 用于加载、分析和回写的单一API

  • 生产环节保障

③ 企业级平台

  • 图备份/恢复

  • 集群兼容性

  • 压缩算法改进

  • 自动ML Ops

④ 数据生态

  • Neo4j Spark Connector

  • Neo4j BI Connector

  • Neo4j Kafka Connector

  • Datalku

  • Knime

  • AuraDS产品特性

官方链接:www.neo4j.com/aurads

AuraDS是一个纯云端针对图数据科学的平台,下方的特性可以总结为两点:开箱即用、零维护。

  • 提示和告警信息

  • 统一的ML Pipelines

ML Pipelines提供了一组基于Dataframe的统一高级API,帮助用户创建和调整ML Pipelines。

以Link Prediction为例,将步骤简化为统一格式的Pipeline:

  • 原生Python客户端

让Python用户或其他平台来对Neo4j图算法进行调用

  • Similarity变得更简单了

  • 混合部署

可以直接在read replica的节点上部署GDS,同时也支持数据的回写,大大减少数据写入到写节点的工作

  • 图备份/恢复

这里指运行算法的内存图的恢复和备份。

  • 生态系统整合

Neo4j可以与ingest、process、analyze、productionize、ML多个平台的应用使用连接器进行交互。

3. GDS 2.0版本新功能总结

  • Neo4j图数据科学平台可以提供完备的上下文分析和建模的支持。

  • 使数据科学家更容易在Neo4j图数据科学平台开展各类数据建模、数据分析的工作。

Neo4j图数据科学及2.0版本新功能介绍相关推荐

  1. Voronoi晶体插件-6.0版本[新功能介绍]

    5.0版本完整功能介绍: 泰森多面体Voronoi 3D-V5.0 功能介绍_HeroseFans的博客-CSDN博客Abaqus Voronoi3Dhttps://blog.csdn.net/qq_ ...

  2. Eviews 8.0&9.0界面新功能介绍

    Eviews 8.0&9.0界面新功能介绍 本文其中一些是自己的整理,也有一些是经管之家论坛中一位热心.好学坛友的整理,其中只是简单介绍一下这两个新版本的部分特性,分享出来,有兴趣的看客可以一 ...

  3. CentOS以及Oracle数据库发展历史及各版本新功能介绍, 便于构造环境时有个对应关系...

    CentOS版本历史 版本 CentOS版本号有两个部分,一个主要版本和一个次要版本,主要和次要版本号分别对应于RHEL的主要版本与更新包,CentOS采取从RHEL的源代码包来构建.例如CentOS ...

  4. android10新功能,三星A80升级安卓10 更新One UI 2.0内容新功能介绍

    三星A80升级安卓10 更新One UI 2.0内容新功能介绍 据网友反馈,三星现已面向Galaxy A80用户推送One UI 2.0更新,升级Android 10. 此外,三星Galaxy A80 ...

  5. Allegro174版本新功能介绍之和172版本兼容设置

    Allegro174版本新功能介绍之和172版本兼容设置 Allegro升级到了174版本的时候,如果按照常规操作用174版本保存PCB之后,用172版本是无法打开的. 但是174版本开放了一个和17 ...

  6. android-8.0的新功能介绍(Oreo)

    用户体验 通知 在 Android 8.0 中,我们已重新设计通知,以便为管理通知行为和设置提供更轻松和更统一的方式.这些变更包括: 图 1. 用户可以长按应用启动器图标以查看 Android 8.0 ...

  7. 【产品】智能数据建模软件 - DTEmpower 2022R2版本新功能详解

    DTEmpower是由天洑软件自主研发的一款通用的智能数据建模软件,提供了从模型搭建到模型管理应用的一站式解决方案,让用户可以聚焦于业务而不是疲于数据分析,充分发挥数据的价值.相比于上一个版本,DTE ...

  8. 微信收款接口_企业微信:3.0.26版本新功能介绍

    一.客户联系功能增强 对外收款 员工可以在聊天中直接向微信用户收款了,收款时还可要求顾客填写联系信息方便邮寄.所收款项进入企业的微信支付商户号由企业统一管理,企业还可查看每个员工的收款业绩明细. 其他 ...

  9. FL Studio 2023最新发布的21版本新功能介绍/主题包/下载安装激活教程

    万众期待的 FL Studio 21 版本将于近日正式发布上线,目前在紧锣密鼓的安排上线中,届时所有购买正版 FL Studio 的用户,都可以免费升级到21版! 按照惯例,本次新版也会增加全新插件, ...

最新文章

  1. 软件开发过程中的回顾
  2. Vue.js入门第一课
  3. Springboot+JdbcTemplate +thymeleaf 页面 做迷你版的bug系统
  4. 表达式ya是不合法的c语言标识符,《C语言程序设计》试题3及答案
  5. MATLAB求图片两圆圆心,求助:如何求此图中两圆的圆心距?
  6. 面试官 | AJAX请求为什么不安全?
  7. gradient descent,计算图,backpropagation
  8. 解读:计数器Counter
  9. c语言编辑学生信息录入的程序,c语言编的学生信息管理系统小程序!!有不足的请指出,谢谢!!...
  10. 30-40岁的程序员们,请把一些账算清楚,为过冬做准备(一)
  11. Android学习—7种形式的Android Dialog使用举例
  12. iphone-common-codes-ccteam源代码 CCCompile.h
  13. 淘宝、天猫评论如何抓取?
  14. Java 点餐小程序源码带管理后台(免费分享)
  15. ryzen linux 搭配显卡,R7 1700配什么显卡?AMD Ryzen7 1700搭配显卡推荐 (全文)
  16. 正则匹配,只保留中文、英文、数字
  17. 1.3 app的urls与 views
  18. HR 必知的 360 评估
  19. 黑鲨Android系统耗电高,已达安卓顶配,黑鲨2pro作为主力机,聊聊使用感受
  20. 用户输入M,N值,从1至N开始顺序循环数数,每数到M输出该数值,直至全部输出。写出C程序(约瑟夫环问题)

热门文章

  1. Win+数字 win7快捷键
  2. 浅谈数明深力科隔离驱动器SLMi8235BD 车载充电器(OBC)方案
  3. AnchorFree系列算法详解
  4. java注解之运行时修改字段的注解值
  5. WPF实现球面放大镜效果
  6. android 鸟兽大战类的设计,大班科学活动:鸟兽大战
  7. LINUX——各个命令合集(持续性ing)
  8. 第 9 部分:Web 2.0 用户界面技术
  9. matlab仿真技术大作业,matlab仿真技术大作业.docx
  10. 房贷新政满月:多个城市楼市回暖 七折利率未现身