2019独角兽企业重金招聘Python工程师标准>>>

前言

人工智能的诞生可以追溯到上世纪50年代,在达特茅斯会议上,麦卡锡提出了AI的概念,但在初期的热度过后,人工智能的发展经历了多次低谷,直到从90年代中末期开始至今的这近二十年的时间里,人工智能才真正迎来了黄金时期。尤其是在近10年来,各方面因素都推动其不断发展:理论上,机器学习,尤其是统计学习和神经网络理论不断突破,效果显著;外部环境上,软硬件技术的进步为人工智能模型的实现提供了足够的计算能力;此外,极为重要的一个因素就是在数据方面,大数据技术的发展使人工智能终于摆脱了数据的桎梏,可以在充足的样本基础上提升模型的能力。可以说,现在各领域智能模型的研发绝大多数都离不开大数据技术的支持。

反过来看,人工智能对大数据技术同样有着极为重要的作用。一方面,对于利用大数据技术收集到的数据需要通过一些智能分析过程才能发现其中的价值;另一方面,通过对已有数据的智能分析,我们可以推导出更多的数据特征,甚至进一步指导数据生产的方向。所以在今天我们谈起大数据的利用,都不可避免地涉及到人工智能、机器学习等概念。

敏捷大数据平台栈作为一个实时数据基础设施平台,是对大数据理论与技术进一步发展的成果,自然也会有对智能化方面的研究与布局。敏捷大数据智能化的主要目标就是,结合敏捷大数据实施理念,研发灵活的、轻量化的智能模型,并在敏捷大数据平台上对数据流进行实时智能化处理,最终实现一站式的大数据智能分析实践。

为实现上述目标,我们对人工智能、机器学习、实时运算等技术,以及相关业务领域知识,乃至产品用户体验都进行了深入的研究与分析,本系列文章将把我们的理念和在上述过程中所获得的一些经验、成果与大家分享。

实时数据智能处理

如本平台之前一系列文章所述,随着技术的发展,我们能够获得前所未有的海量数据,如果能够快速、高效地对这些数据进行处理,发现其中的高价值信息,无疑可以极大提升企业的应变能力,从而在复杂且易变的业务场景中迅速地做出战术乃至战略上的调整。因此,实时数据处理已成为未来大数据技术发展的主要方向。数据处理的实时化必然会对与数据紧密相关的智能分析模型造成影响,可以说,为了快速识别、适应外部环境的变化情况,各组织已经开始将数据实时处理能力与AI能力相结合,实现智能数据分析业务的快速交付。

实际上,针对实时数据流的智能化处理技术已经在很多行业中得到了先验。例如在互联网直播领域,基于视频流的实时滤镜、实时特效算法已经在快手、抖音等众多APP中普遍使用,而国外的Twitch等直播网站,也推出了实时游戏数据分析等AI插件来增强直播效果;在体育数据领域,基于实时赛况的球队、球员数据统计分析和赛况走势预测也在各体育数据提供商处,如Opta Sports等,得到了应用;在交通领域,基于实时交通信息的路况拥堵预测系统也已经开始实施。此类例子不一而足,但都反映了实时AI数据处理已经在不同领域、不同业务场景下得到了广泛应用,并且发挥了不可取代的作用。

在金融领域的许多场景中,对于实时AI数据处理同样存在有众多需求,如实时风控、实时数据预测、实时异常检测、实时用户分析等等。下图为实时产品推荐的一个数据流图,可以用于金融产品推荐场景中,例如网贷、保险、基金、股票等产品。

该图描述了如下过程:在交互端我们可以通过埋点获得大量的、不同用户的行为数据,这些数据将被企业实时数据平台采集,与用户、产品及其他数据一起提供给计算层的各类模型,如用户兴趣模型、产品画像模型等。这些模型对用户和产品进行特征刻画,最终提供给推荐模型计算、排序、过滤得到最终的推荐列表。这一过程中我们可以根据采集到的实时用户行为数据流对用户兴趣模型进行更新和校正,从而实现对用户所感兴趣内容的实时追踪。上图没有体现的一个过程是对产品画像模型的实时更新,尽管相对用户的行为数据而言,产品的特征数据相对稳定,但在实际当中还是有不少产品对时效性要求很高,其画像特征也需要我们进行实时的维护,例如证券市场的数据信息等。这些产品数据流可以通过其他渠道汇总进入企业实时数据平台之中,并提供给产品画像模型进行产品特征的重构,最终提供给推荐模型进行产品推荐。一个好的实时产品推荐系统可以灵敏捕捉用户的需求、响应产品的变化,可以高效地针对用户开展个性化精准营销,提升用户体验度的同时还能够提高获客和关单数量,产生巨大的业务价值。

在上图中企业实时数据平台扮演了为推荐模型提供实时数据的重要任务。在一个敏捷的数据环境中,敏捷大数据就平台可以很好地支持上述工作,一种实现架构如下图所示:

在该图中,dbus和wormhole可以方便对接多种不同数据源,实时获取数据,将数据pipeline源头实时化。另外wormhole支持流上处理,很适合接入产品画像模型和用户兴趣模型对产品与用户的特征进行实时刻画,这些特征经过存储后由moonbox根据需要进行抽取,输入推荐模型得到需要的推荐列表,最终返回给交互端。此外,如果加上davinci数据BI的支持,我们还可以轻松地实现实时业务指标监控,便于我们对推荐效果进行评估。整个过程灵活、便捷地整合了多种不同开源平台以快速搭建实时数据应用,还可以根据需要随时切换开源选型,支持快速迭代试错,结合已有的算法模型就能够迅速支持实现智能用户产品实时推荐这一场景。

敏捷AI

如前文所述,在实时AI数据处理过程中,基于敏捷大数据的各项业务组件,结合第三方的开源构件,通过简单配置即可快速编排、敏捷地实现算法运行的底层支持架构。这使得整个系统中看起来唯一的麻烦之处在于我们还要事先开发好各种智能模型,这对于一些业务组织来说还是有一定的技术门槛;此外对于某些业务来说,快速推进和成本控制才是首要考虑的因素,那么针对性地定制化开发智能算法模型,并调整调用接口使之可以接入实时数据架构之中,就显得比较笨拙。例如很多数据分析的业务人员,也许不需要太过精准的模型性能,但最好能够保证分析系统实施的便捷性、业务逻辑实现的迅捷性。我们已经让数据处理变得敏捷,那么如何将数据智能也变得更加敏捷呢?为了解决这一问题,我们提出了敏捷AI的实施思路,即在现有敏捷大数据产品的基础之上,基于业务场景设计开发一系列可插拔的实时智能模型算子,这些模型涵盖了业务场景内常见的智能化数据分析需求,具有较强的通用性和复用性,能够无缝接入敏捷大数据平台上的实时数据流并向平台输出分析结果,根据需要实时流入各业务端,最终实现基于实时数据流的智能分析过程。在敏捷大数据产品和敏捷AI的支持下,业务人员可以根据业务场景快速构建从实时数据处理平台到实时数据智能分析,再到实时数据展示的整个智能化数据治理流程,并可根据效果灵活调整试错,极大降低实时智能化业务分析的实施成本。

在上述敏捷AI的实施思路下,我们着手构建敏捷AI算法库,这是一套基于业务领域划分的轻量级通用数据模型集合。其中的每个模型的设计应该遵循以下原则:

  • 轻量级,对模型复杂度进行适当的控制保证数据处理的实时性;

  • 独立性,尽量减少环境依赖或保证环境的部署独立性,避免由模型引入给系统整体带来的环境依赖变动;

  • 单一性,各模型功能尽量单一,保证各模型功能的平行性;

  • 数据普适性,除部分模型存在一些必需的特征外,各模型应保证对接入数据的普遍适应能力,通过一定的配置或映射即可以适应绝大多数的业务场景。

为了实现上述要求,我们在研发模型时将不可避免地在某些方面做出一些取舍,例如模型若想通用必将会导致性能的一定程度下降,如何在这些矛盾中寻求一个合理的折中,也是在设计时需要考虑的问题。目前,我们已经针对一些领域开始研发敏捷AI模型,经过实际测试与应用后,不久的将来就将整合进现在的敏捷大数据产品栈中。此外,在未来我们还可以公布相关接口和规约,让用户也有能力将自己的模型加入到库中。

结语

实时数据的智能化分析是未来大数据技术和人工智能技术发展的重要方向之一,如何降低这一实施过程的经济成本、时间成本、技术成本以及变更成本,是敏捷大数据和敏捷AI着重解决的关键问题。本文结合敏捷大数据产品提出了一种解决思路,希望我们的产品能够帮助各组织方便、快速、灵活地构建自己的实时大数据智能分析系统。来源:宜信技术学院

作者:井玉欣

宜信技术学院

转载于:https://my.oschina.net/u/4007037/blog/2960955

敏捷大数据与敏捷AI相关推荐

  1. 以企业级实时数据平台为例,了解何为敏捷大数据

    敏捷大数据,即在敏捷理念原则指导下,构建出一系列通用平台工具,和一整套大数据应用全生命周期方法学,以支撑更轻量.更灵活.更低门槛的大数据实践.本文从理论层面整体解释我们所理解的"敏捷大数据& ...

  2. 大数据中台向AI中台演进是大势所趋?

    来源 | 宜信技术学院(ID:CE_TECH) 导读:自从阿里巴巴提出"中台"的概念之后,这个词汇就成为各领域企业关注的焦点,很多人在考虑建设自己的中台.然而,构建中台是否真有必要 ...

  3. 【推荐】2020,2021网易数字+大会(云原生微服务+大数据数据库+网易AI实践集合+其他) - (共187份)

    [推荐]2020,2021网易数字+大会(云原生&微服务+大数据&数据库+网易AI实践集合+其他) - (共187份) 下载地址:https://download.csdn.net/d ...

  4. 解读至强的小秘密之 Analytics Zoo,打通大数据平台与 AI 应用的直通车

    人工智能(AI)的发展,离不开算力.算法和数据这个"铁三角"组合的驱动,它们之间的平衡发展,对 AI 技术的快速进步和实践落地起到了至关重要的作用.因此,在先进算法为 AI 应用提 ...

  5. 共建大数据+声纹AI新安全时代:得意音通与同盾科技达成战略合作

    9月5日,北京得意音通技术有限责任公司与同盾科技有限公司联合对外宣布达成战略合作关系,双方将充分发挥各自领域的技术.资源.客户群等优势,共同推动智能语音技术在金融等行业的应用.得意音通总经理倪鸣.同盾 ...

  6. 大数据和人工智能AI的联系和区别

    大数据和人工智能两个词是我们现在频繁听到的两个词汇,那么这两者之间到底有什么联系 首先我们要了解到什么是大数据?什么是人工智能?大数据就是一种规模大到在获取.存储.管理.分析方面大大超出了传统数据库软 ...

  7. 大数据拓客AI智能营销有什么作用

    前言 现如今,经济行业进入了大数据时代,在大多数商业领域中,新客户的获取能力成为业务发展的重要指标.许多企业处于转型阶段,在以往的销售环节中,依靠电话黄页.广告,活动,网络搜索或朋友推荐的传统销售模式 ...

  8. (4.28-5.4)【大数据新闻速递】数字中国峰会成功举办;“浙江数据知识产权登记平台”上线;贵州大数据活跃;AI教父从谷歌离职

    01[2023年数字中国建设峰会数字福建分论坛成功举办] 2023年数字中国建设峰会数字福建分论坛由福建省人民政府主办,福建省数字福建建设领导小组办公室.数字中国研究院(福建)和福建省大数据集团承办. ...

  9. 人工智能Java SDK:大数据如何与AI技术结合使用 - kafka - 句向量提取【支持15种语言】

    kafka-句向量提取[支持15种语言]SDK 句向量是指将语句映射至固定维度的实数向量. 将不定长的句子用定长的向量表示,为NLP下游任务提供服务. 支持 15 种语言: Arabic, Chine ...

最新文章

  1. android 图片绑定按钮,Android编程实现给Button添加图片和文字的方法
  2. [Qt教程] 第36篇 网络(六)UDP
  3. Java内存泄漏介绍
  4. 工作118:封装一个带有对话框的button组件
  5. wireshark基本使用及介绍
  6. TextField对象相关的属性和方法总结
  7. shell 删除了hdfs 文件_从零开始学大数据(三) Shell操作HDFS文件系统-中
  8. oracle用游标,Oracle游标使用全解
  9. ssh 远程登录_C.4 彻底解决-新版本Sentaurus TCAD的SSH远程登录问题!!!
  10. 栈在表达式求值中的应用
  11. Doris支持spark导入设计文档
  12. 算法第四版练习题答案
  13. 初中计算机成绩评定方案,初中信息技术学科评价方案
  14. Windows10操作系统搭建C语言开发环境
  15. 【论文阅读笔记】Securing software by enforcing data-flow integrity
  16. linux slab 内存 清理,linux系统slab内存占用
  17. 华东理工c语言题库,华东理工大学c语言.doc
  18. HTML5浪漫生日祝福电子贺卡网页模板(HTML5+CSS3+JS)_520表白/七夕情人节表白/告白网页制作/生日快乐html模板...
  19. 全面的关于OLAP数仓总结
  20. netty 通道接口定义

热门文章

  1. 爱立信部署Verizon提供的SD-WAN产品
  2. Eclipse 进行Linux远程开发
  3. 关于ROG魔霸3不识别西部数据SN750问题
  4. impact检测cable失败
  5. mysql blackhole缺点_MySQL:BlackHole
  6. 教你取消Mac上红色通知标记,强迫症朋友的福利!
  7. 数据结构——时间复杂度和算法复杂度
  8. Hadoop和Spark学习日记4
  9. @河南省文旅厅 携手让非遗“活”起来!
  10. 2022虎年新UI春节送祝福微信小程序源码下载支持多种流量主