作者:高旸(吾与),阿里巴巴高级技术专家

1. 前言

随着互联网“人口红利”的“消耗殆尽”,基于“T+1”或者离线计算的机器学习平台及推荐系统转化率与效果日趋“平淡”。后疫情时代的新社会模式及经济形态必将催生出新的商业模式,在线业务及相关应用场景的流量呈现井喷式发展,常规的离线系统及离线机器学习平台已无法满足业务发展要求。人口红利吃尽之后,基于大数据及AI平台的业务系统在时间维度上的思考将变得至关重要,通过业务系统实时化向时间要价值已经成为主流趋势。基于流式计算引擎的在线机器学习平台将越来越被重视, 通过增量模型的准实时或实时推荐系统更能“因时而异” 充分捕捉目标用户瞬息万变的需求,从而进行精准推荐和变现。实时推荐系统也从最早的电商场景, 扩展到社交场景, 在线教育场景, 游戏场景及更广阔的在线场景。

本文介绍重点介绍基于阿里云大数据及AI产品家族的实时计算Flink及PAI Alink机器学习算法平台,以及该产品组合在实时推荐场景(适用于电商、游戏及在线教育解决方案)、实时评分卡场景(适用于金融、安全及营销风控解决方案)以及异常检测场景(适用于工业领域及其他产业互联网领域)的场景应用。

2. 实时计算引擎及机器学习算法平台介绍

2.1 阿里云实时计算Flink

阿里云实时计算Flink作为Apache Flink创始团队的商业化产品,从极致(较传统微批模式)的实时数据处理维度,为企业大数据处理及业务实时化提供了可能。商业化的统一开发及管控平台,成熟、准标准化的SQL及元数据管理能力,让业务人员及数据分析师大幅度提升开发效率, SQL配合UDF基本可以解决80%+的业务场景。企业级的State Backend – Gemini大幅度提升IO效率,整体执行引擎较开源3倍以上的性能提升。

基于阿里云Kubernetes的全新Serverless全托管云上实时计算Flink服务,使用全新的硬多租技术方案,基于VPC提供网络层隔离,阿里云安全容器提供计算层隔离,基于弹性云盘提供存储级隔离,通过用户级Master及超级Master实现极致资源弹性下的多租户隔离。基于负载的细粒度弹性伸缩, 充分提高资源使用率, 降低整体TCO。新一代的Serverless实时计算Flink产品为在线机器学习算法平台提供了坚实(“时“)的基础。

2.2 阿里云PAI Alink机器学习算法平台

与SparkML算法相比,Alink算法更全面,性能更优异,场景更丰富(同时支持流批),本地化更出色(支持中文分词)是快速搭建在线机器学习系统的不二之选。

3. 基于实时计算Flink-机器学习场景介绍:

3.1实时推荐场景:

从根据用户点击和浏览的内容实时推送的电商场景,到社交媒体根据用户阅读的内容实时“喂送“的实时推荐系统,再到游戏推送平台根据用户行为实时推送的游戏系统,实时推荐系统俨然已经成为了在线业务系统的核心。

阿里云PAI Alink算法平台提供: 召回(例如:ALS、FM、Deep Walk等),特征编码(OneHot、MultiHot及GBDT等) ,排序(LR及FFM等)以及Online算法(OnlineFM及Ftrl)流式和批式的算法能力全流程构建能力。配合阿里云实时计算Flink海量样本实时拼接能力,能够快速端到端实现离在线一体化的推荐系统。

通过特征工程批式训练初始化模型,通过实时样本拼接配合流式算法(OnlineFM及Ftrl) 生成增量的模型,最终提供统一模型的整体结果预测,更实时更动态的提升推荐效果。

3.2 评分卡场景介绍:

阿里云实时计算Flink及PAI Alink产品组合可以帮助客户快速搭建实时金融风控解决方案。评分卡在金融场景有广泛的应用,能否构建准确的评分卡模型关系到能否安全的开展支付、贷款、保险、理财、信用等业务,评分卡常被用于信用评估领域,比如信用卡风险评估,贷款发放;评分卡也会用来作为分数评估,比如客户质量打分,信用分。涉及金融的场景都需要:可追溯、可审计及可解释,如下的评分卡模型就具备很好的可解释性。例如:用户年龄27岁,性别男,婚姻状况已婚,学历本科,月收入10000。根据如下评分卡,该用户的评分为:评分 = 223(基准分) + 8(年龄) + 4(性别评分)+ 8(婚姻状况)+ 8(学历评分)+ 13(月收入评分)= 264分。

阿里云实时计算Flink及PAI Alink产品组合提供最先进的评分卡解决方案, 分箱将每个特征按照需求进行分箱训练;评分卡训练生成评分模型;样本稳定性通过PSI等指标衡量样本稳定性;模型评估,评估二分类模型效果。该解决方案支持多特征维度模型训练,支持大规模样本建模。

3.3 异常检测场景

异常检测及时序分析是一个较为常见并且应用广泛的场景,在工业界的应用尤甚。利用阿里云实时计算Flink及PAI Alink产品组合可以帮助客户快速搭建异常检测解决方案。实时计算Flink强大的性能与Alink丰富的算法库机相结合,可以帮助数据分析和应用开发人员实现数据处理、特征工程、模型训练、预测等多个环节端到端的处理。在异常检测场景下,Alink支持时间序列异常检测、异常集检测两个核心场景。

在时间序列异常检测中,Alink具备种类齐全、批流一体、性能优异、并行计算、使用方便等优势。针对不同的使用场景,分为基于时序预测和时序分解两种类型:

  • 时序预测算法适合流式数据,即时响应
  • 时序分解算法适合全量数据,能够从全量数据中挖掘有效信息。

Alink也提供了时序预测和时序分解算法,用户可以单独使用。

异常集检测是风控场景的核心诉求之一。Alink 异常集检测中具备如下优势:

  • 巨型图支持 - 支持上亿边的图数据
  • 在线更新 - 随时加上异常种子均可局部异常检测
  • 快速运算 - 只对局部图进行运算,节约计算资源

在盗用、欺诈、作弊、商户、借贷套现等各风险域都有异常集检测的需求存在。基于GraphRAD,Alink实现了半监督的异常集检测,RiskCommunityDetector。算法输入连接关系以及已知的黑点,即可对全图进行分析,捕获其它黑用户,降低业务运行过程中的风险,为业务安全保驾护航,避免可能发生的重大损失。

4. 后记

通过上文的介绍,想必大家已经对阿里云实时计算Flink及PAI产品组合跃跃欲试了,可以快速开通全托管实时计算Flink 体验最新的Serverless产品服务。实时计算Flink触达直通车:https://www.aliyun.com/product/bigdata/sc

通过开通阿里云E-MapReduce Dataflow集群,快速搭建基于阿里云实时计算Flink的PAI Alink算法平台。PAI Alink触达直通车:https://www.aliyun.com/product/emapreduce

原文链接
本文为阿里云原创内容,未经允许不得转载。

基于实时计算Flink的机器学习算法平台及场景介绍相关推荐

  1. 基于实时计算Flink版的场景解决方案demo

    简介:通过两个demo分享技术实时计算flink版的解决方案 本文整理自阿里云智能行业解决方案专家GIN的直播分享 直播链接:https://developer.aliyun.com/learning ...

  2. 实时计算 Flink 版总体介绍

    简介:实时计算 Flink 版(Alibaba Cloud Realtime Compute for Apache Flink,Powered by Ververica)是阿里云基于 Apache F ...

  3. 如何使用实时计算 Flink 搞定实时数据处理难题?

    简介:如何使用实时计算 Flink 搞定实时数据处理难题?本文由阿里巴巴高级技术专家邓小勇老师分享,从实时计算的历史回顾着手,详细介绍了阿里云实时计算 Flink 的核心优势与应用场景,文章内容主要分 ...

  4. Alink 是阿里巴巴基于实时计算引擎 Flink 研发的新

    0x00 摘要 Alink 是阿里巴巴基于实时计算引擎 Flink 研发的新一代机器学习算法平台,是业界首个同时支持批式算法.流式算法的机器学习平台.二分类评估是对二分类算法的预测结果进行效果评估.本 ...

  5. 基于实时计算(Flink)与高斯模型构建实时异常检测系统

    案例与解决方案汇总页: 阿里云实时计算产品案例&解决方案汇总 1. 概述 异常检测(anomaly detection)指的是对不符合预期模式或数据集(英语:dataset)中其他项目的项目. ...

  6. 流批一体机器学习算法平台

    发布会传送门 产品详情 针对正在兴起的机器学习广泛而多样的应用场景,阿里巴巴计算平台基础算法团队在2017年开始基于Flink研发新一代的机器学习算法平台.该项目名称定为Alink,取自相关名称(Al ...

  7. 机器学习算法平台alink_Alink漫谈(十二) :在线学习算法FTRL 之 整体设计

    Alink漫谈(十二) :在线学习算法FTRL 之 整体设计 [Toc] 0x00 摘要 Alink 是阿里巴巴基于实时计算引擎 Flink 研发的新一代机器学习算法平台,是业界首个同时支持批式算法. ...

  8. 机器学习算法平台alink_阿里正式开源通用算法平台Alink,“双11”将天猫推荐点击率提升4...

    整理 | 若名出品 | AI科技大本营(ID:rgznai100)近日,阿里云计算部门已在 GitHub 上发布了其 Alink 平台的"核心代码",并上传了一系列算法库,它们支持 ...

  9. 实时数仓入门训练营:实时计算 Flink 版 SQL 实践

    简介:<实时数仓入门训练营>由阿里云研究员王峰.阿里云高级产品专家刘一鸣等实时计算 Flink 版和 Hologres 的多名技术/产品一线专家齐上阵,合力搭建此次训练营的课程体系,精心打 ...

最新文章

  1. 分享一下python入门知识点-输入与输出教程,不喜勿喷
  2. windows 驱动和应用层的三种通信方式 r3到r0 DeviceIoControl 4种ioctl请求
  3. 洛谷 P1410 子序列(DP)
  4. CentOS 初体验二十五:redis常用命令:sorted set
  5. ES中的RollUp概念
  6. 【bzoj题解】1001 狼抓兔子
  7. Python 内置模块之 logging
  8. 2018亚太CDN峰会开幕,阿里云王海华解读云+端+AI的短视频最佳实践
  9. 北林oj-算法设计与分析-Line up in the canteen(两种解法,附思路)
  10. SpringBoot项目启动时控制台乱码,怎么办?
  11. 记一次easywechat企业付款问题
  12. 网页设计html5留言板代码,web网页设计期末大作业_留言板制作.doc
  13. 免登录实现CSDN博客代码复制(2021.9.26)
  14. java求职简历建议
  15. 免费开源的电路图和PCB绘图软件KiCAD
  16. 计算机无法关闭开机密码,Win10系统开机密码取消不掉如何解决
  17. html海报源码,8款好用的Html5海报制作工具,让你一分钟做出风靡朋友圈海报
  18. re学习笔记(90)攻防世界 - mobile进阶区 - boomshakalaka-3
  19. 2021年第六届数维杯A题 外卖骑手的送餐危机
  20. 安卓获取string.xml文件里的值

热门文章

  1. unity自动生成敌人_Unity 3D做2D坦克大战--敌人自动攻击AI编写
  2. 优秀Java程序员的编程风格
  3. 如何避免_如何避免变频器受负载冲击
  4. python get_len_Python类,特殊方法, __getitem__,__len__, __delitem__
  5. 如何学习c语言 零基础20天学会C语言
  6. dumpbin发现没有入口函数_JavaScript基础之入口函数-2020版
  7. tensorflow gpu安装_tensorflow-gpu安装配置
  8. php 利用个人邮箱,利用 Composer 完善自己的 PHP 框架(二)——发送邮件
  9. element ui 多个子组件_vue前端UI框架,一点都不圆润,盘它!
  10. python鼠标事件 详解_Python selenium键盘鼠标事件实现过程详解