阿里巴巴开源AI技术：强化学习在阿里的技术演进与业务创新

向AI转型的程序员都关注了这个号????????????

机器学习AI算法工程公众号：datayx

当前的机器学习算法大致可以分为有监督的学习、无监督的学习和强化学习(Reinforcement Learning)等。强化学习和其他学习方法不同之处在于强化学习是智能系统从环境到行为映射的学习，以使奖励信号函数值最大。如果智能体的某个行为策略导致环境正的奖赏，那么智能体以后产生这个行为策略的趋势便会加强。强化学习是最接近于自然界动物学习的本质的一种学习范式。然而强化学习从提出到现在，也差不多有半个世纪左右，它的应用场景仍很有限，规模大一点的问题就会出现维数爆炸，难于计算，所以往往看到的例子都是相对简化的场景。

最近因为与深度学习结合，解决海量数据的泛化问题，取得了让人印象深刻的成果。包括 DeepMind 的自动学习玩 ATARI 游戏，以及 AlphaGo 在围棋大赛中战胜世界冠军等，其背后的强大武器就是深度强化学习技术。相对于 DeepMind和学术界看重强化学习的前沿研究，阿里巴巴则将重点放在推动强化学习技术输出及商业应用。在阿里移动电商平台中，人机交互的便捷，碎片化使用的普遍性，页面切换的串行化，用户轨迹的可跟踪性等都要求我们的系统能够对变幻莫测的用户行为以及瞬息万变的外部环境进行完整地建模。平台作为信息的载体，需要在与消费者的互动过程中，根据对消费者(环境)的理解，及时调整提供信息(商品、客服机器人的回答、路径选择等)的策略，从而最大化过程累积收益(消费者在平台上的使用体验)。基于监督学习方式的信息提供手段，缺少有效的探索能力，系统倾向于给消费者推送曾经发生过行为的信息单元(商品、店铺或问题答案)。而强化学习作为一种有效的基于用户与系统交互过程建模和最大化过程累积收益的学习方法，在一些阿里具体的业务场景中进行了很好的实践并得到大规模应用。

在搜索场景中，阿里巴巴对用户的浏览购买行为进行 MDP 建模，在搜索实时学习和实时决策计算体系之上，实现了基于强化学习的排序策略决策模型，从而使得淘宝搜索的智能化进化至新的高度。双 11 桶测试效果表明，算法指标取得了近 20% 的大幅提升。

在推荐场景中，阿里巴巴使用了深度强化学习与自适应在线学习，通过持续机器学习和模型优化建立决策引擎，对海量用户行为以及百亿级商品特征进行实时分析，帮助每一个用户迅速发现宝贝，提高人和商品的配对效率，算法效果指标提升了 10% - 20%。

在智能客服中，如阿里小蜜这类的客服机器人，作为投放引擎的 agent，需要有决策能力。这个决策不是基于单一节点的直接收益来确定，而是一个较为长期的人机交互的过程，把消费者与平台的互动看成是一个马尔可夫决策过程，运用强化学习框架，建立一个消费者与系统互动的回路系统，而系统的决策是建立在最大化过程收益上，来达到一个系统与用户的动态平衡。

在广告系统中，如果广告主能够根据每一条流量的价值进行单独出价，广告主便可以在各自的高价值流量上提高出价，而在普通流量上降低出价，如此容易获得较好的 ROI，与此同时平台也能够提升广告与访客间的匹配效率。阿里巴巴实现了基于强化学习的智能调价技术，对于来到广告位的每一个访客，根据他们的当前状态去决定如何操作调价，给他们展现特定的广告，引导他们的状态向我们希望的方向上做一步转移，在双 11 实测表明，CTR，RPM 和 GMV 均得到了大幅提升。

当然，强化学习在阿里巴巴内部的实践远不止此，鉴于篇幅限制，这本电子书只介绍了其中的一部分。未来深度强化学习的发展必定是理论探索和应用实践的双链路持续深入。希望这本电子书能抛砖引玉，给工业界和学术界带来一些输入，共同推进深度强化学习的更大发展。

《阿里巴巴开源AI技术：强化学习在阿里的技术演进与业务创新》

获取方式：

关注微信公众号 datayx 然后回复 强化学习 即可获取。

AI项目体验地址 https://loveai.tech

部分章节样例

阅读过本文的人还看了以下文章：

【全套视频课】最全的目标检测算法系列讲解，通俗易懂！

《美团机器学习实践》_美团算法团队.pdf

《深度学习入门：基于Python的理论与实现》高清中文PDF+源码

python就业班学习视频，从入门到实战项目

2019最新《PyTorch自然语言处理》英、中文版PDF+源码

《21个项目玩转深度学习：基于TensorFlow的实践详解》完整版PDF+附书代码

《深度学习之pytorch》pdf+附书源码

PyTorch深度学习快速实战入门《pytorch-handbook》

【下载】豆瓣评分8.1,《机器学习实战:基于Scikit-Learn和TensorFlow》

《Python数据分析与挖掘实战》PDF+完整源码

汽车行业完整知识图谱项目实战视频(全23课)

李沐大神开源《动手学深度学习》，加州伯克利深度学习（2019春）教材

笔记、代码清晰易懂！李航《统计学习方法》最新资源全套！

《神经网络与深度学习》最新2018版中英PDF+源码

将机器学习模型部署为REST API

FashionAI服装属性标签图像识别Top1-5方案分享

重要开源！CNN-RNN-CTC 实现手写汉字识别

yolo3 检测出图像中的不规则汉字

同样是机器学习算法工程师，你的面试为什么过不了？

前海征信大数据算法：风险概率预测

【Keras】完整实现‘交通标志’分类、‘票据’分类两个项目，让你掌握深度学习图像分类

VGG16迁移学习，实现医学图像识别分类工程项目

特征工程(一)

特征工程(二) :文本数据的展开、过滤和分块

特征工程(三):特征缩放,从词袋到 TF-IDF

特征工程(四): 类别特征

特征工程(五): PCA 降维

特征工程(六): 非线性特征提取和模型堆叠

特征工程(七)：图像特征提取和深度学习

如何利用全新的决策树集成级联结构gcForest做特征工程并打分？

Machine Learning Yearning 中文翻译稿

蚂蚁金服2018秋招-算法工程师（共四面）通过

全球AI挑战-场景分类的比赛源码(多模型融合)

斯坦福CS230官方指南：CNN、RNN及使用技巧速查（打印收藏）

python+flask搭建CNN在线识别手写中文网站

中科院Kaggle全球文本匹配竞赛华人第1名团队-深度学习与特征工程

不断更新资源

深度学习、机器学习、数据分析、python

搜索公众号添加： datayx

长按图片，识别二维码，点关注

机器学习算法资源社群

不断上传电子版PDF资料

技术问题求解

QQ群号： 333972581

长按图片，识别二维码

海淘美妆

阿里巴巴开源AI技术：强化学习在阿里的技术演进与业务创新相关推荐

强化学习在阿里广告排序和竞价中的应用
文章目录业务背景数学模型和优化方法排序公式设计系统简介离线仿真模块离线强化学习进行排序策略模型初始化在线排序策略模型优化实验分析业务背景主要内容源于阿里的<强化学习在阿里的技 ...
清华大学人工智能研究院开源“天授”强化学习平台
深度强化学习(deep RL)近年来取得了令人瞩目的进步,在Atari游戏.围棋等领域战胜了人类.但是,在面对不确定环境.不完全信息的任务时仍然面临很大的挑战.如何求解非完全信息.不确定条件下的决策问 ...
AI 发展方向大争论：混合AI ？强化学习？将实际知识和常识整合到AI中？
作者:Ben Dickson是一名软件工程师,还是探讨技术在如何解决和带来问题的TechTalks博客的创始人. 对于AI界来说意义重大,这归功于深度学习领域取得了惊人的进步,AI的这个分支因收集.存 ...
只有大规模算力才能救AI？强化学习之父 vs 牛津教授掀起隔空论战
乾明安妮发自凹非寺量子位出品 | 公众号 QbitAI 70年来, 人们在AI领域"一直连续犯着同样的错误". 这是"强化学习之父"理查德·萨顿(Ri ...
Github 1300+ 星！旷视开源的深度强化学习绘画智能体论文解读
借助于强化学习,AI也能画画了.上图为旷视提出的绘画机器人画故宫的过程. 本文中旷视研究院介绍了团队在机器仿人类绘画方面的最新研究,方法在四个大型数据集上表现优异.通过结合深度强化学习方法和神经网络渲 ...
【DQN】解析 DeepMind 深度强化学习 (Deep Reinforcement Learning) 技术
原文:http://www.jianshu.com/p/d347bb2ca53c 声明:感谢 Tambet Matiisen 的创作,这里只对最为核心的部分进行的翻译 Two years ago, a ...
【17】强化学习 17章前沿技术
文章目录名词离轨策略折扣过程折扣系数价值函数广义策略迭代(4.6节)或者"行动器一评判器"算法正文 17.1 广义价值函数和辅助任务 1.广义价值函数是什么? 2.辅 ...
赛题分析：AI决策•强化学习落地挑战赛——学习指定平等的促销策略
赛事官方入口:https://codalab.lisn.upsaclay.fr/competitions/823#learn_the_details-overview 深度强化实验室的中文说明: ht ...
AI之强化学习、无监督学习、半监督学习和对抗学习
1.强化学习文章目录 1.强化学习 1.1 强化学习原理 1.2 强化学习与监督学习 2.无监督学习 3.半监督学习 4.对抗学习强化学习(英语:Reinforcement Learning,简称 ...

阿里巴巴开源AI技术：强化学习在阿里的技术演进与业务创新

阿里巴巴开源AI技术：强化学习在阿里的技术演进与业务创新相关推荐

最新文章

热门文章