向AI转型的程序员都关注了这个号????????????

机器学习AI算法工程   公众号:datayx

当前的机器学习算法大致可以分为有监督的学习、无监督的学习和强化学 习(Reinforcement Learning)等。强化学习和其他学习方法不同之处在于强化学 习是智能系统从环境到行为映射的学习,以使奖励信号函数值最大。如果智能 体的某个行为策略导致环境正的奖赏,那么智能体以后产生这个行为策略的趋 势便会加强。强化学习是最接近于自然界动物学习的本质的一种学习范式。然 而强化学习从提出到现在,也差不多有半个世纪左右,它的应用场景仍很有限, 规模大一点的问题就会出现维数爆炸,难于计算,所以往往看到的例子都是相 对简化的场景。

最近因为与深度学习结合,解决海量数据的泛化问题,取得了让人印象深刻 的成果。包括 DeepMind 的自动学习玩 ATARI 游戏,以及 AlphaGo 在围棋大赛中 战胜世界冠军等,其背后的强大武器就是深度强化学习技术。相对于 DeepMind和学术界看重强化学习的前沿研究,阿里巴巴则将重点放在推动强化学习技术 输出及商业应用。在阿里移动电商平台中,人机交互的便捷,碎片化使用的普 遍性,页面切换的串行化,用户轨迹的可跟踪性等都要求我们的系统能够对变 幻莫测的用户行为以及瞬息万变的外部环境进行完整地建模。平台作为信息的 载体,需要在与消费者的互动过程中,根据对消费者(环境)的理解,及时调整 提供信息(商品、客服机器人的回答、路径选择等)的策略,从而最大化过程累 积收益(消费者在平台上的使用体验)。基于监督学习方式的信息提供手段,缺 少有效的探索能力,系统倾向于给消费者推送曾经发生过行为的信息单元(商 品、店铺或问题答案)。而强化学习作为一种有效的基于用户与系统交互过程建 模和最大化过程累积收益的学习方法,在一些阿里具体的业务场景中进行了很 好的实践并得到大规模应用。

在搜索场景中,阿里巴巴对用户的浏览购买行为进行 MDP 建模,在搜索 实时学习和实时决策计算体系之上,实现了基于强化学习的排序策略决策模型,从而使得淘宝搜索的智能化进化至新的高度。双 11 桶测试效果表明,算法指标 取得了近 20% 的大幅提升。

在推荐场景中,阿里巴巴使用了深度强化学习与自适应在线学习,通过持 续机器学习和模型优化建立决策引擎,对海量用户行为以及百亿级商品特征进 行实时分析,帮助每一个用户迅速发现宝贝,提高人和商品的配对效率,算法 效果指标提升了 10% - 20%。

在智能客服中,如阿里小蜜这类的客服机器人,作为投放引擎的 agent,需 要有决策能力。这个决策不是基于单一节点的直接收益来确定,而是一个较为 长期的人机交互的过程,把消费者与平台的互动看成是一个马尔可夫决策过程, 运用强化学习框架,建立一个消费者与系统互动的回路系统,而系统的决策是 建立在最大化过程收益上,来达到一个系统与用户的动态平衡。

在广告系统中,如果广告主能够根据每一条流量的价值进行单独出价,广 告主便可以在各自的高价值流量上提高出价,而在普通流量上降低出价,如此 容易获得较好的 ROI,与此同时平台也能够提升广告与访客间的匹配效率。阿里 巴巴实现了基于强化学习的智能调价技术,对于来到广告位的每一个访客,根 据他们的当前状态去决定如何操作调价,给他们展现特定的广告,引导他们的 状态向我们希望的方向上做一步转移,在双 11 实测表明,CTR,RPM 和 GMV 均得到了大幅提升。

当然,强化学习在阿里巴巴内部的实践远不止此,鉴于篇幅限制,这本电 子书只介绍了其中的一部分。未来深度强化学习的发展必定是理论探索和应用 实践的双链路持续深入。希望这本电子书能抛砖引玉,给工业界和学术界带来 一些输入,共同推进深度强化学习的更大发展。

《阿里巴巴开源AI技术:强化学习在阿里的技术演进与业务创新》

获取方式:

关注微信公众号 datayx  然后回复  强化学习  即可获取。

AI项目体验地址 https://loveai.tech

目录 

部分章节样例


阅读过本文的人还看了以下文章:

【全套视频课】最全的目标检测算法系列讲解,通俗易懂!

《美团机器学习实践》_美团算法团队.pdf

《深度学习入门:基于Python的理论与实现》高清中文PDF+源码

python就业班学习视频,从入门到实战项目

2019最新《PyTorch自然语言处理》英、中文版PDF+源码

《21个项目玩转深度学习:基于TensorFlow的实践详解》完整版PDF+附书代码

《深度学习之pytorch》pdf+附书源码

PyTorch深度学习快速实战入门《pytorch-handbook》

【下载】豆瓣评分8.1,《机器学习实战:基于Scikit-Learn和TensorFlow》

《Python数据分析与挖掘实战》PDF+完整源码

汽车行业完整知识图谱项目实战视频(全23课)

李沐大神开源《动手学深度学习》,加州伯克利深度学习(2019春)教材

笔记、代码清晰易懂!李航《统计学习方法》最新资源全套!

《神经网络与深度学习》最新2018版中英PDF+源码

将机器学习模型部署为REST API

FashionAI服装属性标签图像识别Top1-5方案分享

重要开源!CNN-RNN-CTC 实现手写汉字识别

yolo3 检测出图像中的不规则汉字

同样是机器学习算法工程师,你的面试为什么过不了?

前海征信大数据算法:风险概率预测

【Keras】完整实现‘交通标志’分类、‘票据’分类两个项目,让你掌握深度学习图像分类

VGG16迁移学习,实现医学图像识别分类工程项目

特征工程(一)

特征工程(二) :文本数据的展开、过滤和分块

特征工程(三):特征缩放,从词袋到 TF-IDF

特征工程(四): 类别特征

特征工程(五): PCA 降维

特征工程(六): 非线性特征提取和模型堆叠

特征工程(七):图像特征提取和深度学习

如何利用全新的决策树集成级联结构gcForest做特征工程并打分?

Machine Learning Yearning 中文翻译稿

蚂蚁金服2018秋招-算法工程师(共四面)通过

全球AI挑战-场景分类的比赛源码(多模型融合)

斯坦福CS230官方指南:CNN、RNN及使用技巧速查(打印收藏)

python+flask搭建CNN在线识别手写中文网站

中科院Kaggle全球文本匹配竞赛华人第1名团队-深度学习与特征工程

不断更新资源

深度学习、机器学习、数据分析、python

 搜索公众号添加: datayx  

长按图片,识别二维码,点关注


机器学习算法资源社群

不断上传电子版PDF资料

技术问题求解

 QQ群号: 333972581  

长按图片,识别二维码


海淘美妆

阿里巴巴开源AI技术:强化学习在阿里的技术演进与业务创新相关推荐

  1. 强化学习在阿里广告排序和竞价中的应用

    文章目录 业务背景 数学模型和优化方法 排序公式设计 系统简介 离线仿真模块 离线强化学习进行排序策略模型初始化 在线排序策略模型优化 实验分析 业务背景 主要内容源于阿里的<强化学习在阿里的技 ...

  2. 清华大学人工智能研究院开源“天授”强化学习平台

    深度强化学习(deep RL)近年来取得了令人瞩目的进步,在Atari游戏.围棋等领域战胜了人类.但是,在面对不确定环境.不完全信息的任务时仍然面临很大的挑战.如何求解非完全信息.不确定条件下的决策问 ...

  3. AI 发展方向大争论:混合AI ?强化学习 ?将实际知识和常识整合到AI中 ?

    作者:Ben Dickson是一名软件工程师,还是探讨技术在如何解决和带来问题的TechTalks博客的创始人. 对于AI界来说意义重大,这归功于深度学习领域取得了惊人的进步,AI的这个分支因收集.存 ...

  4. 只有大规模算力才能救AI?强化学习之父 vs 牛津教授掀起隔空论战

    乾明 安妮 发自 凹非寺 量子位 出品 | 公众号 QbitAI 70年来, 人们在AI领域"一直连续犯着同样的错误". 这是"强化学习之父"理查德·萨顿(Ri ...

  5. Github 1300+ 星!旷视开源的深度强化学习绘画智能体论文解读

    借助于强化学习,AI也能画画了.上图为旷视提出的绘画机器人画故宫的过程. 本文中旷视研究院介绍了团队在机器仿人类绘画方面的最新研究,方法在四个大型数据集上表现优异.通过结合深度强化学习方法和神经网络渲 ...

  6. 【DQN】解析 DeepMind 深度强化学习 (Deep Reinforcement Learning) 技术

    原文:http://www.jianshu.com/p/d347bb2ca53c 声明:感谢 Tambet Matiisen 的创作,这里只对最为核心的部分进行的翻译 Two years ago, a ...

  7. 【17】 强化学习 17章 前沿技术

    文章目录 名词 离轨策略 折扣过程 折扣系数 价值函数 广义策略迭代(4.6节)或者"行动器一评判器"算法 正文 17.1 广义价值函数和辅助任务 1.广义价值函数是什么? 2.辅 ...

  8. 赛题分析:AI决策•强化学习落地挑战赛——学习指定平等的促销策略

    赛事官方入口:https://codalab.lisn.upsaclay.fr/competitions/823#learn_the_details-overview 深度强化实验室的中文说明: ht ...

  9. AI之强化学习、无监督学习、半监督学习和对抗学习

    1.强化学习 文章目录 1.强化学习 1.1 强化学习原理 1.2 强化学习与监督学习 2.无监督学习 3.半监督学习 4.对抗学习 强化学习(英语:Reinforcement Learning,简称 ...

最新文章

  1. Integer的自动缓存
  2. 【ACM】杭电OJ 2044 2045
  3. 01_Linux系统系统语言查询,设置Xshell工具,中文显示,测试Xshell中文字符显示,Linux中文显示乱码设置
  4. 全卷积(FCN)论文阅读笔记:Fully Convolutional Networks for Semantic Segmentation
  5. vue引入id3_Vue页面间传值,客户端数据存储,以及父子组件间props传值
  6. 大话设计模式之策略模式
  7. python编译成c代码_python如何调用c编译好可执行程序
  8. AttackerKB:免费的众筹漏洞评估知识库
  9. android只有域名打包封装成apk,一个Android Studio工程根据网址打包出不同的apk
  10. css3 颜色 文本
  11. php项目升级包制作,PHP项目安全:PHP的安装与升级
  12. Zircon DDK入门指南
  13. css如何放大网页字体大小怎么调整,CSS网页设计时关于字体大小的设计
  14. Code.V光学设计学习(一)——入门介绍
  15. android+自定义跑马灯,Android自定义图文跑马灯效果
  16. netty做一个posp的网络_Java网络通信基础系列-Netty实现HTTP服务
  17. 7-7 选民投票 (20分)(不区分大小写投票)
  18. JSON Viewer 安装
  19. 微信小程序组件化的解决方案
  20. 在电脑双屏使用时,搜狗输入法在别的屏幕(转)

热门文章

  1. Java Web Start简介
  2. 恢复删除的Exchange邮箱
  3. cocos2d-x帧动画实现(续)
  4. java应用程序打包成可jar执行程序
  5. 华为机试HJ13:句子逆序
  6. 串灯控制盒去掉怎么接_暖通小兵设计系列16-集线盒(中央控制器)简介(余小其转载版本)...
  7. sql取最大值的那一行_SQL高级功能
  8. signature=73d4f2b7e55a02359b7d1bf362a074d6,SHOCK ABSORBER
  9. 黑马博客——详细步骤(十)项目功能的实现之开发环境与生产环境
  10. “我xx岁了,想学软件测试,现在转行来得及吗?”别再问了,这篇文章终结此类问题