机器学习与数据挖掘论坛

出品人/嘉宾:林文清

腾讯互娱 公共数据平台部 社交算法团队负责人

演讲主题:大规模游戏社交网络节点相似性算法及其应用

演讲介绍:数据都可以用多种形式呈现,比如说图或者网络结构,而游戏中存在大量的图数据,包括游戏社交网络、玩家与道具的交互关系网络等。节点相似性计算作为图上大多数任务的基础,具有广泛的应用场景。我们介绍了基于随机游走的个性化节点排序方法,并且设计了一个高效的分布式计算框架,可以处理百亿级的数据规模,并且具有较好的预测性能。我们将此方法应用到游戏中的多种推荐场景之后,取得了较好的应用效果。

演讲大纲:

1.问题及背景介绍

1.1 业务问题抽象

1.2 个性化节点排序算法介绍

2.解决方案及价值阐述

2.1 算法框架

2.2 优化方法

2.3 实验效果

3.应用效果评估

听众收益:

1.如何设计高效的分布式个性化节点排序算法?

2.分布式个性化节点排序算法的待优化问题有哪些?

3.如何将个性化节点排序算法应用到游戏业务场景中?

分享嘉宾

2 杨旭东 阿里巴巴 算法专家

演讲主题:推荐算法中的特征工程

演讲提纲:深度学习时期,与 CV、语音、NLP 领域不同,搜推广场景下特征工程仍然对业务效果具有很大的影响,并且占据了算法工程师的很多精力。数据决定了效果的上限,算法只能决定逼近上限的程度,而特征工程则是数据与算法之间的桥梁。本次分享的主题是尝试总结一些在推荐场景下做特征工程的常用套路,包括离线特征和实时特征的设计、开发和部署、离在线一致性保证等内容。

听众受益:

1. 推荐场景下如何构建好用的离线特征?

2. 推荐场景下如何准确构建实时特征?

3. 如何在推荐工程链路上保障离在线一致性?

3 连德富 中国科学技术大学 教授

演讲主题:推荐系统算法与应用

演讲提纲:

1. 推荐系统的线下训练研究

2. 推荐系统的线上服务研究

3. 推荐系统的应用研究

听众收益:

1. 了解如何搭积木建推荐系统

2. 推荐系统应该如何负采样

3. 推荐系统的召回可以做哪些研究

4 肖强 网易云音乐 算法专家

演讲主题:云音乐推荐系统中冷启动与多目标的高效实现

演讲提纲:

1. 云音乐推荐背景介绍

2. 推荐系统基础架构

3. 音乐冷启动

4. 音乐推荐召回系统

5. 音乐推荐排序系统

听众收益:

1. 音乐推荐系统的建设

2. 如何实现高效的冷启动推荐

3. 怎么进行全链路多目标建模

5 黄崇远 OPPO商业数据挖掘组组长

演讲主题:OPPO商业化——从定向差异化到智能化再到去定向化的演化实践

演讲提纲:

1. 商业广告的定向诉求与基本逻辑

2. 差异化定向诉求与建模演化实践

2.1 行为标签的定位与统计建模

2.2 行业标签的诉求与建模演化过程

  • 商业兴趣标签的差异化诉求
  • 从传统离线建模到大规模离线预测的演化
  • 性能以及特征的共享--MMoE多标签预测网络

3. 从差异化定向到自动化定向的演化实践

3.1 独特的行业特性与自动化的定向诉求

3.2 从统计建模到组合推荐的思路探索

3.3 从直接建模到UTPM模型间接建模演化实践

3.4 从标签组合到标签精细缩放的自动化演进

4. 从定向自动化到去定向化的人群召回演化实践

4.1 广告行业去定向化的大趋势

4.2 台前走到幕后——自动化定向到去定向化

4.3 基于DSSM模型与成本控制结合的在线人群召回解决方案

4.4 广告召回与人群召回的建模差异的深入思考

5. 定向演化的总结与定向技术的未来

5.1 定向阶段演化的总结

5.2 路在哪里——广告定向的未来

听众收益:

1. 了解商业化广告智能定向的演化逻辑以及发展趋势

2. 了解多任务模型在定向标签建模的落地实践

3. 了解定向场景中标签推荐的特殊场景相关模型的落地实践

4. 广告场景中的在线拓量的解决方案

6 李良玥 阿里飞猪 算法专家

演讲主题:基于用户线下和线上行为的出行目的地预测

演讲提纲:在旅行场景下,用户在未来一段时间的出行目的地意图预测是一项非常重要的工作,具有广泛的应用价值。与传统电商行业相比,旅行是一种低频的用户需求,从而导致在线旅行平台 ( 简称 OTP ) 上沉淀的用户行为数据非常稀疏。我们的工作最主要的一个特色是同时利用用户线下的位移数据以及用户在飞猪 APP 上的线上行为数据来进行用户未来旅行目的地的预测,并且建模了用户的离线行为的空间和时间上的周期性,以及线上行为相对于线下行为的增益,在我们离线和线上实验中取得了不错的效果。该项工作论文已被 SIGIR 2022 接收,欢迎大家交流讨论。

听众收益:

1. 旅行场景下如何融合用户线上和线下的行为?

2. 如何建模用户旅行行为的时间空间周期性?

3. 如何将目的地预测应用到实际场景中?


实验科学与因果推断论坛

出品人:董越

前滴滴数据科学中台及用户增长数据科学负责人

分享嘉宾

1. 房栋 腾讯互娱 公共数据平台部 专家数据科学家

演讲主题:因果推断在游戏中的应用

演讲提纲:因果推断在游戏精细化运营中存在着广泛应用——

1. 当多个活动的运营时间重叠、活动之间交叉影响的情况下,如何科学地评估各活动的效果?

2. 外部政策的影响应该如何科学地评估与衡量?

3. 同一活动对用户反复干预是否会对用户体验有负向影响?

基于此,本演讲主要针对常用因果推断方法(包括面板二重差分模型、倾向性得分匹配、双重稳健估计等)在具体游戏场景中的应用展开,通过背景阐述、方法介绍、效果评估和应用拓展等方面进行介绍,同时结合具体的案例剖析,凸显出因果推断对于游戏业务决策过程的指导和推动意义。

1. 问题及背景介绍

1.1 业务问题抽象

1.2 因果推断基础介绍

2. 案例分析及解决方案阐述

2.1 业务场景介绍

2.2 因果推断方法

2.3 应用效果呈现

2.4 结论

3. 基于因果推断的精细化运营

3.1 扩展的业务应用

听众收益:

1. 如何利用因果推断来开展游戏的精细化运营?

2. 如何得到稳健的因果推断结果?

3. 因果推断之于数据科学家的重要性?

2. 程大曦 快手 经济学家

演讲主题:双边市场的复杂实验设计问题

演讲提纲:

1. 双边市场复杂实验面临哪些挑战

2. 业界有哪些可以参考的方案

3. 快手使用的方案与其借鉴性

听众收益:

1. 端到端的双边市场实验设计方案

2. 对传统方案弊端的分析

3. 朱志华 腾讯 数据科学家

演讲主题:广告场景下双边市场的实验设计

主题介绍:双边市场是一个连接两个群体的平台,在经济学中,我们称之为供给方和需求方。典型的双边市场有出行平台,电商平台,婚恋平台以及广告平台等。双边市场由于存在需求方和供给方的行为彼此影响,一般我们称之为双边网络效应,导致在 AB 测试中,实验组和对照组很难满足独立性的假设,如何在这种情况下设计实验是一个比较大的挑战。本次分享将从腾讯广告的实践出发,分享如何进行双边市场下的实验设计。

演讲提纲:

1. 双边市场的实验难点

2. 常见实验设计以及局限性

3. 广告场景下的双边设计

听众收益:

1. 理解双边市场的实验难点

2. 了解常见的双边市场实验设计

4. 杜佳莉 Google 高级数据科学家

演讲主题:分位数指标的A/B测试

演讲提纲:A/B测试已作为衡量产品影响的黄金标准被广泛使用,然而绝大部分AB测试分析的是平均处理效应的影响,很少有文献讨论使用分位数指标的A/B 测试。分位数指标(例如90%页面加载时间)对于 A/B 测试至关重要,因为包括站点速度和服务延迟在内的许多关键性能指标都被定义为分位数。然而,分位数指标在A/B测试中极具挑战性,因为对于相关样本的分位数没有统计上有效且可扩展的方差估计器。

听众收益:

1. 分位数指标的A/B测试的难点在哪里

2. 业内不同的分位数指标的A/B测试实践

5. 周小羽 快手 经济学家团队 Tech Lead

演讲主题:基于双重神经网络的异质性因果效应的模型构建及应用

演讲提纲:异质性因果效应旨在回答“应该对哪些人群做决策”的问题,被广泛应用于互联网的各业务场景。很多业务不仅需要圈出对策略最敏感的一群用户,也需要考虑不同用户对不同量级策略的规模效应。本次将介绍我们在异质性因果效应上的探索,以及提出的一个用于估计规模效应的异质性因果效应模型。

听众收益:

了解现有常用估计异质性因果效应的方法的局限性,以及如何对“规模效应”建模。

6. 黑梦琪 字节跳动 数据科学家

演讲主题:异质性因果模型方法与策略化落地

演讲提纲:

1. 介绍 ATE 到 HTE

2. 介绍不同的 HTE 方法模型

3. 介绍两种落地 Case

听众收益:

1. 在因果推断问题中,相比于常规的 AB 实验度量 ATE,HTE 带来的增益是什么?

2. 常见的 HTE 估计方法有什么?

3. 举例展开 HTE 分析在商业化场景下的应用


企业数据中台建设与数字化转型论坛

出品人:温绍锦

阿里云 资深技术专家

分享嘉宾

1 田奇铣 阿里云 DataWorks 产品负责人,高级产品专家

演讲主题:企业数据中台的智能进化—全链路数据治理

演讲提纲:

1. 阿里巴巴数据中台演进历程

2. 阿里巴巴数据中台现状—智能进化

3. 基于 DataWorks 的全链路数据治理

4. 阿里云上数据中台客户最佳实践

听众收益:

1. 了解阿里巴巴数据中台历史与现状

2. 了解数据中台的平台能力建设经验

3. 了解阿里云上各行业客户的最佳实践

2 郭进士 淘宝/天猫数仓公共层模型负责人

演讲主题:淘系数据模型治理最佳实践

演讲提纲:大淘系数据基于 onedata 数仓方法论构建了7年,多年业务的快速发展之下大淘系数据模型有哪些问题与定义?如何进行模型治理更高效?面向未来如何进行设计与开发,规避或降低模型问题的出现?模型的问题与治理是永恒的话题,本主题抛砖引玉,欢迎一起探讨与交流。

听众收益:

1. 模型的通用问题有哪些如何定义?

2. 模型治理优化的方法?

3. 模型设计的规范和方法?

3 刘杰 腾讯海外游戏数据 SRE 负责人

演讲主题:海外游戏数据中台SRE实践

演讲提纲:随着腾讯游戏的出海进程加速,如何支持几十款重点海外游戏的100多个国家地区数据收集与存储?如何建设全球多云大数据中心海外基建?如何融合多云原生数据平台与游戏数据中台生态?如何应对全球各个区域的数据合规、政策法规要求来实施全球数据管理等等。种种挑战摆在面前,本主题抛砖引玉,欢迎一起探讨与交流。

听众收益:

1. 全球多云大数据中心海外基建如何建设?

2. 如何融合多云原生数据平台与游戏数据中台生态?

3. 如何应对全球各个区域的数据合规、政策法规要求来实施全球数据安全合规治理

4 吴荣彬 分贝通 大数据部负责人

演讲主题:分贝通大数据体系建设经验分享

演讲提纲:

1. 公司简介

2. 公司大数据建设的业务痛点

3. 痛点思考/方案选型

4. 最佳实践

5. 建设效果

6. 未来展望

听众收益:

1. ToB 企业的数据建设和 ToC 企业的区别

2. 分贝通数据建模和指标建设实践

3. 分贝通数据治理实践

5 钟虓 北京工业大数据创新中心 产品业务总经理

演讲主题:数据技术助力工业企业数智化转型的实践与思考

演讲提纲:通过工业企业数智化转型过程中数据技术应用的实践案例介绍,分享总结了当前大数据、机器学习等技术在工业领域的应用现状与面临挑战,以及如何将数据技术与产业价值结合落地的思考。

听众收益:

  1. 数据技术在工业领域应用的关键要素是什么?
  2. 数据技术在工业数字化转型中的现状和未来发展方向是什么?
  3. 如何构建适合工业企业的数据技术能力?


▌峰会报名

(1)报名费用:免费直播

(2)报名方式:微信搜索公众号DataFun,关注后根据提示报名。

报名成功后添加小助手,还可免费领取《数据科学核心应用白皮书》《数据科学与语言》《数据科学工程实践》《DataFun202204期月刊》等资料。

分论坛介绍:机器学习、企业数据中台、实验科学与因果推断相关推荐

  1. 云栖大会:友盟+互联网企业数据中台,助力企业数智化转型

    今年上半年,频频刷屏的"新基建"为我国的数字化整体进程提速,企业谋求数字化转型升级的需求更加迫切.加之疫情引发的企业经营的各类连锁反应,让企业更加重视运用数字化的手段来提升业务增长 ...

  2. 阿里云智能数据构建与管理 Dataphin公测,助力企业数据中台建设

    2019独角兽企业重金招聘Python工程师标准>>> 阿里云智能数据构建与管理 Dataphin (下简称"Dataphin")近日重磅上线公共云,开启智能研发 ...

  3. 【数据仓库】数据仓库建模方法及企业数据中台建设

    一.数据仓库建模方法 每个行业有自己的模型,但是 不同行业的数据模型,在数据建模的方法上,却都有着共通的基本特点. 什么是数据模型? 数据模型是抽象描述现实世界的一种工具和方法,是通过抽象的实体及实体 ...

  4. MaxCompute+Dataphin企业数据中台的利器

    简单粗暴的理解:Dataphin是数据中台的ETL工具,可以对各种的数据源数据进行抽取.清洗.而MaxCompute是云原生的大数据存储服务.所以这两者的结合可以完美的解决企业数据中台的需求. 什么是 ...

  5. 第五届中国网络安全大会分论坛介绍

    中国网络安全大会是在国家相关部委的指导下,由赛可达实验室联合国内外众多具有影响力的行业协会.机构等单位共同主办的综合性行业会议,每年举办一届,从2013年至今已成功举办四届.大会以"全球化的 ...

  6. 因果推断笔记——数据科学领域因果推断案例集锦(九)

    文章目录 1 腾讯看点:启动重置问题 1.1 观测数据 . 实验数据的理论介绍 2.2 启动重置问题阐述:短期.长期.异质 2.3 短期影响的解决 2.4 长期影响构造准实验 2.5 异质性用户 1. ...

  7. 再问数据中台 - 企业数据中台的团队如何构建?绩效如何评价?

    数据中台是距离业务更近的能力平台,数据中台是一个需要持续运营的数据服务业务平台,所以数据中台的团队不仅仅是一个技术团队,应该将数据中台当做一个产品团队来构建,整体的结构如下: 数据中台提供两类服务: ...

  8. 企业数据中台解决方案PPT(附下载)

    本文PPT资料获取方式 转发朋友圈截图,长按下方二维码 回复: 666  资料系网络收集,版权归原作者所有,如有侵权,请后台回复999联系删除 推荐阅读: 世界的真实格局分析,地球人类社会底层运行原理 ...

  9. 【干货分享】企业数据中台整体介绍及建设方案(文末附52页pdf下载链接)

    话不多说,直接上干货,文末附52页pdf文档下载链接. 更多细节请关注公众号并回复"1113",获取下载链接. 「 更多干货,更多收获 」 推荐系统系列教程之十二:Facebook ...

  10. 分论坛介绍:涉及数据隐私、金融、互联网

    数据隐私下的数据科学论坛 出品人:刘吉 百度研究院 资深研究员 分享嘉宾: 1. 闫树 中国信息通信研究院 云计算与大数据研究所 副主任 演讲主题:隐私计算行业发展及合规发展思考 演讲提纲:隐私计算政 ...

最新文章

  1. 6招识破翻新iPhone
  2. eclipse常用插件安装
  3. 如何确定foreach循环中的第一次和最后一次迭代?
  4. 用800行代码做个行为树(Behavior Tree)的库(2
  5. 组织模式 - Introduction
  6. C程序优化之路(二)
  7. Linux下编译安装openssl
  8. ssh 端口_【科普】SSH都不懂,还搞什么网络
  9. linux oa软件安装步骤,Ecology_OA_for_Linux安装手册
  10. linux系统管理:认识安装linux(一)
  11. move_uploaded_file返回false但实际成功_023 Spring Boot 搭建实际项目开发框架
  12. [CTO札记]雅虎主页改版使用户停留时间增加20% -
  13. mongodb之使用explain和hint性能分析和优化
  14. 小型迷宫实现---迷宫算法(递归回溯法)
  15. 思岚A1激光雷达的测试(windows)
  16. 百度指数批量查询获取工具
  17. 阿里云的服务器居然泡在“水”里?| 数据中心参观有感
  18. 原生JS实现7中简单效果
  19. Tiled结合Unity实现瓦片地图
  20. Gitosis不能拉取代码,报错 ERROR:gitosis.serve.main:Repository read access denied fatal

热门文章

  1. win7计算机硬盘很慢,Win7系统电脑反应慢 win7系统反应慢的9个解决方法
  2. 用计算机开方左右键,科学计算器开方怎么用(科学计算器开根号)
  3. 每周一磁 · 磁性材料的居里温度与工作温度
  4. 【PHP编程】制作表单生成器——注册登录信息
  5. 如何用css实现元素固定宽高比?
  6. 「硬见小百科」压合突发异常处理方法
  7. android开发简历,轻松拿到了阿里Android高级开发工程师的offer
  8. Sql Server 随机抽样方法
  9. 黑马程序员--黑马程序员的入学流程真的“很黑”
  10. 我们总能识别出团队中的坏苹果