5月23日消息,在2017国际知识发现与数据挖掘大会(KDD)全球论文投稿中,阿里集团和蚂蚁金服共有5篇论文被大会收录,这是继年初阿里云获得KDD Cup 2017举办权之后,阿里巴巴在国际数据挖掘顶会KDD学术成果上的又一次突破。


图 KDD 2017 官网图片

KDD的英文全称是Knowledge Discovery and Data Mining,即知识发现与数据挖掘,由美国计算机协会ACM下的数据挖掘分会举办,是国际数据挖掘领域的顶级会议,每年有大量来自世界各地的学术界和工业界人士参与此盛会。KDD 2017共吸引全世界1144篇论文投递,收录216篇,包括清华、中科院、阿里在内的中国大陆学术界和工业界共被收录25篇。今年8月,KDD 2017大会将在加拿大港口城市哈利法克斯召开,被称为大数据领域奥运会的KDD Cup也会同期举办。

据了解,阿里巴巴本次被收录论文涵盖深度学习、大规模图计算、商品智能排序等多个研究领域,基于真实的业务场景或数据样本,文中部分方法结论已经在业务中运用。如深度学习语义建模研究中提出了一种新的文本语义编码算法conv-RNN,该模型在参考了较为常用的文本语义编码模型循环神经网络与卷积神经网络的同时,进行了进一步的文本语义编码优化,实现更为精准的文本分类和问答匹配并已应用于阿里智能问答系统中。

5篇论文概述如下:

《淘宝展示广告中的OCPC智能调价算法》

“针对传统广告系统中广告主对粗粒度流量进行固定价格竞价的模式,该论文创新性提出了一种新的OCPC(Optimized Cost per Click)智能调价算法。

该方法智能调整每个流量上的广告主出价,实现更优的流量价值匹配,明显提升了广告主收益和广告系统的分配效率。同时立足于健康的经济生态和可持续的长远收益,该方法亮点在于不单优化了客户价值,还实现了用户体验、平台收益的整体优化和经济福利的权衡分配。”

《基于大规模图计算的本地算法对展示广告的行为预测》

“用户行为建模在计算广告中是至关重要的,它通过跟踪用户的在线行为建立用户的产品,然后根据用户的兴趣和需求提供相关的广告。准确的模型将导致更高的定位精度,从而提高广告效果。直观上,类似的用户往往对展示的广告具有类似的行为(例如,展示,点击,转换)。

然而,据我们所知,以前的工作没有太多明确地调查各种类型的用户行为的相似之处,并且将它们纳入广告响应目标和预测中,主要是由于问题规模过大。为弥合这一差距,本文中,我们使用二分图来表示历史用户行为,其中包括用户节点和广告客户活动节点,以及过去反映各种类型的用户- 广告营销活动交互的边。

基于这种表示,我们研究了用户行为建模和动作预测的随机步行本地算法,其计算复杂度仅取决于输出群集的大小,而不是整个图形。我们的目标是通过利用历史用户-用户 (user-user),广告系列活动 (campaign- campaign) 和用户-活动 (user-campaign) 交互来改善行为预测。

特别地,我们提出了伴随ADNI算法的二分图AdvUserGraph。 ADNI将NIBBLE算法扩展到AdvUserGraph,并且能够将由感兴趣的用户组成的本地群集发现到特定的广告客户活动。我们还提出了ADNI的两个扩展,提高了效率。所提出的算法的性能表现在合成数据和世界领先的需求侧平台(Demand Side Platform),表明它们在预测极少数事件的有效性。”

《一种新的语义编码模型及其在智能问答及分类中的应用》

“在本文中,我们研发了卷积迭代神经网络(conv-RN N)的通用推理混合框架,用于文本的语义建模,无缝集成了从卷积和复现神经网络结构中提取语言信息的不同方面的优点从而加强新框架的理解力。

此外,基于转换RNN,我们还提出了一种新颖的句子分类模型和一个基于句子的答案选择模型,分别具有加强力的句子匹配和分类。我们在各种各样的数据集中验证了所提出的模型,包括两个具有挑战性的答案选择任务(AS)和用于句子分类(SC)的基准数据集。

据我们所知,AS和SC目前是最为完整的比较结果。我们在这些不同的挑战性任务和基准数据集中经验性地展示了转换RNN的优越性能,并总结了对其他最先进技术方法的表现的见解。”

《多层级联学习在大型电商排序系统的应用》

“在大数据时代,大量应用都会涉及到对海量项目进行排序的工作。我们一方面需要得到尽量准确的排序结果,另一方面希望保证系统的性能以及用户的体验。过往大量的工作都集中在算法准确性方面(如各种learning to rank的方法);只有不多的工作会考虑计算的性能,而且基本停留在小数据集和研究阶段。而在电商场景,商品总量很多的同时(十亿级),query的相关商品也可能很多(千万级)。

在在线请求非常高的情况下,计算性能是必须考虑的,尤其是在双十一等场景下请求量会数倍的增长。为了同时保证排序的效果和效率以及用户体验,本文设计并实现了一种级联式搜索CLOES:它的主要思想是将以此排序分成多个阶段,各阶段使用逐渐复杂的特征去得到逐渐准确的结果;在靠前阶段使用简单特征过滤显然不合要求的结果,在靠后阶段使用复杂特征辨别难以区分的结果。

除此以外,算法结合电商场景的特殊性,严格限制了返回结果的延迟以及返回商品的数量,以保证用户的搜索体验。离线实验验证了算法的正确性以及有效性,对比传统的方法能提升准确率的同时大幅提升了计算性能;在去年双11,在新增了大量准确又耗时的计算特征(包括强化学习和深度学习特征)的情况下,算法极大保证了引擎的效率,使排序对引擎的压力下降40%,同时排序效果有一定提升。”

《基于参数服务器的分布式学习系统及其在阿里和蚂蚁的应用》

近年来,由于大数据(TB甚至PB量级)和大模型(数千亿甚至上万亿参数)的出现,无论是学术圈还是工业界,都亟需并行机器学习的能力。虽然有一些现有的分布式计算系统,如Hadoop和Spark,它们为了支持机器学习算法并行化,提供了一些同步和粗粒度运算符(例如,Map,Reduce和Join等),能够在一定程度上解决一些中小规模的问题,但这些系统很难让开发人员设计出更有效率且支持更大规模的机器学习算法。

这促使我们设计一个通用的分布式平台,称为鲲鹏。它结合了分布式系统和分布式优化算法的特性,来处理复杂的大规模机器学习问题。具体来说,鲲鹏不仅封装了数据/模型并行、负载平衡、模型同步、稀疏表示、工业容错等特性,而且还提供了易于使用的接口,以使用户能够聚焦在机器学习核心逻辑上,降低使用成本并提升效率。在上千亿样本/特征的数据集上,测试结果表明,这样的设计在机器学习上带来了引人注目的性能改进,大幅提升了LR、FTRL、GBDT、FM和深度学习等算法的规模跟效率。

作为全球顶尖的互联网科技企业,过去一年阿里电商整体规模超过3.7万亿人民币,记录数亿的活跃用户购买行为数据、数十亿的商品多维特征的刻画数据,有EB级别的数据沉淀。拥有海量数据的阿里在年初就发布NASA计划,目的为“为了解决10年、20年后的困难”。

另外还正在与国内外顶级学术机构中科院、SIGIR、ASPLOS等拓展合作,不久前,阿里iDST负责人金榕就受邀担任国际计算机学会中国理事会常务理事。在部分领域阿里已经实现突破,如联合中科院研制出中国首台光量子计算机,单位体积内的计算能力提升10倍的液冷服务器也计划2018年大规模商用。

原文链接

从上千篇投稿脱颖而出,这5篇大数据论文凭什么征服KDD评委?相关推荐

  1. 使用Python批量筛选上千个Excel文件中的某一行数据并另存为新Excel文件(下篇)

    点击上方"Python爬虫与数据挖掘",进行关注 回复"书籍"即可获赠Python从入门到进阶共10本电子书 今 日 鸡 汤 野火烧不尽,春风吹又生. 大家好, ...

  2. 一篇运维老司机的大数据平台监控宝典(1)-联通大数据集群平台监控体系进程详解

    一篇运维老司机的大数据平台监控宝典(1)-联通大数据集群平台监控体系进程详解 "如果你是一个经验丰富的运维开发人员,那么你一定知道ganglia.nagios.zabbix.elastics ...

  3. 千锋重庆Java学习之MySQL大数据量分页查询方法及其优化

    方法1: 直接使用数据库提供的SQL语句 语句样式: MySQL中,可用如下方法: SELECT * FROM 表名称 LIMIT M,N 适应场景: 适用于数据量较少的情况(元组百/千级) 原因/缺 ...

  4. 百度联合研究成果登上《自然》子刊 推动人才管理大数据智能化转型

    AI 的高速发展启动了人才管理变革的加速器.近日,百度针对"AI+ 人才管理"领域的最新研究成果登上国际顶级刊物 Nature 子刊 Nature Communications(& ...

  5. 这100篇论文,使您成大数据高手……

    开源(Open Source)用之于大数据技术,其作用有二:一方面,在大数据技术变革之路上,开源在众人之力和众人之智推动下,摧枯拉朽,吐故纳新,扮演着非常重要的推动作用.另一方面,开源也给大数据技术构 ...

  6. 线上打假遭遇多重困境 专家建言依靠“大数据”打假

    北京一家媒体从业人员李驰在天猫上购买了一款蔻驰包,但是收货后发现做工.气味均有问题,随后花了近半个月才退了货."钱倒是小事,太影响心情了,在网上购物真是步步惊心."她说," ...

  7. 大数据篇(3)在学习大数据的过程中教会你煮菜!!!

    1.上菜,西红柿炒鸡蛋!!~~ 等等,想学!!! 做一道色香味俱全的西红柿炒鸡蛋需要哪些步骤呢!  种植西红柿,养一只老母鸡                                      ...

  8. 女友问粉丝过万如何庆祝,我发万字长文《保姆级大数据入门篇》感恩粉丝们支持,学姐|学妹|学弟|小白看了就懂

    2021大数据领域优质创作博客,带你从入门到精通,该博客每天更新,逐渐完善大数据各个知识体系的文章,帮助大家更高效学习. 有对大数据感兴趣的可以关注微信公众号:三帮大数据 目录 粉丝破万了 新星计划申 ...

  9. 史上最全,100+大数据开源处理工具汇总

    本文除了一些常用的大数据工具,还总结汇总了其他大数据工具,几乎是最全的大数据工具的总结. 如果你想入门大数据,可以对他们进行简单的了解. 如果你想学习自己熟悉意外的大数据工具,可以看这篇文章. 如果你 ...

最新文章

  1. android中存放程序资源,Android 工程中存放各种程序资源的目录是()
  2. command对象提供的3个execute方法是_21个极大提高开发效率的VS Code快捷键
  3. centos安装g++
  4. sonar 配置sonarqube分析unity中的C# 代码
  5. python 对列表元素分割_python 列表快速排序和冒泡排序和列表中根据元素取模分割列表...
  6. row_number()分页返回结果顺序不确定
  7. r语言循环求和_R语言学习必备书单——由浅入深搞定编程
  8. 大数据与传统数仓的区别?
  9. 设备划分冲突域和广播域
  10. 统计bed文件下的reads数目和GC含量
  11. photoshop ps 替换图片文字
  12. 锂电池参数含义与选择
  13. 联通猫无线灯闪 不能连接服务器,光猫一直闪红灯不能上网是怎么回事 光猫闪红灯的解决方法...
  14. IDM2022最新版极速下载工具
  15. B2B2C多用户商城系统如何选择
  16. java xsd校验xml文件
  17. 腾讯企业邮箱OpenApi调用说明
  18. 【商品架构day3】京东商品系统的演进之路 - 如何抗住亿级流量
  19. python制作生日礼物_TurnipBit:和孩子一起动手DIY“滚动”的生日礼物
  20. 自考本科计算机安全,计算机网络系统安全搭建与防护-自考本科毕业论文.doc

热门文章

  1. Vue+Vue Router+Vuex页面演示
  2. jQuery的创建对象,动态添加、修改、删除属性和方法
  3. dalsa工业相机8k参数_偏振光相机3——偏振应用
  4. php遍历文件夹下文件内容_php实现的遍历文件夹下所有文件,编辑删除
  5. python大数据处理mapreduce_使用python构建基于hadoop的mapreduce日志分析平台
  6. 对前后端分离和FastDFS的使用的再理解
  7. 向前、向后、横着走,双足机器人Cassie,靠深度强化学习学会了走路丨论文
  8. 苹果传出放弃研发自动驾驶,因iPhone销量不佳收紧支出
  9. CVPR官网不堪重负,挂了 | 最佳论文、人生赢家、六千余人参会
  10. AI技术宅:女神说什么,听我的!