从上千篇投稿脱颖而出，这5篇大数据论文凭什么征服KDD评委？

5月23日消息，在2017国际知识发现与数据挖掘大会（KDD）全球论文投稿中，阿里集团和蚂蚁金服共有5篇论文被大会收录，这是继年初阿里云获得KDD Cup 2017举办权之后，阿里巴巴在国际数据挖掘顶会KDD学术成果上的又一次突破。

图 KDD 2017 官网图片

KDD的英文全称是Knowledge Discovery and Data Mining，即知识发现与数据挖掘，由美国计算机协会ACM下的数据挖掘分会举办，是国际数据挖掘领域的顶级会议，每年有大量来自世界各地的学术界和工业界人士参与此盛会。KDD 2017共吸引全世界1144篇论文投递，收录216篇，包括清华、中科院、阿里在内的中国大陆学术界和工业界共被收录25篇。今年8月，KDD 2017大会将在加拿大港口城市哈利法克斯召开，被称为大数据领域奥运会的KDD Cup也会同期举办。

据了解，阿里巴巴本次被收录论文涵盖深度学习、大规模图计算、商品智能排序等多个研究领域，基于真实的业务场景或数据样本，文中部分方法结论已经在业务中运用。如深度学习语义建模研究中提出了一种新的文本语义编码算法conv-RNN，该模型在参考了较为常用的文本语义编码模型循环神经网络与卷积神经网络的同时，进行了进一步的文本语义编码优化，实现更为精准的文本分类和问答匹配并已应用于阿里智能问答系统中。

5篇论文概述如下：

《淘宝展示广告中的OCPC智能调价算法》

“针对传统广告系统中广告主对粗粒度流量进行固定价格竞价的模式，该论文创新性提出了一种新的OCPC(Optimized Cost per Click)智能调价算法。

该方法智能调整每个流量上的广告主出价，实现更优的流量价值匹配，明显提升了广告主收益和广告系统的分配效率。同时立足于健康的经济生态和可持续的长远收益，该方法亮点在于不单优化了客户价值，还实现了用户体验、平台收益的整体优化和经济福利的权衡分配。”

《基于大规模图计算的本地算法对展示广告的行为预测》

“用户行为建模在计算广告中是至关重要的，它通过跟踪用户的在线行为建立用户的产品，然后根据用户的兴趣和需求提供相关的广告。准确的模型将导致更高的定位精度，从而提高广告效果。直观上，类似的用户往往对展示的广告具有类似的行为（例如，展示，点击，转换）。

然而，据我们所知，以前的工作没有太多明确地调查各种类型的用户行为的相似之处，并且将它们纳入广告响应目标和预测中，主要是由于问题规模过大。为弥合这一差距，本文中，我们使用二分图来表示历史用户行为，其中包括用户节点和广告客户活动节点，以及过去反映各种类型的用户- 广告营销活动交互的边。

基于这种表示，我们研究了用户行为建模和动作预测的随机步行本地算法，其计算复杂度仅取决于输出群集的大小，而不是整个图形。我们的目标是通过利用历史用户-用户 (user-user)，广告系列活动 (campaign- campaign) 和用户-活动 (user-campaign) 交互来改善行为预测。

特别地，我们提出了伴随ADNI算法的二分图AdvUserGraph。 ADNI将NIBBLE算法扩展到AdvUserGraph，并且能够将由感兴趣的用户组成的本地群集发现到特定的广告客户活动。我们还提出了ADNI的两个扩展，提高了效率。所提出的算法的性能表现在合成数据和世界领先的需求侧平台（Demand Side Platform），表明它们在预测极少数事件的有效性。”

《一种新的语义编码模型及其在智能问答及分类中的应用》

“在本文中，我们研发了卷积迭代神经网络（conv-RN N）的通用推理混合框架，用于文本的语义建模，无缝集成了从卷积和复现神经网络结构中提取语言信息的不同方面的优点从而加强新框架的理解力。

此外，基于转换RNN，我们还提出了一种新颖的句子分类模型和一个基于句子的答案选择模型，分别具有加强力的句子匹配和分类。我们在各种各样的数据集中验证了所提出的模型，包括两个具有挑战性的答案选择任务（AS）和用于句子分类（SC）的基准数据集。

据我们所知，AS和SC目前是最为完整的比较结果。我们在这些不同的挑战性任务和基准数据集中经验性地展示了转换RNN的优越性能，并总结了对其他最先进技术方法的表现的见解。”

《多层级联学习在大型电商排序系统的应用》

“在大数据时代，大量应用都会涉及到对海量项目进行排序的工作。我们一方面需要得到尽量准确的排序结果，另一方面希望保证系统的性能以及用户的体验。过往大量的工作都集中在算法准确性方面（如各种learning to rank的方法）；只有不多的工作会考虑计算的性能，而且基本停留在小数据集和研究阶段。而在电商场景，商品总量很多的同时(十亿级)，query的相关商品也可能很多(千万级)。

在在线请求非常高的情况下，计算性能是必须考虑的，尤其是在双十一等场景下请求量会数倍的增长。为了同时保证排序的效果和效率以及用户体验，本文设计并实现了一种级联式搜索CLOES：它的主要思想是将以此排序分成多个阶段，各阶段使用逐渐复杂的特征去得到逐渐准确的结果；在靠前阶段使用简单特征过滤显然不合要求的结果，在靠后阶段使用复杂特征辨别难以区分的结果。

除此以外，算法结合电商场景的特殊性，严格限制了返回结果的延迟以及返回商品的数量，以保证用户的搜索体验。离线实验验证了算法的正确性以及有效性，对比传统的方法能提升准确率的同时大幅提升了计算性能；在去年双11，在新增了大量准确又耗时的计算特征(包括强化学习和深度学习特征)的情况下，算法极大保证了引擎的效率，使排序对引擎的压力下降40%，同时排序效果有一定提升。”

《基于参数服务器的分布式学习系统及其在阿里和蚂蚁的应用》

近年来，由于大数据（TB甚至PB量级）和大模型（数千亿甚至上万亿参数）的出现，无论是学术圈还是工业界，都亟需并行机器学习的能力。虽然有一些现有的分布式计算系统，如Hadoop和Spark，它们为了支持机器学习算法并行化，提供了一些同步和粗粒度运算符（例如，Map，Reduce和Join等），能够在一定程度上解决一些中小规模的问题，但这些系统很难让开发人员设计出更有效率且支持更大规模的机器学习算法。

这促使我们设计一个通用的分布式平台，称为鲲鹏。它结合了分布式系统和分布式优化算法的特性，来处理复杂的大规模机器学习问题。具体来说，鲲鹏不仅封装了数据/模型并行、负载平衡、模型同步、稀疏表示、工业容错等特性，而且还提供了易于使用的接口，以使用户能够聚焦在机器学习核心逻辑上，降低使用成本并提升效率。在上千亿样本/特征的数据集上，测试结果表明，这样的设计在机器学习上带来了引人注目的性能改进，大幅提升了LR、FTRL、GBDT、FM和深度学习等算法的规模跟效率。

作为全球顶尖的互联网科技企业，过去一年阿里电商整体规模超过3.7万亿人民币，记录数亿的活跃用户购买行为数据、数十亿的商品多维特征的刻画数据，有EB级别的数据沉淀。拥有海量数据的阿里在年初就发布NASA计划，目的为“为了解决10年、20年后的困难”。

另外还正在与国内外顶级学术机构中科院、SIGIR、ASPLOS等拓展合作，不久前，阿里iDST负责人金榕就受邀担任国际计算机学会中国理事会常务理事。在部分领域阿里已经实现突破，如联合中科院研制出中国首台光量子计算机，单位体积内的计算能力提升10倍的液冷服务器也计划2018年大规模商用。

原文链接