2018 Byte Cup 国际机器学习竞赛(以下简称 ByteCup)是一项面向全球的机器学习竞赛,由中国人工智能学会和字节跳动联合主办,数据竞赛平台 biendata.com 承办,旨在促进机器学习的学术研究和具体应用。2016 年,首届 Byte Cup 举办,共吸引全球 1000 多支队伍参赛,共同完成“为头条问答的问题在今日头条专家用户中寻找潜在的答案贡献者”这一竞赛任务。2018 年 ByteCup 发布的新任务是“自动为文章生成标题”。

我们正处于一个信息爆炸的时代。据 IDC 统计,互联网数据量已跃至 ZB 级别(1ZB=240GB),预计 2020 年达到 35ZB。我们每天也能看到大量的信息,包括新闻快讯、社交网络更新、事件评论,以及专业教程等等。此外,搜索引擎并不能彻底信息过载问题,而移动设备的普及和碎片化的阅读方式让这个问题更加严重。因此,如果可以开发出自动提取文本摘要的机器学习模型,就可以帮助消化海量的信息。

文本摘要一直都是机器学习领域一个重要的热点,但是却有很大的难度。例如,给单篇文章起标题/摘要的时候,很难有词频作保证,而是需要模型可以理解内容,甚至做一些推理。在很多地方,摘要生成和机器翻译有类似之处。然而,和机器翻译不同的是,自动文本摘要的输入和输出很不平衡,此外机器翻译任务的输入输出序的列通常有一些词义层面上的直接对应,这种对应在摘要任务中却没那么明显。

字节跳动于 2012 年成立,旗下有大量产品可以让用户阅读、消费和创作内容,包括大家熟悉的今日头条和抖音短视频,以及很多海外产品,如 TopBuzz 和 Tik tok。此外,字节跳动还在 2016 年成立了 AI 实验室,实验室覆盖了很多不同的领域,包括机器学习、自然语言处理、计算机视觉、语音识别、数据挖掘、人机交互等,而自然语言处理领域又有机器写作、机器翻译、NLP 基础、问答、对话以及推荐/搜索等方向。

 竞赛任务 


Topbuzz 是字节跳动为北美和巴西的用户创造的一站式内容消费平台,它利用机器学习算法为用户提供个性化视频、GIF 图、本地新闻及重大新闻。目前,Topbuzz 每天都会发布大量的文章,利用人工智能为创作者提供更好的标题选择,是 Topbuzz 优化用户体验的探索方向之一。此次竞赛任务便是为 Topbuzz 提供的英文文章自动生成标题。

▲ 本次比赛邀请了数十位学界和业界的顶尖学者作为顾问

 比赛奖励 


前 10 名的队伍将获得证书和字节跳动招聘面试直通车的机会。周冠军将获得周冠军证书。

1. 总奖金 2 万美元


一等奖 1 名:10,000 美金

二等奖 2 名:每名 3,000 美金

三等奖 4 名:每名 1,000 美金

2. 周冠军自 2018 年 8 月 27 日起,评测系统将选出周冠军。周冠军由过去 7 天内的提交成绩决定。

 比赛时间 


8 月 15 日 :比赛开放提交答案入口

8 月 15 日- 11 月 15 日:比赛期(比赛期间可随时报名

11 月 16 日:发布最终测试集

11 月 17 日:公布测试集排名,排名前 10 的队伍一周内提交一篇不超过 4 页的参赛方法说明(ACM 双列标准模板,中英文皆可)。

11 月 30 日:公布最终排名。

 数据集 

本次竞赛使用的训练集包括了约 130 万篇文本的信息,每篇文本都是一个类似json 格式的行,如以下内容:

{"content": "Being the daughter of Hollywood superstar TomCruise and America's sweetheart Katie Holmes...", 
"id": 1198440, 
"title": "Suri Cruise 2018: Katie Holmes Bonds With DaughterDuring Dinner Date While Tom Cruise Still MIA"}

文档一共包含三类信息:

1. 文章id(id):每篇文本对应一个 unique id;

2. 文章内容(content):即文章的内容字符串;

3. 文章标题(title):文章的标题,参赛选手需要自己生成验证集和测试集的标题。

验证集和测试集格式和训练集相似,但是没有 title,需要参赛选手预测。

说明:训练集用于模型的学习,验证集用于在线实时评估算法效果,测试集用于最终的效果评测。

 相关研究 


目前,自动文档摘要技术主要分为抽取式(extractive)和摘要式(又叫生成式)(abstractive)两种。

抽取式摘要相对较为成熟。这种方法利用如 text rank 这样的排序算法,对处理后的文章语句进行排序。不过抽取式摘要在语义理解方面考虑较少,无法建立文本段落中的完整的语义信息。

相较而言,生成式技术需要让模型理解文章语义后总结出摘要,更类似人类的做法。不过这种技术需要使用机器学习技术,长期以来并不成熟。转折点出现在 2014 年。这一年,Bengio 等人发表论文 Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation,正式引入了 sequence-to-sequence 模型。这一模型通过两个循环神经网络,分别把输入文本转化成向量,再把向量转成输出序列。这种模型在论文中主要用来完成机器翻译任务,并且后来被应用在谷歌翻译中,但后续在文摘生成任务中也产生了广泛的应用。此后,这种利用深度学习的 sequence-to-sequence 方法不断被改进,在一些标准的评测数据集(如 DUC-2004)上,已经超过了传统的抽取式方法。

例如,2016 年,Facebook AI 实验室(FAIR)的学者发表论文 A Convolutional Encoder Model for Neural Machine Translation,在编码的时候用 CNN 取代 RNN,获得不错的效果。Salesforce 的研究人员 2017 年发表的论文 A Deep Reinforced Model for Abstractive Summarization 中,使用了增强学习,在 CNN/Daily Mail 数据集上的 ROUGE-1 分数达到 41.16 分。同年,又是 FAIR 发表了论文 Convolutional Sequence to Sequence Learning,引入 attention 机制,不仅提高了评测分数,还极大地提升了速度。

2016 年,来自 IBM 沃森的研究人员发表论文 Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond,和之前的论文不同,这篇论文把机器翻译和文本摘要任务完全分开,专门针对文本摘要提出了更合适的模型,除此之外,文章还发布了两个新的数据集。

中国也有许多学者在从事相关工作,例如北大的万小军老师。他和姚金戈的综述《自动文摘研究进展与趋势》把摘要技术框架总结成 4 个步骤:内容表示 → 权重计算 → 内容选择 → 内容组织,并对每个步骤都作了介绍。

自动文摘研究进展与趋势:


http://qngw2014.bj.bcebos.com/zhuankan/12/%E8%87%AA%E5%8A%A8%E6%96%87%E6%91%98%E7%A0%94%E7%A9%B6%E8%BF%9B%E5%B1%95%E4%B8%8E%E8%B6%8B%E5%8A%BF.pdf

 比赛组委会 

主办:中国人工智能学会

联合主办:字节跳动

联合组织:IEEE 中国代表处、Biendata.com

 参赛方式 

点阅读原文链接或扫描参赛二维码可直达赛事页面,注册网站 -下载数据,即可参赛。

友情提示,因涉及到数据下载,强烈建议大家登录 PC 页面报名参加~~

大赛页面地址:

https://biendata.com/competition/bytecup2018/

第二届Byte Cup来袭,赢得2万美元奖金,登上字节跳动面试直通车相关推荐

  1. 拍下首张黑洞照片的团队获300万美元奖金:2020年科学突破奖揭晓

    来源:科学突破奖科学突破奖 2019 年 9 月 5 日,2020 年度突破奖(Breakthrough Prize)揭晓.突破奖,又被誉为"科学界的奥斯卡",现已经入第八个年头. ...

  2. GTA 5祖传「屎山」代码终于修复!R星认可黑客方案,还给他发了1万美元奖金

    贾浩楠 发自 凹非寺 量子位 报道 | 公众号 QbitAI 折磨全球无数GTA 5玩家的联机版超长加载时间问题,终于要修复了. 什么?R星(游戏开发商RockStar)主动改善玩家游戏体验?不存在的 ...

  3. Moonriver史上首次全球黑客松正式开启,15万美元奖金持续资助开发者建设Moonriver生态

    2022年3月23日-5月20日,Moonbeam Foundation联合DoraHacks和Huobi Incubator正式启动Moonriver Virtual Hackathon. Moon ...

  4. 2021 字节跳动面试参考手册(第一期)!!!权威来袭~~~

    2021 字节跳动面试参考手册(第一期) 一.Java 基础面试题 1.String 能被继承吗?为什么? 不可以,因为 String 类有 final 修饰符,而 final 修饰的类是不能被继承的 ...

  5. 研究员发现 Google Cloud 项目中的 SSRF 漏洞,获1万美元奖金

     聚焦源代码安全,网罗国内外最新资讯! 编译:代码卫士 摘要 安全研究员David Schütz 发现谷歌 Cloud 项目中存在一个 URL 解析漏洞,可导致项目易受服务器端请求伪造(SSRF)攻击 ...

  6. AAAI第二届“AI诺奖”出炉,百万美元奖金颁给批判黑箱、推广可解释AI的杜克大学女教授...

    梦晨 发自 凹非寺 量子位 报道 | 公众号 QbitAI 世界上最大人工智能协会AAAI颁发的第二届"AI诺贝尔奖"正式出炉! 由杜克大学计算机科学教授Cynthia Rudin ...

  7. 参加动物AI奥运会,让你的智能体比狗狗还聪明,挣取3.2万美元奖金

    晓查 发自 凹非寺  量子位 报道 | 公众号 QbitAI AI已经在很多方面战胜人类,比如围棋.星际争霸游戏,人类已经打不过AI了.但是在面对真实的生存环境时,AI的表现有时还不如动物. 乌鸦在喝 ...

  8. 利用ImageMagick命令执行漏洞拿下Facebook四万美元奖金

    前言 我相信很多人都知道ImageMagick和它存在的漏洞,这个漏洞发现于2016年四月底,同时,由于许多插件都依赖于这个ImageMagick库,因此,这个漏洞的影响范围很大.有证据表明,关于这个 ...

  9. 庄小威、陈志坚等9位科学家分享2100万美元奖金:2019年科学突破奖公布

    北京时间 2018 年 10 月 17 日晚,科学界最慷慨的奖项--突破奖公布了2019年获奖者名单.生命科学.基础物理学(包括一项特别奖).数学三个大奖的共7个奖项.2100万美金,授予了对治疗由基 ...

最新文章

  1. 关于C#中的DLLImport (引)
  2. 「AI大牛」陶大程出任京东探索研究院院长!曾连续6年入选全球高被引科学家...
  3. 2017.10.9 JVM入门学习
  4. 为什么喝酒有的人会脸红,有的人会脸发白
  5. 001-pro ant design 升级2.0后变更
  6. java new string作用_java中直接new String对象?
  7. image pil 图像保存_使用PIL保存图像
  8. Android API 中文 (54) —— Filterable
  9. WSO2 ESB 5.0.0 集群配置
  10. 我喜欢计算机作文450字,我喜欢的一种游戏作文450字(精选8篇)
  11. 机器人断指_揭秘我国机器人发展历程:从机械手到服务机器人
  12. 写在2019年的最后一天,有感而发
  13. 电线超负荷的危险与原因
  14. 【重识云原生】第一章——不谋全局不足以谋一域
  15. linux下iostat命令无效,iostat命令详解
  16. 正确设置Cisco路由器时间和时区
  17. wps excel每3列设置一列颜色
  18. webpack:error Expected linebreaks to be 'LF' but found 'CRLF' linebreak-style
  19. 【CVPR2018】物体检测中的结构推理网络
  20. Nvidia driveos nvsipl_camera 调试记录

热门文章

  1. 设计模式(装饰模式)
  2. Asp.Net Core中Session使用
  3. Docker实践:Centos下安装Docker并简单的使用
  4. Nodejs扩展,实现消息弹窗
  5. W3School-CSS 表格实例
  6. BZOJ3239 Discrete Logging
  7. AutoIT 实现Firefox下载
  8. Rocky(dfs)
  9. verilog的$dumpfile和$dumpvar系统任务详解
  10. 台式计算机打不了蜂鸣,电脑主机启动不了,开机蜂鸣器也不响,主板指示灯