来源:AI TIME 论道‍

本文约2100字,建议阅读5分钟。

北京大学博士生陈震鹏和清华大学博士生丁铭两位年轻的学霸,分享他们的人工智能科研道路上的思考与成果。

伯格森言:“思辨是奢侈品。”

能够在飘着轻快音乐的小酒馆,抛却身份地位,纯粹地聊聊科学,哪怕互相争论得面红耳赤,只要思维的火花能触及科学本质的一毫厘,便是人生中极其奢侈的一桩美事。

2019年11月11日的首期AI Time PHD,我们邀请了北京大学博士生陈震鹏和清华大学博士生丁铭两位年轻的学霸,分享他们的人工智能科研道路上的思考与成果。陈震鹏同学是北大2019年度唯一一位“微软学者”,其以第一作者身份发表的科研论文获得了2019年国际万维网大会(WWW 2019)的最佳论文奖。清华大学的丁铭同学亦先后在ACL、CIKM、IJCAI、EMNLP等会议上发表多篇论文。
清华大学计算机系唐杰教授作为本次特邀的神秘嘉宾,更加活跃了现场的氛围。

《Emoji赋能的用户理解》

陈震鹏学霸的思维世界里,离不开承载着喜怒哀乐的“表情”。
用户情感分析,能够有效地从文本中发掘用户的情感偏好,在定制化内容推送、在线广告、客户评论跟踪及后续产品和服务改进等实际应用中发挥重要作用。
遗憾的是,现有的情感分析相关研究主要围绕英文文本展开,其他语种的效果远远落后。然而互联网用户中非英语用户却近占比四分之三,这就造成大量人群无法平等地享受基于文本的情感分析技术所使能的高质量服务。
面对非英语语种情感分析落后的问题,很多人将目光投向了机器翻译——如果将目标文本直接翻译成英语,然后利用英语语料训练的情感分类器做预测,不就解决问题了吗?
的确,机器翻译能够跨越语言障碍,将从英语中学习到的情感信息迁移到其他语种中。但由于不同语言的文化差异,只能捕捉普遍的情感知识(general sentiment knowledge),不能保留语种特定的情感信息(language-specific sentiment knowledge)。比如“湯水のように使う”在日语中形容浪费,是负面表达,翻译成英语是“use it like hot water”,丢失了原来的情感信息。
为了构建跨越语言障碍的桥梁,陈震鹏学霸的课题组引入了生活中无处不在的“流行语”——emoji(绘文字)。由于使用Unicode统一编码并且全球通用,emoji能够承载普遍的情感信息,同时也能体现国别间的特定差异。有了这些可爱又丰富的表情符号,不同语种便可以轻易地连接起来!
具体而言,他们设计了ELSA模型(Emoji-powered representation learning for cross-Lingual Sentiment Analysis)。
首先,为源语言和目标语言构建句子表征模型。对于每种语言,使用大量的tweet语料以无监督的方式学习word embeddings,建立预测emoji的任务得到表征模型,蕴含各自语种的情感信息。然后,通过Google translate将英语的标记文档逐句翻译成目标语言,获取共同的情感信息。最后,将学习到的情感表征进行整合,以便于跨语言情感分类。
结果表明,ELSA的准确度远优于现有模型,并且加入emoji后模型注意力准确定位在了关键词句上!
由此看来,emoji的确产生了轻松横跨多个语种的神奇功效呢!
啊,问题在哪里
问答环节,唐杰教授就emoji背后的传播和逻辑规律等科学本质问题提出了疑问。Emoji本身缺乏语法规范,但是否也可以作为传递信息甚至解密加密文档的工具?陈震鹏亦认为emoji或许能辅助文盲和隐私从业者的线上交流。
有些观众则对一些反常的emoji使用情况举例提出质疑。陈震鹏解释emoji虽然有时候仅仅是调节或者缓和语气的作用,但大多数情况下被用于表达情感,因此观众提出的这个问题所引入的噪声可以容忍。
《认知与结构化知识》

丁铭学霸的分享,则更新了我们关于人类认知过程、文本和结构化知识的思考。
双重加工理论(Dual process theory)指出,我们的大脑加工信息的方式有两种:自动加工和控制加工。
自动加工是一种隐式、无意识、直觉性的过程,称为System 1;
控制加工则是显式、有意识、可控的过程,称为System 2。System 2在工作记忆(working memory)中进行顺序性的逻辑推理,能够更深入地挖掘相关信息,是人类特有的思维能力。
基于人类这种双重加工理论的迭代式认知框架,丁铭同学搭建了认知图谱问答框架(Cognitive Graph QA,简称CogQA),来实现多跳的阅读理解。
该框架分为System1和System2两个部分,System 1利用BERT从段落中抽取与问题相关的实体,构建成类似于工作记忆的认知图谱。System 2使用图神经网络(GNN)对图谱执行推理过程(计算隐表示),并收集有用的线索以指导System 1抽取下一跳实体。
实验结果是:在HotpotQA 数据集上,丁同学的CogQA模型连续蝉联榜首三个月,并且在跳数更多的问题上表现更好!
另外,以前的黑盒模型不允许我们回溯查找出错原因,但现在通过检查认知图我们就能发现问题,极大地提高了模型的可解释性!
比如下面的例子中,CogQA的算法给出答案是“Marijus Adomaitis”,然而标准答案是“Ten Walls”。查看一下认知图,我们会发现Ten Walls只是Adomaitis的艺名!
在介绍自己的研究成果之外,丁铭同学还梳理了知识图谱的发展历程,并论述了文本所蕴含的巨大检索潜力和信息完整度。将知识图谱变成基于文本的图文本库,从文本层面储存知识,是否具有更强的可扩展性呢?针对每个问题建一个认知图,随问题的复杂程度而加深,就能涉及到更多的领域。
互动起来

在问答环节,观众提出可以引入多模态的问答系统。嘉宾丁铭表示赞同,认为可以同时把视频中的文本和图片对齐来进行预训练,从时间维度进行推理过程。
短短两小时的热烈讨论,带来的是思想的碰撞和无穷的回味!
你是否意犹未尽呢?期待我们的下次再见!
参考文献:
Emoji-Powered Representation Learning for Cross-Lingual Sentiment Classification, Zhenpeng Chen*, Sheng Shen*, Ziniu Hu , Xuan Lu, Qiaozhu Mei, Xuanzhe Liu,WWW 2019, Best Paper Award
Cognitive Graph for Multi-Hop Reading Comprehension at Scale,Ming Ding, Chang Zhou, Qibin Chen, Hongxia Yang, and Jie Tang,in Proceedings of the 57th Annual Meeting of the Association of Computational Linguistics (ACL 2019).
编辑:于腾凯
校对:林亦霖

点击“阅读原文”获取现场PPT

清北顶会学霸:“表情”与“认知”引发的科学思辨 | 清华AI Time PHD相关推荐

  1. 清北毕业生2019就业去向:北大从政人数多,清华企业比例大,华为成最大赢家...

    乾明 鱼羊 发自 凹非寺  量子位 报道 | 公众号 QbitAI 2019年,一共有16869名清北学子走出校门. 他们都去哪了? 最近,清华北大纷纷放出毕业生就业报告,对其人才流向进行披露. 从就 ...

  2. 为什么清北硕博扎推街道办毫不意外, 反会越来越多?

    近日,一张杭州余杭区招聘公示的截图引发网友关注.这份长长的公示名单里,清一色是来自清华.北大的毕业生,其中还包括一些街道办事处的岗位. 向上滑动阅览 例如: 运河街道办事处:录取的是北大新闻传播学硕士 ...

  3. 哪些“双一流”更得华为偏爱?这所高校人数远超清北华五

      视学算法分享   来源 | 软科 [导读]此前,软科在整理各大高校2019年毕业生就业情况时发现,华为收割了C9绝大多数选择就业的毕业生,果真是业界公认的名校毕业生"收割机"! ...

  4. 衡水一中2021高考成绩查询,2021清北保送名单出炉,这些学校表现很亮眼,衡水中学未上榜?...

    文/妍妍学姐 说到清华北大,它们绝对是我国最顶尖的高校,是无数学子心中的梦想,但是录取分数线也是超级高的. 想要进入到清华北大,通过高考的方式很困难,能考上的学生属于凤毛麟角.但是进入清华北大也并不只 ...

  5. 华为更偏爱什么大学?这所211人数远超清北华五!

    转载于 软科 此前,软科在整理各大高校2019年毕业生就业情况时发现,华为收割了C9绝大多数选择就业的毕业生,果真是业界公认的名校毕业生"收割机"! 华为在众多单位中拔得头筹 从上 ...

  6. MLNLP顶会论文发表总榜:谷歌最狂,清北入前十,周明、张岳、刘挺华人前三...

    中美差距何止一丁点! 作者 | 丛末.蒋宝尚 编辑 | 贾伟 伦敦帝国理工学院机器学习和自然语言处理著名学者Marek Rei 教授从2016年起,每年都会对ML&NLP相关的会议论文进行统计 ...

  7. 杭电AI学霸班:考研上岸3清北8浙大,还没毕业年薪拿百万

      视学算法报道   编辑:桃子 拉燕 [新智元导读]杭州电子科技大学「王炸班」34个人上岸名校,其中3人考进清北. 如今考研,何以用一个「卷」字形容... 近日,就在杭州电子科技大学人工智能学院就出 ...

  8. MLNLP顶会论文发表总榜:谷歌最狂,清北入前十,周明、张岳、刘挺华人前三

    2020-02-08 16:38 导语:中美差距何止一丁点! 中美差距何止一丁点! 伦敦帝国理工学院机器学习和自然语言处理著名学者Marek Rei 教授从2016年起,每年都会对ML&NLP ...

  9. 学霸寝室4人保研清北浙交,三人直博,一人硕博连读!

    绩点名列前茅,分别保研至清北浙交:其中有三个人是直博,还有一个是硕博连读.四人皆多次获得各级奖学金,在各类竞赛中获优异成绩:参与支教,义务讲解,总志愿服务时长达300小时--来自同一个宿舍的潘家聪.张 ...

最新文章

  1. Linux中如何配置IP
  2. c语言加密算法头文件下载(base64、md5、sha1)
  3. 使用jquery调试ajax接口-2
  4. 使用反射处理protobuf数据结构
  5. python 图像无缝拼接,OpenCV Python 系列教程3 - Core 组件
  6. java判断五张牌中有一对,同花大顺-扑克牌问题一副扑克牌中任意取出五张牌,那五 – 手机爱问...
  7. ios学习Day3xiawu
  8. 参考平面及其高度_柱面及其方程
  9. 追根溯源 - 数据中台概念的起源
  10. Python 网络数据采集
  11. gps python获取图片坐标_女朋友会 Python 是多么可怕的一件事!
  12. 【转】C语言编程中static变量详解
  13. freemarker ftl java_FreeMarker学习1(Ftl)
  14. 在心中刻上你的名字,让思念如烟
  15. linux怎么用命令上传本地文件,Linux 将本地文件上传Linux服务器, 即ssh 命令上传本地文件...
  16. ECharts3D地图(详细示例——附有具体注释)
  17. 安装/卸载office2003出现“无法打开此修补程序包”错误
  18. 17AHU排位赛3 D题 旋转吧!雪月花 ! (DFS序,线段树维护树上最值)
  19. 高项_第十章项目沟通管理
  20. 软件构造LAB2心得

热门文章

  1. 猫哥教你写爬虫 006--条件判断和条件嵌套
  2. HackerRank:JavaScript 是最知名的编程语言
  3. vs2008格式化代码
  4. Fiddler小技巧-测试上传文件接口多参数并传情况
  5. Android Zxing 加入闪光灯功能
  6. 访谈 | 杨卫华谈技术人成长,要善用社区提升自身影响力
  7. [AaronYang]C#人爱学不学8[事件和.net4.5的弱事件深入浅出]
  8. asp.net利用Web Service实现短信发送致手机
  9. Oracle之comment关键字的详细讲解
  10. linux与windows下开发,Linux 与 Windows下开发感受