KDD 2020即将在8月23-27日召开。而近日,SIGKDD 2020官方推特也公布了本年度的各种奖项,其中清华大学教授、智源研究院学术副院长唐杰团队获得了ACM SIGKDD 2020时间检验应用科学奖!

获奖论文为唐杰等人在SIGKDD 2008发表的论文《ArnetMiner: extraction and mining of academic social networks》。

事实上,这并不只是一篇经历时间检验的论文。ArnetMiner(或AMiner),全称Academic Research Network Miner,即“学术研究网络挖掘平台”。从2006年起,唐杰便开始了该系统的研制,当时他还是一个博士生,所有程序只是在一台台式机上运行的demo;然而历经15年的打磨,如今该平台已经是上百人维护、数十台服务器运行的大型人才咨询、技术分析、学术查询的平台,而唐杰也已经成为数据挖掘领域的领军人物。

一个人,一个项目,一辈子,做到顶天立地。

与其说是时间检验论文,不如说是时间检验唐杰。唐杰教授曾多次向笔者表示,做研究最重要的就是专注,“做一件事情,就要把这事情做深做透,而不要在意别人怎么看、怎么说”。十多年来,唐杰每天凌晨2点睡觉,绝大多数时间泡在实验室中,几无中断;领域研究热点潮涨潮落,而他,研究的中心始终是AMiner系统。时间在变,而唐杰不变。这份专注,毫不客气地说,国内少有。

唐杰,清华大学计算机科学与技术系长聘教授,计算机系副主任,智源研究院学术副院长,清华-工程院知识智能联合实验室主任,国家杰青。研究兴趣包括:社会网络分析、数据挖掘、机器学习和知识图谱。发表论文200余篇,拥有专利20余项。主持研发了研究者社会网络挖掘系统AMiner,吸引了220个国家/地区1000多万独立IP访问。

作者:智源社区 贾伟

智源:恭喜获得SIGKDD 2020时间检验奖。我们注意到你在这方面的工作从2006年就已经开始了,截止到现在AMiner的研发时间差不多已经有14年了。所谓十年磨一剑,如今你已经将这个平台产业化。我们想借着这样一个机会了解一下Aminer这个平台的发展历程。首先,能不能介绍一下AMiner是什么?

唐杰:AMiner原本的名字叫ArnetMiner,因为我是做数据挖掘的,我们这个领域有位资深的教授,叫韩家炜,他比较喜欢用Miner这个词,当时我刚加入到数据挖掘这个领域,读过他的文章后,就想做一个什么Miner,这是名字后半部分的来源。前半部是Academic Research NETwork的缩写。所以整体上的意思是“学术研究网络挖掘”。后来仍觉得太长,就直接缩写为AMiner了。

从功能上来说,我们在2006年设计时的想法就是,给一个学者名字,这个程序能够自动从互联网上把相关的信息(例如主页、照片、E-mail地址、论文等)给抓过来,并呈现出来。最开始的功能就是这么简单。当然,经过这么多年,它的功能慢慢丰富了起来,例如怎么把相同名字的人区分开来,以及把项目、专利以及其他更多信息都汇聚过来。有了这些数据,我们可以在里面做更多深度的挖掘,可以挖掘技术的脉络,然后用来服务政府、企业等。举例来说,企业要做一个新的产品研发,他可以用这种技术来挖掘这个领域里面的技术脉络,以及有哪些竞争对手等。这个时候,AMiner就变成了一个可以面向公众、面向科研界以及面向企业和政府的服务性产品。

智源:所以本质上来说,Aminer是一个基于学者数据库构建起来的信息检索和挖掘系统。那构建和检索学者数据库的原理是什么?

唐杰:最开始的时候,是我写的程序,就在我们笔记本上跑。当时就是给定一个人名名单,名单是哪来呢?我最开始是从DBLP上把人名全抽出来,大概有200多万人名。有了名单之后,就去谷歌上搜索,谷歌会返回很多与这个人相关的页面;然后我做了一个分类器,去判断哪个页面是他的主页,分类器能做到90%多的精度,这也是我们发表的那篇文章中一个核心技术点;自动找到主页网址后,我编写一个程序把主页打开,用一个条件随机场的程序把里面的照片、EMAIL、地址、职位、学校等信息建成一个序列,进行统计学习。针对这些数据,我们也标注了一个包含几千个训练样本的数据,从而建立一个模型。最开始就完全是用这种方式自动抽取。

后来我们发现一个问题,有学者反馈说,你显示我的信息还是讲师,但我现在已经是教授了,这种信息变迁怎么办?于是我们后来也允许用户自己修改,变成自动抽取+用户修改相结合的模式。

再后来,问题又来了,因为有人会恶意修改信息,例如把韩家炜改成孙怡舟的学生(编者注:实际相反)。于是我们就做出一个程序,能够自动判断哪些是恶意修改,哪些是正确的,以及哪些信息是已经过时的。比如一个人的职位信息显示为讲师,10多年都没有变化,那这个信息很有可能就是过时的,程序就会自动去网上查找,核查对不对;当然程序不会去自动修改,而是会报警给我们。基本的原理大概就是这样。

智源:据我们了解,你在最初的时候研究方向应该不是数据挖掘,所以当时是基于什么样的考虑来做AMiner的?

唐杰:我博士的研究方向最开始是语义Web。主要做的就两件事,一个是本体集成,你可以想象成图匹配;另一个是语义标注,即把文档中文本的信息抽出来,变成一个语义化的结构。博三的时候,我去微软做了实习,当时碰到李航老师,他说有两个方向可以选择,一个是搜索,就是learning to ranking;一个是抽取,information extraction。当时我去的时候是九月份,李老师说干脆我们三个月做一篇文章发KDD吧。我们大概从12月开始,2月份就投了KDD,而且很幸运地中了。在这个过程中我学习到很多数据挖掘的东西,另外我也发现数据挖掘这个圈子的人都比较年轻,非常开放,这也坚定了我去做数据挖掘的想法。

当时我也快毕业了,就在想怎么再用数据挖掘做出一个新东西。当时我想了三个课题。一个是做个二手火车票系统,一个是做二手商品系统,第三个就是学者数据系统。后来想了想,我们对二手商品不大懂,二手火车票也玩不溜。于是就做了我们最懂的。当时,我们也没有想这么大,就想做一个网站。后来放进去的研究越来越多,越滚越大,后来就做了AMiner这样一科技情报系统。

智源:这非常有意思,所以也是基于偶然中的必然开始了这个研究。你有了这个想法之后,是怎么一步步把这个研究开展下去的?

唐杰:这个还真的花了一番功夫。毕业的第一年,我就给自己定了一个目标,除了在审论文外,今年不发文章。所以那年我基本上没有写论文,全部精力都在做这个系统。

当时人也少,只有本科刚毕业的张静、我读研二的师弟洪铭材,就我们三个人,做了一年,基本上就上线了。

当时我们一没钱、二没资源。我们就在实验室弄了台普通的台式机(不是服务器),把系统装在台式机上,另外很多程序也都是在我自己的笔记本上跑,当时清华网络比较快,我们就不停地抓数据,一天能抓一万上下的数据,200万的数据我们跑了好几百天。就这样慢慢把第一批数据给抓下来了。

我们没有美工做网站设计,所以第一个版本的界面完全是我自己画的。

做出一个能运行的系统后,我们在06年拿到一个国际会议ASWC进行demo展示。当时数据少,很多人都没有在里面,但只要一搜索,立马能抓取出来,当时大家感觉还是很炫酷的。后来我们把它写成文章,发表在SIGKDD 2008上了。

智源:AMiner系统从2008年开发至今,整个的过程中有哪些重大的变化吗?

唐杰:我觉得有几个。

首先,最早一个版本,其实是我用Perl写的,但Perl中有一个技术问题我一直没搞定;后来我让洪铭材帮我解决,结果他搞了几个晚上,也没搞定,一怒之下,他把整个系统用Java全部重写一遍,这是我们第一个在线运行的稳定的版本,这是很重要的一件事情。

第二个重要的事就是我们那篇文章。其实那篇文章,最早我们是投的WWW会议,评分意见是三个accept,一个weak accept,但结果却被拒了。然后我们就投了KDD。我们还在KDD上做了演示,还是比较成功的。我们的系统也是从那个时候开始引起国际学术界关注的。

随后还有一个重要的改版,就是我们找了一个清华的学生兼职做美工,帮我们把整个系统的界面重新设计了一遍,这样有了一个相对比较好看的版本。这是很重要的一件事情,因为它带来了一个效应,很多学生开始对这个事情感兴趣。当时我还没法带硕士生、博士生,只能带本科生。我就会在里面找一些小的topics让他们做,例如做图搜索或者去全网抓取课程等,AMiner里面的每一个小点都变成了一个研究,而且都很难,做完之后他们可以去发文章,而这个功能就集成到系统当中。于是当时很多本科生都来跟我做,08~10年这几年我们系前几名的本科生基本上都在跟着我做研究、发paper。这样一下子就把系统的功能做得非常丰富。

但这也带来一个麻烦,大家写的代码风格都不一样。一开始我和张静管不过来,所以到后来就晕了。2011年左右,我们就找了全职工程师高博,他帮忙把代码全部维护起来,这是非常重要的阶段。也是从那个时候开始,我慢慢就松一些了,我在系统编码上花费的精力就少了;之前上面的很多代码都是我写的。一直到14、15年左右基本上都是高博一个人在维护代码,当然中间也有一些其他的工程师短时间来过。

最后一个阶段,我们人越来越多了,系统也变得越来越大,最初系统是在实验室的一个服务器上运行就够了,但后来不行了,我们慢慢就把系统迁到云上;再加上当时有很多部门,例如工程院、科技部,找我们合作,对外的服务也就越来越多。这时候一个人就不够了,一开始我们在清华里招了大概10多个人的团队;后来团队成长得就更快了。在学校里维持这么大一个团队,很痛苦,于是我们就把它产业化了,系里和学校也都很支持。后来就到了现在。

智源:在设计和开发的过程中,你们有遇到什么困难?

唐杰:我觉得我们一直在遇到困难,说实话。

一开始,我刚留校,一点启动经费都没有,是完全没有。然后我的导师王克宏就给了我2万块钱的经费,他说这是你博士论文获得了“校优秀博士论文”,给了2万块钱奖金。我拿到这钱,就想2万块钱能干嘛呢,算了,请同学们吃饭吧,于是就每天中午请大家作报告,顺便吃个盒饭。当时最大的困难就是什么都没有,没有机器,没有计算资源,也没有人。直到2009年以后,我们才慢慢有了资源可以调用。

在这之后,最大的困难就是试错,当时我们设计了很多东西,但不知道用户喜欢什么。于是当时就是,有一个功能我们就上线,如果没有用户访问,我们慢慢就把这个功能给下线了。所以我们的试错成本非常高。不过一个好处是,当时我们还是以研究为主,当有一个问题来了,我们会在上面用一些算法做研究,发现效果大大提升,就可以发paper。这样的话,至少从研究上,大家还是认可的;如果系统上用的人多,我们就把它留下了,少了我们就把它换掉。

再往后,就是规模化之后,我们面临一个最大的挑战就是,还能不能坚持下去。当时我们自己心里是害怕的,因为团队大了之后,人员的开销、服务器的开销都特别大。当时我们很多开销都是用科研经费,甚至是我自己掏钱在养着,所以当时特别害怕,不知道该怎么办。后来也得到了许多人的帮忙,例如微软,他们当时在做微软学术搜索,他们看到后就和我们合作,说“你需要什么资源,我们都可以给你”,后来微软在云服务上给我们提供了好几年的资助。

最近,我们要把它真正变成一个产品,让它发挥更大范围的意义,这是我们面临的一个很重要的挑战。

有些事情,你原来会觉得它比较简单,但真正把它做大的时候,就会发现困难和挑战非常的大。

智源:Google Scholar也是做学术搜索,与AMiner有很大的相似之处。那么AMiner系统和Google Scholar之间有什么区别呢?

唐杰:Google Scholar从2004年开始做的,他们做的非常快。我还专门去谷歌总部访问了他们。他们说,最开始他们只有两个人;即使到现在也就十几个人,其中只有一半的人在做技术。

他们的一个优势是,他们只需要把搜索的整个基础架构做一个转换,就变成了学术搜索,所以非常快。一开始,他们主要做论文搜索。而AMiner与他们不同的是,我们更多的是偏研究色彩,就是把信息自动抓过来之后,通过算法来研究。

当然后来Google Scholar也加入了学者信息,不过他们并不是去抓取信息,而是让人自己建profile,如果我不写,那就没有;如果我写我是做机器学习的,那我就会出现在机器学习的排行中。我们在学者信息的自动获取上做了许多算法。我觉得这是我们最大的区别。

从功能上来说,我们现在做了很多面向企业和政府的工作。这也是一个很大的差别。

智源:从学术上来说的话,AMiner的学术意义是什么?

唐杰:我觉得是这样——我们现在发表了很多论文,研究病毒、基因、天体等,到现在全球已经有好几亿的论文了;但论文发表背后的规律是什么呢?我们至今还没有搞明白,这里面涉及到计算学、社会学、心理学等。美国很多年前启动一个很有名的项目,叫做Science of Science,很多相关学科的学者整合进来,就是要搞明白论文发表的本身的规律。AMiner从学术学科意义上与此相关,这是最核心的东西。我们希望在这个过程中,能够挖掘出学科发展背后的机理。

智源:现在AMiner已经注册成为公司。你们的盈利模式是什么?

唐杰:其实现在公司的成员主要还是原来实验室的一些员工或学生,我们一直有一个团队在做相关研究,继续发表相关论文,在核心技术上做一些事情。

AMiner本身的盈利模式,可以分成几大块。首先,To C方向,我们是完全免费的,任何人都可以去搜索论文、查找资料。另外两个最主要的应用,一个是面向政府,一个是面向企业。

这方面主要有两个脉络,一个是高端人才的发现和推荐,另一个是技术趋势、脉络的梳理和分析。我们最早的一个盈利点是专家推荐,比如说项目评审,找谁来评?他就需要一个最合适人选的推荐;另外在高端人才引进方面,哪个方向,引进谁?这也同样需要作出推荐。现在“十四五”规划,不仅仅是国家层面,甚至各级政府、各高校院所都希望能够把握未来的技术脉络,看清未来趋势。

最近我们又开了一条新的线,就是做知识图谱。知识图谱,是我的老本行,原来也一直在做,但更多的是在实验室做科学的知识图谱,当时也没有去想变现的问题。在这个过程中,我们做了很多工具。最近有许多企业找到我们,说想利用这套技术做他们领域的知识图谱,例如水利的知识图谱、电力的知识图谱、电商的知识图谱,我们最近和美团合作做了食品的知识图谱,还有我们马上将开启的石油的知识图谱等。这里知识图谱会面向各个领域,越做越大,随后我们希望能把所有这些知识图谱连接起来,构建一个非常大的常识知识图谱,这将助力未来的人工智能,在常识知识上取得突破,等待人工智能的再一次爆发。

智源:从2006年到现在,AMiner经过不断的迭代,现在已经做成一个大的平台,基本成熟了。未来的话,你希望这个品牌会变成什么样子?或者说在你心目中,它的最终形态应该是什么?

唐杰:我特别希望AMiner在未来有三个东西能输出出来。

第一个,把它做成一个真正特别实用的工具,能够让很多业内人士能方便地使用。这方面,我们还要不断地完善,把它做的更实。

第二个,输出一些工具性的东西,最后变成一些面向企业和政府的应用子系统,这些系统可以做一些深度的挖掘。举个极端的例子,现在中美对抗这么严重,芯片技术成为美国对中国卡脖子的一个问题,那么我们有没有别的技术路线可以走呢?芯片研发有哪几条脉络,哪些脉络是可以解决当下卡脖子问题的?我们希望能够用这条系统,给出一些政策的建议。所以在这方面,我们想做的更实、更深,做既有深度,又有应用的东西。

第三个,输出一些更加通用的工具,包括刚才我说的构建一整套的工具集。另外我们会在上面再做一些深度的推理。未来我们想做一个知识图谱构建的知识计算引擎,里面包括知识图谱构建、认知推理等相关的一些技术。

智源:就个人研究而言,随后你的研究还会不会继续和AMiner进行绑定呢?

唐杰:当然会。我最近把我们的研究重点转到了图数据的表示学习,包括图神经网络等。从前年开始,我们提出了一个新的概念,叫“认知图谱”。认知图谱里面,我定义三个核心要素:第一个是常识知识图谱,所以和AMiner是相关的;第二个是认知推理,这也是我们在AMiner上特别想做的;第三个是逻辑生成,就是生成带有逻辑性的文本。

智源:回顾你近20年研究生涯,以及AMiner近15年的开发历程,你觉得贯穿整个过程中的精神是什么?

唐杰:我觉得就两点很重要。

第一,一定要专注,做一个事情一定要特别专注。我觉得我去做一件事情,就特别喜欢把这件事做得特别solid,特别深。我当时读博士的时候,李航老师给我很大的影响,当然也跟我的导师王克宏老师,以及李涓子老师有很大关系。不要太去在乎别人怎么看、怎么说你,最关键的是你得很专注的把这个事情做好。

第二,我觉得也是清华精神,就是说每做一件事情,总要去想怎么能做到世界第一;或者说,这个事情我们怎么能做到别人做不到的境界。这个对我影响很大,每一件事情,我在做之前,就使劲地、反复地琢磨,我怎么才能让它真正变得伟大或者说真正能帮助到大家。今年我们毕业典礼上,陈文光老师代表我们发言,他说,我们清华的学生应该做这样的事情——如果我们做不到,就没有其他人能够做到。

我觉得这两点,是我在整个研究中不停反思,也是这20年对我影响最大的。


点击阅读原文,进入智源社区参与讨论,更可直接向唐杰教授提问!

关于我们

北京智源人工智能研究院(Beijing Academy of Artificial Intelligence,简称BAAI)成立于2018年11月,是在科技部和北京市委市政府的指导和支持下,由北京市科委和海淀区政府推动成立的新型研发机构。

//智源研究院简介

/// 

学术思想 | 基础理论 | 顶尖人才 | 企业创新 | 发展政策

专访:经历了时间检验的不仅是论文,还有唐杰自己 | SIGKDD 2020时间检验奖相关推荐

  1. 专访唐杰:万亿参数大模型只是一个开始

    机器之心原创 作者:闻菲 智源悟道团队不仅会在「大」这条路上走下去,还将对构建「神经-符号结合模型」进行更深入和底层的探索. 图灵写于 1950 年的论述<计算机器与智能>被誉为人工智能的 ...

  2. 计算机时间到底是怎么来的?程序员必看的时间知识!

    这篇文章我想和你聊一聊「时间」这个话题.时间总是在不经意间流逝,我们在写代码时,也经常会调用「时间 API」,你有思考过这背后的原理吗? 关于时间的问题还有很多,例如: 为什么计算机的时间有时候「走不 ...

  3. AAAI 2020 | 时间可以是二维的吗?基于二维时间图的视频内容片段检测

    作者 | 彭厚文.傅建龙 来源 | 微软研究院AI头条 编者按:当时间从一维走向二维,时序信息处理问题中一种全新的建模思路由此产生.根据这种新思路及其产生的二维时间图概念,微软亚洲研究院提出一种新的解 ...

  4. linux中文件记录的时间参数,【Linux】stat命令查看文件的三个时间参数

     在Windows中创建一个文件都会有相应的创建时间,修改时间,访问时间来记录文件的一些属性.在Linux中也不例外,文件也有三个时间来记录文件的变动,这三个时间分别是Modification t ...

  5. 【BLE MIDI】MIDI 时间标志分析 ( 音符速度设置事件 | 拍号设置事件 | 基本时间 - 每个四分音符有多少 tick 或 pulse | 节拍时值计算 | 小节时值计算 )

    文章目录 一.从 MIDI 文件中可以获取的信息 1.音符速度设置事件 2.拍号设置事件 3.文件头基本时间 二.节拍时值计算 三.小节时值计算 一.从 MIDI 文件中可以获取的信息 MIDI 时间 ...

  6. 操作系统老师上课讲的那个根据I/O时间和CPU时间比例来为进程分配优先级的题目,I/O时间比例越大,则这个进程的优先级越高

    链接:https://www.nowcoder.com/questionTerminal/bf9435b00606484c9f85fe93c72bf06d 来源:牛客网 某系统正在执行三个进程 P1. ...

  7. linux时间有几个,Linux下与文件相关的几个时间的介绍

    与文件相关的几个时间: 1.访问时间,读一次这个文件的内容,这个时间就会更新.比如对这个文件使用more命令.ls.stat命令都不会修改文件的访问时间. 2.修改时间,对文件内容修改一次,这个时间就 ...

  8. c统计多线程总时间_SQL Server处理器性能指标–第2部分–处理器:%用户时间,处理器:%特权时间,总时间和线程指标

    c统计多线程总时间 In SQL server processor performance metrics – Part 1 – The most important cpu metrics, we ...

  9. 清华AMiner团队推出AI订阅:实时追踪科研动态,定制个人科研信息流 | 专访唐杰教授团队

    科技情报大数据挖掘与服务系统平台 AMiner,是由清华大学计算机系唐杰教授团队建立,具有完全自主知识产权的新一代科技情报分析与挖掘平台. 近日,清华大学 AMiner 团队再次上线重磅功能 --AI ...

最新文章

  1. 「小程序JAVA实战」小程序视频上传方法的抽象复用(57)
  2. Python基础day07【文件读写、文件夹操作、面向对象(类、对象)】
  3. 图的广度优先搜索(bfs)以及深度优先搜索(dfs)
  4. 程序员面试金典 - 面试题 04.02. 最小高度树(二叉搜索树中序遍历)
  5. IDC分析报告:亚洲安全软件市场兴旺
  6. webpack入坑之旅(一)入门安装
  7. 年终个人总结:我这五年
  8. 啦啦外卖43.5学习研究开发
  9. [RK3399][Android7.1] 移植笔记 --- GT9XX系列Touch添加
  10. 看书和写书,简单而复杂的反思-读书分享会感悟
  11. 高通8155源码下载与Android源码编译
  12. AI护老虎,智护生态,英特尔用人工智能解决大问题
  13. python爬取电影评分_python爬取豆瓣电影排行榜(requests)的示例代码
  14. 招商大师与星范集团等医美龙头达成战略合作 从提业绩到建标杆
  15. Aleo的PoSW共识
  16. 拥有有趣灵魂的程序员们,程序员访谈(四)
  17. python文件名和类名需要一致吗_Python:类名与文件/模块名相同会导致继承问题?...
  18. 杨老师课堂之JavaScript定时器_农夫山泉限时秒杀案例
  19. HC-05 蓝牙模块使用
  20. 《Windows程序设计》读书笔十一 对话框

热门文章

  1. oracle引号的嵌套,3.4.2 在一个直接量字符串中嵌入单引号
  2. pearson相关系数_三个相关系数的注意事项
  3. mysql添加用户查重的方法_mysql 开发技巧之JOIN 更新和数据查重/去重
  4. ini文件怎么注释_wamp怎么升级php版本
  5. html调后台接口_前后端分离之让前端开发脱离接口束缚(mock)
  6. oracle单表高并发,见过这么高并发( logons current)的数据库么?
  7. 使用选择排序和二分查找在数组中查找数据
  8. 【c语言】蓝桥杯算法提高 输出三个整数的最大数
  9. java虚拟机资源根目录_Java路径问题最终解决方案—可定位所有资源的相对路径寻址 - java - CSDN技术......
  10. 修改Ubuntu的aptget源为阿里源的方法