专访：经历了时间检验的不仅是论文，还有唐杰自己

KDD 2020即将在8月23-27日召开。而近日，SIGKDD 2020官方推特也公布了本年度的各种奖项，其中清华大学教授、智源研究院学术副院长唐杰团队获得了ACM SIGKDD 2020时间检验应用科学奖！

获奖论文为唐杰等人在SIGKDD 2008发表的论文《ArnetMiner: extraction and mining of academic social networks》。

事实上，这并不只是一篇经历时间检验的论文。ArnetMiner（或AMiner），全称Academic Research Network Miner，即“学术研究网络挖掘平台”。从2006年起，唐杰便开始了该系统的研制，当时他还是一个博士生，所有程序只是在一台台式机上运行的demo；然而历经15年的打磨，如今该平台已经是上百人维护、数十台服务器运行的大型人才咨询、技术分析、学术查询的平台，而唐杰也已经成为数据挖掘领域的领军人物。

一个人，一个项目，一辈子，做到顶天立地。

与其说是时间检验论文，不如说是时间检验唐杰。唐杰教授曾多次向笔者表示，做研究最重要的就是专注，“做一件事情，就要把这事情做深做透，而不要在意别人怎么看、怎么说”。十多年来，唐杰每天凌晨2点睡觉，绝大多数时间泡在实验室中，几无中断；领域研究热点潮涨潮落，而他，研究的中心始终是AMiner系统。时间在变，而唐杰不变。这份专注，毫不客气地说，国内少有。

唐杰，清华大学计算机科学与技术系长聘教授，计算机系副主任，智源研究院学术副院长，清华-工程院知识智能联合实验室主任，国家杰青。研究兴趣包括：社会网络分析、数据挖掘、机器学习和知识图谱。发表论文200余篇，拥有专利20余项。主持研发了研究者社会网络挖掘系统AMiner，吸引了220个国家/地区1000多万独立IP访问。

作者：智源社区贾伟

智源：恭喜获得SIGKDD 2020时间检验奖。我们注意到你在这方面的工作从2006年就已经开始了，截止到现在AMiner的研发时间差不多已经有14年了。所谓十年磨一剑，如今你已经将这个平台产业化。我们想借着这样一个机会了解一下Aminer这个平台的发展历程。首先，能不能介绍一下AMiner是什么？

唐杰：AMiner原本的名字叫ArnetMiner，因为我是做数据挖掘的，我们这个领域有位资深的教授，叫韩家炜，他比较喜欢用Miner这个词，当时我刚加入到数据挖掘这个领域，读过他的文章后，就想做一个什么Miner，这是名字后半部分的来源。前半部是Academic Research NETwork的缩写。所以整体上的意思是“学术研究网络挖掘”。后来仍觉得太长，就直接缩写为AMiner了。

从功能上来说，我们在2006年设计时的想法就是，给一个学者名字，这个程序能够自动从互联网上把相关的信息（例如主页、照片、E-mail地址、论文等）给抓过来，并呈现出来。最开始的功能就是这么简单。当然，经过这么多年，它的功能慢慢丰富了起来，例如怎么把相同名字的人区分开来，以及把项目、专利以及其他更多信息都汇聚过来。有了这些数据，我们可以在里面做更多深度的挖掘，可以挖掘技术的脉络，然后用来服务政府、企业等。举例来说，企业要做一个新的产品研发，他可以用这种技术来挖掘这个领域里面的技术脉络，以及有哪些竞争对手等。这个时候，AMiner就变成了一个可以面向公众、面向科研界以及面向企业和政府的服务性产品。

智源：所以本质上来说，Aminer是一个基于学者数据库构建起来的信息检索和挖掘系统。那构建和检索学者数据库的原理是什么？

唐杰：最开始的时候，是我写的程序，就在我们笔记本上跑。当时就是给定一个人名名单，名单是哪来呢？我最开始是从DBLP上把人名全抽出来，大概有200多万人名。有了名单之后，就去谷歌上搜索，谷歌会返回很多与这个人相关的页面；然后我做了一个分类器，去判断哪个页面是他的主页，分类器能做到90%多的精度，这也是我们发表的那篇文章中一个核心技术点；自动找到主页网址后，我编写一个程序把主页打开，用一个条件随机场的程序把里面的照片、EMAIL、地址、职位、学校等信息建成一个序列，进行统计学习。针对这些数据，我们也标注了一个包含几千个训练样本的数据，从而建立一个模型。最开始就完全是用这种方式自动抽取。

后来我们发现一个问题，有学者反馈说，你显示我的信息还是讲师，但我现在已经是教授了，这种信息变迁怎么办？于是我们后来也允许用户自己修改，变成自动抽取+用户修改相结合的模式。

再后来，问题又来了，因为有人会恶意修改信息，例如把韩家炜改成孙怡舟的学生（编者注：实际相反）。于是我们就做出一个程序，能够自动判断哪些是恶意修改，哪些是正确的，以及哪些信息是已经过时的。比如一个人的职位信息显示为讲师，10多年都没有变化，那这个信息很有可能就是过时的，程序就会自动去网上查找，核查对不对；当然程序不会去自动修改，而是会报警给我们。基本的原理大概就是这样。

智源：据我们了解，你在最初的时候研究方向应该不是数据挖掘，所以当时是基于什么样的考虑来做AMiner的？

唐杰：我博士的研究方向最开始是语义Web。主要做的就两件事，一个是本体集成，你可以想象成图匹配；另一个是语义标注，即把文档中文本的信息抽出来，变成一个语义化的结构。博三的时候，我去微软做了实习，当时碰到李航老师，他说有两个方向可以选择，一个是搜索，就是learning to ranking；一个是抽取，information extraction。当时我去的时候是九月份，李老师说干脆我们三个月做一篇文章发KDD吧。我们大概从12月开始，2月份就投了KDD，而且很幸运地中了。在这个过程中我学习到很多数据挖掘的东西，另外我也发现数据挖掘这个圈子的人都比较年轻，非常开放，这也坚定了我去做数据挖掘的想法。

当时我也快毕业了，就在想怎么再用数据挖掘做出一个新东西。当时我想了三个课题。一个是做个二手火车票系统，一个是做二手商品系统，第三个就是学者数据系统。后来想了想，我们对二手商品不大懂，二手火车票也玩不溜。于是就做了我们最懂的。当时，我们也没有想这么大，就想做一个网站。后来放进去的研究越来越多，越滚越大，后来就做了AMiner这样一科技情报系统。

智源：这非常有意思，所以也是基于偶然中的必然开始了这个研究。你有了这个想法之后，是怎么一步步把这个研究开展下去的？

唐杰：这个还真的花了一番功夫。毕业的第一年，我就给自己定了一个目标，除了在审论文外，今年不发文章。所以那年我基本上没有写论文，全部精力都在做这个系统。

当时人也少，只有本科刚毕业的张静、我读研二的师弟洪铭材，就我们三个人，做了一年，基本上就上线了。

当时我们一没钱、二没资源。我们就在实验室弄了台普通的台式机（不是服务器），把系统装在台式机上，另外很多程序也都是在我自己的笔记本上跑，当时清华网络比较快，我们就不停地抓数据，一天能抓一万上下的数据，200万的数据我们跑了好几百天。就这样慢慢把第一批数据给抓下来了。

我们没有美工做网站设计，所以第一个版本的界面完全是我自己画的。

做出一个能运行的系统后，我们在06年拿到一个国际会议ASWC进行demo展示。当时数据少，很多人都没有在里面，但只要一搜索，立马能抓取出来，当时大家感觉还是很炫酷的。后来我们把它写成文章，发表在SIGKDD 2008上了。

智源：AMiner系统从2008年开发至今，整个的过程中有哪些重大的变化吗？

唐杰：我觉得有几个。

首先，最早一个版本，其实是我用Perl写的，但Perl中有一个技术问题我一直没搞定；后来我让洪铭材帮我解决，结果他搞了几个晚上，也没搞定，一怒之下，他把整个系统用Java全部重写一遍，这是我们第一个在线运行的稳定的版本，这是很重要的一件事情。

第二个重要的事就是我们那篇文章。其实那篇文章，最早我们是投的WWW会议，评分意见是三个accept，一个weak accept，但结果却被拒了。然后我们就投了KDD。我们还在KDD上做了演示，还是比较成功的。我们的系统也是从那个时候开始引起国际学术界关注的。

随后还有一个重要的改版，就是我们找了一个清华的学生兼职做美工，帮我们把整个系统的界面重新设计了一遍，这样有了一个相对比较好看的版本。这是很重要的一件事情，因为它带来了一个效应，很多学生开始对这个事情感兴趣。当时我还没法带硕士生、博士生，只能带本科生。我就会在里面找一些小的topics让他们做，例如做图搜索或者去全网抓取课程等，AMiner里面的每一个小点都变成了一个研究，而且都很难，做完之后他们可以去发文章，而这个功能就集成到系统当中。于是当时很多本科生都来跟我做，08~10年这几年我们系前几名的本科生基本上都在跟着我做研究、发paper。这样一下子就把系统的功能做得非常丰富。

但这也带来一个麻烦，大家写的代码风格都不一样。一开始我和张静管不过来，所以到后来就晕了。2011年左右，我们就找了全职工程师高博，他帮忙把代码全部维护起来，这是非常重要的阶段。也是从那个时候开始，我慢慢就松一些了，我在系统编码上花费的精力就少了；之前上面的很多代码都是我写的。一直到14、15年左右基本上都是高博一个人在维护代码，当然中间也有一些其他的工程师短时间来过。

最后一个阶段，我们人越来越多了，系统也变得越来越大，最初系统是在实验室的一个服务器上运行就够了，但后来不行了，我们慢慢就把系统迁到云上；再加上当时有很多部门，例如工程院、科技部，找我们合作，对外的服务也就越来越多。这时候一个人就不够了，一开始我们在清华里招了大概10多个人的团队；后来团队成长得就更快了。在学校里维持这么大一个团队，很痛苦，于是我们就把它产业化了，系里和学校也都很支持。后来就到了现在。

智源：在设计和开发的过程中，你们有遇到什么困难？

唐杰：我觉得我们一直在遇到困难，说实话。

一开始，我刚留校，一点启动经费都没有，是完全没有。然后我的导师王克宏就给了我2万块钱的经费，他说这是你博士论文获得了“校优秀博士论文”，给了2万块钱奖金。我拿到这钱，就想2万块钱能干嘛呢，算了，请同学们吃饭吧，于是就每天中午请大家作报告，顺便吃个盒饭。当时最大的困难就是什么都没有，没有机器，没有计算资源，也没有人。直到2009年以后，我们才慢慢有了资源可以调用。

在这之后，最大的困难就是试错，当时我们设计了很多东西，但不知道用户喜欢什么。于是当时就是，有一个功能我们就上线，如果没有用户访问，我们慢慢就把这个功能给下线了。所以我们的试错成本非常高。不过一个好处是，当时我们还是以研究为主，当有一个问题来了，我们会在上面用一些算法做研究，发现效果大大提升，就可以发paper。这样的话，至少从研究上，大家还是认可的；如果系统上用的人多，我们就把它留下了，少了我们就把它换掉。

再往后，就是规模化之后，我们面临一个最大的挑战就是，还能不能坚持下去。当时我们自己心里是害怕的，因为团队大了之后，人员的开销、服务器的开销都特别大。当时我们很多开销都是用科研经费，甚至是我自己掏钱在养着，所以当时特别害怕，不知道该怎么办。后来也得到了许多人的帮忙，例如微软，他们当时在做微软学术搜索，他们看到后就和我们合作，说“你需要什么资源，我们都可以给你”，后来微软在云服务上给我们提供了好几年的资助。

最近，我们要把它真正变成一个产品，让它发挥更大范围的意义，这是我们面临的一个很重要的挑战。

有些事情，你原来会觉得它比较简单，但真正把它做大的时候，就会发现困难和挑战非常的大。

智源：Google Scholar也是做学术搜索，与AMiner有很大的相似之处。那么AMiner系统和Google Scholar之间有什么区别呢？

唐杰：Google Scholar从2004年开始做的，他们做的非常快。我还专门去谷歌总部访问了他们。他们说，最开始他们只有两个人；即使到现在也就十几个人，其中只有一半的人在做技术。

他们的一个优势是，他们只需要把搜索的整个基础架构做一个转换，就变成了学术搜索，所以非常快。一开始，他们主要做论文搜索。而AMiner与他们不同的是，我们更多的是偏研究色彩，就是把信息自动抓过来之后，通过算法来研究。

当然后来Google Scholar也加入了学者信息，不过他们并不是去抓取信息，而是让人自己建profile，如果我不写，那就没有；如果我写我是做机器学习的，那我就会出现在机器学习的排行中。我们在学者信息的自动获取上做了许多算法。我觉得这是我们最大的区别。

从功能上来说，我们现在做了很多面向企业和政府的工作。这也是一个很大的差别。

智源：从学术上来说的话，AMiner的学术意义是什么？

唐杰：我觉得是这样——我们现在发表了很多论文，研究病毒、基因、天体等，到现在全球已经有好几亿的论文了；但论文发表背后的规律是什么呢？我们至今还没有搞明白，这里面涉及到计算学、社会学、心理学等。美国很多年前启动一个很有名的项目，叫做Science of Science，很多相关学科的学者整合进来，就是要搞明白论文发表的本身的规律。AMiner从学术学科意义上与此相关，这是最核心的东西。我们希望在这个过程中，能够挖掘出学科发展背后的机理。

智源：现在AMiner已经注册成为公司。你们的盈利模式是什么？

唐杰：其实现在公司的成员主要还是原来实验室的一些员工或学生，我们一直有一个团队在做相关研究，继续发表相关论文，在核心技术上做一些事情。

AMiner本身的盈利模式，可以分成几大块。首先，To C方向，我们是完全免费的，任何人都可以去搜索论文、查找资料。另外两个最主要的应用，一个是面向政府，一个是面向企业。

这方面主要有两个脉络，一个是高端人才的发现和推荐，另一个是技术趋势、脉络的梳理和分析。我们最早的一个盈利点是专家推荐，比如说项目评审，找谁来评？他就需要一个最合适人选的推荐；另外在高端人才引进方面，哪个方向，引进谁？这也同样需要作出推荐。现在“十四五”规划，不仅仅是国家层面，甚至各级政府、各高校院所都希望能够把握未来的技术脉络，看清未来趋势。

最近我们又开了一条新的线，就是做知识图谱。知识图谱，是我的老本行，原来也一直在做，但更多的是在实验室做科学的知识图谱，当时也没有去想变现的问题。在这个过程中，我们做了很多工具。最近有许多企业找到我们，说想利用这套技术做他们领域的知识图谱，例如水利的知识图谱、电力的知识图谱、电商的知识图谱，我们最近和美团合作做了食品的知识图谱，还有我们马上将开启的石油的知识图谱等。这里知识图谱会面向各个领域，越做越大，随后我们希望能把所有这些知识图谱连接起来，构建一个非常大的常识知识图谱，这将助力未来的人工智能，在常识知识上取得突破，等待人工智能的再一次爆发。

智源：从2006年到现在，AMiner经过不断的迭代，现在已经做成一个大的平台，基本成熟了。未来的话，你希望这个品牌会变成什么样子？或者说在你心目中，它的最终形态应该是什么？

唐杰：我特别希望AMiner在未来有三个东西能输出出来。

第一个，把它做成一个真正特别实用的工具，能够让很多业内人士能方便地使用。这方面，我们还要不断地完善，把它做的更实。

第二个，输出一些工具性的东西，最后变成一些面向企业和政府的应用子系统，这些系统可以做一些深度的挖掘。举个极端的例子，现在中美对抗这么严重，芯片技术成为美国对中国卡脖子的一个问题，那么我们有没有别的技术路线可以走呢？芯片研发有哪几条脉络，哪些脉络是可以解决当下卡脖子问题的？我们希望能够用这条系统，给出一些政策的建议。所以在这方面，我们想做的更实、更深，做既有深度，又有应用的东西。

第三个，输出一些更加通用的工具，包括刚才我说的构建一整套的工具集。另外我们会在上面再做一些深度的推理。未来我们想做一个知识图谱构建的知识计算引擎，里面包括知识图谱构建、认知推理等相关的一些技术。

智源：就个人研究而言，随后你的研究还会不会继续和AMiner进行绑定呢？

唐杰：当然会。我最近把我们的研究重点转到了图数据的表示学习，包括图神经网络等。从前年开始，我们提出了一个新的概念，叫“认知图谱”。认知图谱里面，我定义三个核心要素：第一个是常识知识图谱，所以和AMiner是相关的；第二个是认知推理，这也是我们在AMiner上特别想做的；第三个是逻辑生成，就是生成带有逻辑性的文本。

智源：回顾你近20年研究生涯，以及AMiner近15年的开发历程，你觉得贯穿整个过程中的精神是什么？

唐杰：我觉得就两点很重要。

第一，一定要专注，做一个事情一定要特别专注。我觉得我去做一件事情，就特别喜欢把这件事做得特别solid，特别深。我当时读博士的时候，李航老师给我很大的影响，当然也跟我的导师王克宏老师，以及李涓子老师有很大关系。不要太去在乎别人怎么看、怎么说你，最关键的是你得很专注的把这个事情做好。

第二，我觉得也是清华精神，就是说每做一件事情，总要去想怎么能做到世界第一；或者说，这个事情我们怎么能做到别人做不到的境界。这个对我影响很大，每一件事情，我在做之前，就使劲地、反复地琢磨，我怎么才能让它真正变得伟大或者说真正能帮助到大家。今年我们毕业典礼上，陈文光老师代表我们发言，他说，我们清华的学生应该做这样的事情——如果我们做不到，就没有其他人能够做到。

我觉得这两点，是我在整个研究中不停反思，也是这20年对我影响最大的。

点击阅读原文，进入智源社区参与讨论，更可直接向唐杰教授提问！

关于我们

北京智源人工智能研究院（Beijing Academy of Artificial Intelligence，简称BAAI）成立于2018年11月，是在科技部和北京市委市政府的指导和支持下，由北京市科委和海淀区政府推动成立的新型研发机构。

//智源研究院简介

///

学术思想 | 基础理论 | 顶尖人才 | 企业创新 | 发展政策

专访：经历了时间检验的不仅是论文，还有唐杰自己 | SIGKDD 2020时间检验奖相关推荐

专访唐杰：万亿参数大模型只是一个开始
机器之心原创作者:闻菲智源悟道团队不仅会在「大」这条路上走下去,还将对构建「神经-符号结合模型」进行更深入和底层的探索. 图灵写于 1950 年的论述<计算机器与智能>被誉为人工智能的 ...
计算机时间到底是怎么来的？程序员必看的时间知识！
这篇文章我想和你聊一聊「时间」这个话题.时间总是在不经意间流逝,我们在写代码时,也经常会调用「时间 API」,你有思考过这背后的原理吗? 关于时间的问题还有很多,例如: 为什么计算机的时间有时候「走不 ...
AAAI 2020 | 时间可以是二维的吗？基于二维时间图的视频内容片段检测
作者 | 彭厚文.傅建龙来源 | 微软研究院AI头条编者按:当时间从一维走向二维,时序信息处理问题中一种全新的建模思路由此产生.根据这种新思路及其产生的二维时间图概念,微软亚洲研究院提出一种新的解 ...
linux中文件记录的时间参数,【Linux】stat命令查看文件的三个时间参数
在Windows中创建一个文件都会有相应的创建时间,修改时间,访问时间来记录文件的一些属性.在Linux中也不例外,文件也有三个时间来记录文件的变动,这三个时间分别是Modification t ...
【BLE MIDI】MIDI 时间标志分析 ( 音符速度设置事件 | 拍号设置事件 | 基本时间 - 每个四分音符有多少 tick 或 pulse | 节拍时值计算 | 小节时值计算 )
文章目录一.从 MIDI 文件中可以获取的信息 1.音符速度设置事件 2.拍号设置事件 3.文件头基本时间二.节拍时值计算三.小节时值计算一.从 MIDI 文件中可以获取的信息 MIDI 时间 ...
操作系统老师上课讲的那个根据I/O时间和CPU时间比例来为进程分配优先级的题目，I/O时间比例越大，则这个进程的优先级越高
链接:https://www.nowcoder.com/questionTerminal/bf9435b00606484c9f85fe93c72bf06d 来源:牛客网某系统正在执行三个进程 P1. ...
linux时间有几个,Linux下与文件相关的几个时间的介绍
与文件相关的几个时间: 1.访问时间,读一次这个文件的内容,这个时间就会更新.比如对这个文件使用more命令.ls.stat命令都不会修改文件的访问时间. 2.修改时间,对文件内容修改一次,这个时间就 ...
c统计多线程总时间_SQL Server处理器性能指标–第2部分–处理器：％用户时间，处理器：％特权时间，总时间和线程指标
c统计多线程总时间 In SQL server processor performance metrics – Part 1 – The most important cpu metrics, we ...
清华AMiner团队推出AI订阅：实时追踪科研动态，定制个人科研信息流 | 专访唐杰教授团队
科技情报大数据挖掘与服务系统平台 AMiner,是由清华大学计算机系唐杰教授团队建立,具有完全自主知识产权的新一代科技情报分析与挖掘平台. 近日,清华大学 AMiner 团队再次上线重磅功能 --AI ...

专访：经历了时间检验的不仅是论文，还有唐杰自己 | SIGKDD 2020时间检验奖

专访：经历了时间检验的不仅是论文，还有唐杰自己 | SIGKDD 2020时间检验奖相关推荐

最新文章

热门文章