来源:学术头条

本文约1600字,建议阅读5分钟

本文介绍了数据挖掘的最近研究进展,并展望了数据挖掘的未来发展趋势。

文末有数据派THU福利哦

近日,由清华大学人工智能研究院、北京智源人工智能研究院、清华 — 中国工程院知识智能联合研究中心共同编写的《人工智能之数据挖掘》报告正式发布。报告针对数据挖掘的情况进行了深度剖析,从数据挖掘的概念内涵、关键技术、人才研究、应用场景、发展趋势 5 个部分,介绍数据挖掘的最近研究进展,并展望了数据挖掘的未来发展趋势。

数据挖掘旨在从数据中挖掘知识,是一种跨学科的计算机科学分支,使用人工智能、机器学习、统计学和数据库等交叉学科领域方法在大规模、不完全、有噪声、模糊随机的数据集中自动搜索隐藏于其中的有着特殊关系性的数据和信息,并将其转化为计算机可处理的结构化表示,是知识发现的一个关键步骤。

报告分别对数据挖掘十大经典算法、统计数据分析方法、科技情报挖掘技术、社交网络与图数据挖掘技术、自然语言数据挖掘技术、多媒体数据挖掘技术、大规模数据挖掘技术、数据隐私保护和安全等方面进行了详细介绍和深入分析,并解读了 2013 年 - 2020 年 SIGKDD 会议收录的代表性论文。报告旨在为读者了解数据挖掘领域基础研究和应用研究等方面的代表性成果、研究动向和进展提供信息窗口。报告还介绍了数据挖掘技术在零售业、旅游业、物流业、医学界、金融业和电信业领域的应用。

报告依托清华大学自主研发的 AMiner 平台,分析了数据挖掘领域 21,018 位研究学者,并以他们发表的论文作为底层数据,从学者分布、学术水平、国际合作、学者流动等维度,对比分析了国内外机构、学者在该领域的发展状况,并利用 AMiner 平台的学者画像功能,展示了国内外代表性学者的详细信息,最后给出了相应的对策建议。下面选取具有代表性的分析维度进行说明。

技术研究发展趋势

数据挖掘和社交网络的研究热度居高不下,近五年来大数据、异常检测和时间序列挖掘的研究热度呈现明显的上升趋势。另外,聚类和分类的研究热度一直维持在较高水平,但在近五年内呈现出明显的下滑趋势。

图 2丨数据挖掘领域的技术研究发展趋势

学者分布

AMiner 平台数据显示,世界范围内数据挖掘领域高水平学者主要集中在以美国为首的北美洲、以英国、意大利为首的欧洲,和以中国为首的亚洲。

图 3丨数据挖掘领域 h-index 排名前 1000 学者的全球分布地图

中国数据挖掘领域高水平学者主要分布在京津冀地区、长江三角洲地区、广东省、香港特别行政区等中国东部发达地区。

图 4丨 数据挖掘领域 h-index 排名前 1000 学者的中国分布地图

学术水平

数据挖掘领域高水平论文总被引频次最高的国家是中国,其次是美国,但两者相差不大。中美两国在论文总被引频次、论文发表量、学者数量等指标上均远高于其他国家。

表 1 数据挖掘高水平论文总被引频次排名前 10 的国家

数据挖掘领域高水平论文总被引频次排名前 10 的全球机构中,中国仅清华大学上榜(排名第 5),其余 9 所机构均在美国。

表 2 数据挖掘高水平论文总被引频次排名前 10 的全球机构

国家合作

在数据挖掘领域合作高水平论文数量排名前 10 的国家中,大部分国家都倾向与中国(与其合作的国家数量为 6 个)、美国(与其合作的国家数量为 5 个)合作,其中中美两国合作最紧密。

图 5丨全球各国数据挖掘领域论文合作网络图

表 3 数据挖掘领域合作论文数量排名前 10 的国家列表

学者流动

2010 年 —2020 年间,美国数据挖掘领域学者流入和流出人次均位居全球首位,中国虽然位居第二,但约为美国一半。美国和澳大利亚在该领域学者流出人次大于流入人次,而中国、英国、印度、德国等国家相反。

图 6丨全球数据挖掘领域学者的流动情况

2010 年 —2020 年间,中国各省市中,北京市的数据挖掘学者流入和流出的人次明显高于其他地区。北京、上海和香港在该领域学者流入人次均高于流出人次,而南京、西安、武汉和杭州等地与此相反。

图 7丨中国数据挖掘领域学者的流动情况

学者画像

报告利用 AMiner 平台的 “学者画像” 功能,展示了数据挖掘领域国内外具有代表性的专家学者信息,包括基本信息、研究兴趣、学术指标、科研网络等。

图 8丨AMiner 平台数据挖掘领域学者画像示例

更多内容欢迎下载报告全文进行阅读。

报告全文下载地址:

https://static.aminer.cn/misc/pdf/DataMining.pdf

编辑:于腾凯

校对:王欣


数据派THU独家福利!

《Python数据分析全流程实操指南》主要围绕整个数据分析方法论的常规流程,介绍了Python常用的工具包,包括科学计算库Numpy、数据分析库Pandas、数据挖掘库Scikit-Learn,以及数据可视化库Matplotlib和Seaborn的基本知识,并从数据分析挖掘的实际业务应用出发,讲解了互联网、金融及零售等行业的真实案例,比如客户分群、产品精准营销、房价预测、特征降维等,深入浅出、循序渐进地介绍了Python数据分析的全过程。

点点为数据派THU的粉丝们争取了2本赠书福利!欢迎小伙伴儿在下方留言区说出想要获得赠书的理由,我们将为点赞数最高(截止到2020年12月19日中午12点)的2位读者免费送上此书~小编会联系你们哦!

点击“阅读原文”查看报告全文

福利 | 《人工智能之数据挖掘》报告发布:北京相关学者流动人次最高(附下载)...相关推荐

  1. 中国企业人工智能应用之道——从“浅尝试”到“规模化”.pdf(附下载链接)...

    大家好,我是文文(微信:sscbg2020),今天给大家分享埃森哲技术研究院于2020年7月发布的报告<中国企业人工智能应用之道-从"浅尝试"到"规模化" ...

  2. 罗兰贝格2022 年中国汽车金融报告:数字时代产业赋能新解法(附下载)

    引言 罗兰贝格发布<2022年中国汽车金融报告>,该系列报告于2014年首次发布以来备受关注.作为中国汽车产业的长期观察者,罗兰贝格持续关注汽车金融行业的变化趋势,本报告聚焦汽车金融行业数 ...

  3. 2018世界人工智能蓝皮书:看中国到底有多强!【附下载】| 智东西内参

    来源:智东西 人工智能是引领未来的战略性高科技,作为新一轮产业变革的核心驱动力,催生新技术.新产品.新产业.新模式,引发经济结构重大变革,深刻改变人类生产生活方式和思维模式,实现社会生产力的整体跃升. ...

  4. 2021元宇宙报告合辑(精选七篇) 附下载

    1992 年,Neal Stephenson的科幻小说<Snow Crash>中提 出 了 " metaverse(元宇宙,汉译本译为"超元域")" ...

  5. 【报告分享】2022中国元宇宙白皮书(附下载)

    摘要:白皮书分为9篇26章536页,专家们分别从 元宇宙的缘起.现状.技术.产业.法律与监管.伦理与风险.经济.人才和畅想等角度进行了深入的思考并分享了各自观点,是目前国内元宇宙领域方向明确.观点权威 ...

  6. 176页报告辟谣自动化时代的就业危机(附下载)

    来源:智东西 摘要:世行从新兴技术的社会影响出发,盘点劳动力市场的再培训.再就业需求,以及资本.政府的社会职责. 近十年,以人工智能为代表的技术爆炸正在重塑新一轮社会经济格局.这些创新极大地改变了就业 ...

  7. 【报告分享】中国都市圈发展报告:城镇化白皮书5.0.pdf(附下载链接)

    今天给大家分享的报告是戴德梁行于2020年1月份发布的<中国都市圈发展报告:城镇化白皮书5.0.pdf>,白皮书包含如下四大部分:1.宏观环境解读:2.国内都市圈的发展现状:3.国外都市圈 ...

  8. Visual Studio 2017新版发布,极大提高开发效率丨附下载

    2019独角兽企业重金招聘Python工程师标准>>> 最新的Visual Studio 2017免费下载[包含Professional.Enterprise.Community版本 ...

  9. Visual Studio 2017新版发布,极大提高开发效率丨附下载 1

    最新的Visual Studio 2017免费下载:https://www.evget.com/product... [包含Professional.Enterprise.Community版本] 为 ...

最新文章

  1. python初学者可以做的金融小程序-Python入门 —— 用pycharm写一个简单的小程序3...
  2. XCTF WEB weak_auth
  3. MyBatis 集成到Spring 的原理是什么?
  4. Eclipse 版本升级:如何不卸载旧版本 Eclipse 实现在线升级到最新版本?
  5. SQLSERVER对加密的存储过程、视图、触发器进行解密
  6. 刷爆了!Java蝉联5次第一,网友:最强王者!附70k架构师Java学习路线
  7. 数据表分区, 全新分区
  8. 学习总结-《父与子的编程之旅》chapter 3
  9. flutter 仿网易云音乐(1)
  10. 快手用户群体分析_抖音、快手竞品分析报告
  11. 京东物流系统架构演进中的最佳实践
  12. Unity 3D模型展示素材
  13. 万维网联盟将于2014年推出HTML5标准(四)
  14. 思维题 数颜色(洛谷 P3939)
  15. python的江湖世界
  16. 美剧24中的SAP软件
  17. Web Framworks 的决斗
  18. 谷歌浏览器手动同步设置
  19. [C语言]程序改错题。爱因斯坦曾出过这样的一道数学题:有一条长阶梯,若每步跨2阶,最后剩下1阶;若每步跨3阶,最后剩下2阶;若每步跨5阶,最后剩下4阶;若每步跨6阶,最后剩下5阶;只有每步跨7阶...
  20. 关于计算机的知识古人,关于科普知识的作文

热门文章

  1. 【c语言】蓝桥杯基础练习 闰年判断
  2. java 类的合成_Java设计模式-合成模式
  3. 【树莓派】制作树莓派最小镜像:img裁剪瘦身
  4. Linux执行df -h等操作卡住问题
  5. Timus 1837. Isenbaev's Number
  6. html5 游戏图片预加载,前端实现图片(img)预加载
  7. 计算机主机的作用和性能指标,Cpu是什么 cpu性能指标主要有哪几个方面【详细介绍】...
  8. Python-Pandas 如何shuffle(打乱)数据?
  9. Docker容器指定使用那几个CPU、memory资源限制
  10. numpy库中ones和zeros函数传入的shape(表示各个维度的度数)参数的详解