本文分析数据来自于Web of Science, Google trend.

这篇文章准备从论文发表的角度分析,“大数据”为主题的论文有什么样的特征,这些内容对于特别是希望在这个领域发表论文的人会有帮助。

<1> 不同于前面两篇文章,这次我将会主要以统计信息客观的反应“大数据”在搜索引擎中被索引的热度,还有已发表的论文统计结果能够展现出怎样的特性。

首先,在goole trend中同时添加"big data"和"cloud computing"这两个词,google服务器会为我们计算出这两个词的关注度随时间变化趋势图,这张图反应了从2004年到目前这个时间段内关键词的评分变化。该评分变化反应的是这个关键词相对的关注度变化,google通过自己的统计方式和标准化过程,将关注度记为0-100分。详细计分方法

Figure 1.来自google trend的结果

图中的英文字母代表了与关键词相关的新闻头条。蓝色表示的是关于“cloud computing”的关注度,从2008年开始年关注度震荡上升,2011年达到顶峰到今天回落到50,2年的时间下跌了将近50%;再看看红色曲线代表的“big data”,从2012年起,开始高强度的进入公众的视野,用了1年的时间几乎复制云计算的神话。最高达到将近40的关注度。这个结果完全符合Gartner曲线,也印证了笔者之前两篇文章的分析。[1]   [2]

对于红色反应的“big data”,尽管Sam Shead的一篇名为Bigging up big data: Why the hype is about to stop的文章中。引用了Gartner一位分析师的话,最终把该技术发展势头不足的原因归结于采用的实现技术Hadoop早已经存在,并且快要过时了无法满足“大数据”的要求,这样的结论是没有根据的,hadoop只是一个开源的对数据进行分布式处理的软件框架,它的过时并不能代表大数据行不通,或许已经存在或者即将产生更多的商用且比MapReduce方法更强大有效地实现技术,所以hadoop的走势并不能代表大数据的走势。

反观上面那条蓝色的曲线,同样在2009年初和2010年7月,“cloud computing”曾经出现过2次明显的关注度下滑,但是随后有了迅猛的回升,我认为原因是在某些方面产生了突破,比如在前沿的科研范围内有了新的理论或者新的工程技术诞生,或者是过往的科学成果实现了商业化而且有了比较乐观的成效。

google trend的搜索结果里还可以看到“区域关注度”和“相关字词”的统计,他们分别是反应该词在世界不同国家和城市的关注度,和该次有相关关系词的关注度。感兴趣的人可以尝试使用免费的Google trend服务。

<2> 既然上文提到了新的理论或者新的工程技术诞生可以促进某领域的活跃度,那么我们不妨最直接的观察发表论文的情况(检索的数据库:SCI,SSCI,A&HCI,CPCI-SSH,CCR,IC)。

Figure 2.主题词为“big data”的引文报告

                                (Credit: Thomson Reuters)


Figure 3.主题词为“cloud computing”的引文报告

  (Credit: Thomson Reuters)

图二的报告反映出2012年发表的论文数比较2011有了爆发式的增长(就在笔者写这篇报告的时候,2012年的总论文数又增加了5篇,目前为56,总论文数为90,不知道哪个运气好的家伙文章被accept了)

图三的报告反映出经过了2011年科研的热潮后,从2012年开始,出版的相关论文数量已经开始下降,预测2013出版的文献数也会大幅少于2012。

其中一项体现研究活跃度的“健康指数”= 去除自引的被引频次总计 / 被引频次.比例越高,表示该领域的研究活跃度很高,比较容易找到全新的研究方向发表论文。

根据图二图三的数据得到“big data”的健康指数是96%,“cloud computing”的健康指数是71.4%。由此可以得出结论:“big data”从科研角度上说还比较空白,相对容易产生突破,但是较少的参考文献数量也会给我们带来不少挑战。

<3>接下来我将会提供更多的数据来解释,请大家做好准备。 以下六张图是来自付费服务Web of Science的分析结果,样本为主题词TI = “big data”的论文。样本容量为90。通过六个方面的分析,可以看出这仅有的90篇发表文献反应了该领域可以反映出方方面面的研究现状。它们分别是Web of Science类别,研究方向,机构扩展,出版年,来源出版物,国家/地区。

Figure 4.Web of Science结果分析    (Credit: Thomson Reuters)                                                              

Figure 5. 研究方向的结果分析  (Credit: Thomson Reuters)

                                                                 

       以上这两张图看似相近,但左边通过Web of Science服务的分类,可以进一步详细解释 Figure 5.中 第一条 Computer Science的具体研究方向,可见“big data”对计算机科学的影响,上到信息系统(Computer Science Information System),下到计算机硬件结构(Computer Science Hardware Architecture),都有可能从“大数据”的新思潮中得到启发。

                      

Figure 6.机构扩展结果分析                                                                                                                   Figure 7.出版年结果分析

                            (Credit: Thomson Reuters)                                                                                                                                                 (Credit: Thomson Reuters)

从图六和图七可以看出,在发表论文的研究机构中,中华人民共和国仅有华中科技大学(HUST)榜上有名,说明我科在计算机科学领域的科研嗅觉十分灵敏。这两篇分别是:

Distributed Storage System Big Data Mining Based on HPC Application-A Solar Photovoltaic Forecasting System Practice出版于:INFORMATION-AN INTERNATIONAL INTERDISCIPLINARY JOURNAL  卷: 15   期: 9。

A distributed big data storage and data mining framework for solar-generated electricity quantity forecasting 出版于来源出版物: PHOTONICS AND OPTOLECTRONICS MEETINGS (POEM) 2011: OPTOELECTRONIC DEVICES AND INTEGRATION  丛书: Proceedings of SPIE   卷:8333(会议在武汉光电国家实验室召开WNLO)

      

                                            Figure 8. 来源出版物结果分析                                                Figure 9. 国家/地区结果分析 (Credit: Thomson Reuters)   


       对于想要搭乘这一次科技浪潮的读者可以各取所需,想发论文的可以考虑在哪个科研方向,哪个国际会议和学术期刊,去哪个国家,哪所学校,这几个因素;热爱科学技术的Geek和产品经理可以畅想下“大数据”将会对自己有什么影响,该怎么折腾你们手下的程序猿。这都由你们来选择。

       另外,如果使用 google trend 搜索过 big data 的人一定会发现一个有趣的现象,关于这个词的热度,印度非常高(100),但是在中国却很低(9),但是从发表论文的统计来看,印度却榜上无名,中国以5篇排名第二,读者可以试着分析原因。


       那么除了上述人群以外的人呢?“云”和“大数据”就和你们无关了吗?看看图4和图5,有超过50%的论文发表来自于计算机科学之外的方向,包括经济,管理,社会科学,环境,医学,材料,生物,金融等各个领域,可以说未来,计算机科学的进步将与我们每一个人息息相关,伴随我们整个生命跨度。它会方便我们生活的方方面面,所以比较明智的是搞清楚自己在被一项什么样的技术服务,了解他们的语言和逻辑,因为总有一天,计算机会拥有更强大的智能。



终 作者Octavian

大数据,科研论文发表分析相关推荐

  1. 【2017年第3期】大数据服务三农的初步分析与探索

    孙忠富, 褚金翔, 马浚诚, 杜克明, 郑飞翔 中国农业科学院农业环境与可持续发展研究所,北京 100081 摘要:三农问题是当前中国密切关注的社会问题,大数据技术的发展为三农带来了新的机遇.首先,对 ...

  2. 【2017年第2期】感悟大数据——从数据管理和分析说起

    周傲英 华东师范大学数据科学与工程学院,上海  200062 摘要:大数据依然很热,对其解读也越发众说纷纭.结合笔者长期以来的研发经历和深层思考,讨论了对"大数据"本身." ...

  3. 大数据人工智能物联网论文_物联网学报“大数据”相关论文汇总

    戳上面的蓝字关注我们哦! <物联网学报>"大数据"相关论文汇总  (点击题目即可跳转至指定论文) [1]龚淑蕾, 李堃, 童恩, 等. 基于蜂窝工业物联网的智能工厂解决 ...

  4. 《大数据》2015年第3期“网络大数据专题”——大数据时代的互联网分析引擎...

    大数据时代的互联网分析引擎 窦志成,文继荣 (中国人民大学信息学院大数据管理与分析方法研究北京市重点实验室 北京 100872) 摘要:随着互联网尤其是移动互联网的高速发展,互联网文档的数量.内容的丰 ...

  5. 医院大数据中心建设要点分析

    当前,医院内部信息化体系纷乱复杂,已建设的业务系统少则数十个,多则近百个.既包括HIS.LIS.PACS.EMR.心电等医疗业务系统,还涉及到人.财.物等运营管理系统,每个系统厂商不同,设计不同.尽管 ...

  6. 基于大数据的中文舆情分析

    本文出自我的公众号:程序员江湖. 满满干货,关注就送. 基于大数据的中文舆情分析 助力企业洞察商机 社交媒体发展日益瞩目,在这个社会化媒体时代,用户成为企业最好的品牌推广大使.本文以新浪微博上某大型商 ...

  7. 2023最新大数据毕业设计论文题目(117篇)

    基于公共匿名平台数据的高校大学生心理健康问题识别系统 基于SOA农业大数据管理服务平台 基于对抗性迁移学习的药品不良反应监测研究 面向社交大数据的舆情分析系统 基于公告事件的投资决策分析系统 基于UG ...

  8. hadloop大数据平台论文_企业大数据平台建设过程中的问题和建议

    2 0 1 7 年 第 1 2 期 信 息 通 信 2017 (总第 180 期) INFORMATION & COMMUNICATIONS ( Sum . N o 180) 企业大数据平台建 ...

  9. Druid:一个用于大数据实时处理的开源分布式系统——大数据实时查询和分析的高容错、高性能开源分布式系统...

    转自:http://www.36dsj.com/archives/28590 Druid 是一个用于大数据实时查询和分析的高容错.高性能开源分布式系统,旨在快速处理大规模的数据,并能够实现快速查询和分 ...

最新文章

  1. c# .netframwork 4.0 调用 2.0时报错 混合模式程序集是针对“v2.0.50727”版的运行时生成的,在没有配置其他信息的情况下,无法在 4.0 运行时中加载该程序集。...
  2. C++/C++11中引用的使用
  3. idea 设置光标回到上一次位置的快捷键
  4. 漫谈递归:从斐波那契开始了解尾递归
  5. 消息队列:RabbitMQ和Kafka的比较
  6. HttpModule的认识与深入理解
  7. KVM虚拟化基础概念
  8. 移动硬盘安装linux,thinkpad sl400笔记本安装vista,双系统
  9. Win7系统盘瘦身。
  10. Android修改默认屏幕亮度
  11. 高中计算机学业水平测试题目,2016年高中学业水平考试信息技术学科模拟题一(带答案)...
  12. 创业元老崔姗姗回归背后,百度变革进入深水区
  13. 求职面试__无领导小组讨论__沉船逃生排序问题
  14. 数据库 视图基础概念
  15. 无可用下载链接_【PC】 文明6集成最新巴比伦DLC中文版下载
  16. 如何从头自己制作开发板?图文并茂,一步步操作给你看。
  17. 部编版是什么版本_什么叫做部编版?部编版和人教版的区别是什么?
  18. python怎么读取sav格式_利用Python读取外部数据文件
  19. 学完计算机绘图收获有哪些,国开电大-计算机绘图(本)-形考任务检测1-6答案...
  20. MG-BERT | 利用 无监督 原子表示学习 预测分子性质 | 在分子图上应用BERT | GNN | 无监督学习(掩蔽原子预训练) | attention

热门文章

  1. 企业如何挖掘自身大数据的价值?
  2. lisp全部文本改宋体字型_[推荐]修改任何文字(包括属性块、有名无名块)
  3. python中if函数的使用方法_Python-15 (if的基础使用)
  4. train_test_split()函数
  5. 5G VoNR+之IMS Data Channel概念
  6. 恒压供水全套 海利普变频器 恒压供水 海利普变频器
  7. autohotkey快捷键总结
  8. autoHotkey —— 查看目标窗口的信息-工具方法,不是代码方法
  9. 凯云水利水电工程造价系统 (四)配合比单价(2)
  10. SQL语句之分组查询--GROUP BY(group by)