大数据给每个科研领域的研究方式带来了前所未有的变化。每个领域中,研究人员可使用的工具皆有显著性,大数据现在逐渐成为横跨各学科领域的共同工具。大数据集的可取得性以及可存储并共享大量的数据的能力为研究人员打开了科学探索的几条途径。

数据是研究工作的基础,对研究人员有非常重要的价值,因此,大多数的研究人员都认为海量数据是一个福音,尤其是在遗传学、天文学与粒子物理领域工作的人。虽然大数据现在被认为是一种无与伦比的科学模式,但统计人员建议科研人员要谨慎对待大数据,因为大数据的本质是多维度的,而且永远都在变化。研究人员已经接受了大数据,但大数据不止带来了机会,也带来了复杂性。在处理大数据时候,学术圈面临的主要挑战有:

1. 有效管理数据:存储大量数据集对研究人员来说不止有设备问题还有经济上的困难,尤其是单位不提供支持时。除此之外,因为数据的隐私性、安全性和完整性可能会在跨国研究中牵涉到利益冲突,管理和共享大数据集变得异常复杂。因此,需要一个可以克服设备挑战还有能让已数据为本的研究能顺利进行的永续发展的经济模式。

2. 数据收集重于研究设计:虽然数据对任何研究来说都是至关重要,很多时候收集数据的重要性要大于用心设计研究。有些科研人员都存在这样的误解,即更多的数据直接关系到更好的研究。许多时候收集大量数据的原因是人们认为这可以帮助研究,而忽略了数据的收集方式和用途,英国有一个类似案例,一个涉及 20,000 多名儿童的研究,要评估巴氏杀菌奶的好处,这个研究的设计和试验执行的规模遭到统计学家 William Gosset 的批评,他指出由于随机化不足,不如只用 6 对双胞胎进行研究会更可靠。

3. 大数据需要特殊工具才能分析:传统的数据分析工具无法处理大数据。标准的软件技术通常是设计用来分析小的数据集,但是大数据包含的数据量之大,传统的工具可能要花大量的时间进行分析,或根本无法处理。因此,需要特殊的工具来连接数据到模型,实现准确的数据评估,微软有一个的称为 FaST-LMM(Factored Spectrally Transformed Linear Mixed Model)的算法就是一例。

4. 海量数据可能使数据解读更具挑战性:大数据包含不同来源的数据,使得数据多元化并难以解释。比如说,包含世界人口信息的数据集会有基于不同地理位置、生活方式等的数据,并且可能使用不同的技术进行收集,研究人员可能无法考虑数据的所有面向,最后导致不正确的结论。因此,有必要制定可靠、能克服统计偏差的数据解释程序。

5. 意图在数据中找到模式是非常危险的:大数据很大,研究人员需要将数据集中有用的数据分开。然而,大多数情况下,与其排除不需要的数据,人们倾向于直接寻找模式,直到找到能支持原先假设观念的证据。这是进行研究时非常危险的陷阱。

数据是有价值的资产,这点毋庸置疑,2012 年世界经济论坛中发表的宣言中,将数据当作经济资产的新类别说明了这个事实,大数据在推动科学发展中起到重要的作用。然而,处理大数据的缺点显示出大数据并不总是等于好数据,因此研究人员需要平衡数据与领域专业知识和科学推理,将大数据的潜力最大化。

大数据数据收集数据困难_大数据就是好数据吗?研究人员在处理大数据集时遭遇的 5 大挑战...相关推荐

  1. 大数据技术 学习之旅_为什么聚焦是您数据科学之旅的关键

    大数据技术 学习之旅 David Robinson, a data scientist, has said the following quotes: 数据科学家David Robinson曾说过以下 ...

  2. 机器学习数据倾斜的解决方法_机器学习并不总是解决数据问题的方法

    机器学习数据倾斜的解决方法 总览 (Overview) I was given a large dataset of files, what some would like to call big d ...

  3. 基于python的数据爬取与分析_基于Python的网站数据爬取与分析的技术实现策略

    欧阳元东 摘要:Python为网页数据爬取和数据分析提供了很多工具包.基于Python的BeautifulSoup可以快速高效地爬取网站数据,Pandas工具能方便灵活地清洗分析数据,调用Python ...

  4. mysql清空数据库所有表的命令_mysql清空表数据命令是什么?_数据库,mysql,清空表数据...

    mysql服务无法启动怎么解决_数据库 mysql服务无法启动的解决方法是:1.配置环境变量:2.在mysql安装目录下,新建my.ini文件,设置默认字符集.端口.存储引擎等:3.执行[mysqld ...

  5. 假设mysql数据表t1有字段_使用ROMA Connect集成数据

    概述 ROMA Connect支持接入多种类型的数据源,并通过数据集成任务实现源端到目标端的数据集成转换.ROMA Connect支持相同结构数据之间进行集成转换,也支持异构数据之间进行集成转换. 本 ...

  6. pb 修改数据窗口种指定字段位置_在PB中控制 数据窗口 列修改属性.doc

    芬宅皿泽雇松畜站柬莲喀追痢弘翁藐粹顶它旷研擒阵愁檬酥噬镰赔宋全搓昨吉挑衫劣霍侣街允伎削粹海凝剪讳理伞泣簇辛惮对拾精漂详拽汹厌据痹拐幂炭柞戒氖稀配韭炔辑折炎耕瞪拱甲邑并楼蹿学涸混铂饥别公沈协搐絮昧荡碟柿 ...

  7. 无损链接分解_一点都不能少!伯克利研究人员提出深度学习锻造无损数据压缩新方法...

    From: BAIR 编译: T.R 数据压缩对于高速传输和高密度保存至关重要.近日来自伯克利的研究人员基于深度学习提出了一种可广泛应用的有效无损数据压缩方法,基于bits-back编码和非对称数字系 ...

  8. 大数据技术 学习之旅_如何开始您的数据科学之旅?

    大数据技术 学习之旅 Machine Learning seems to be fascinating to a lot of beginners but they often get lost in ...

  9. 大数据定律与中心极限定理_为什么中心极限定理对数据科学家很重要?

    大数据定律与中心极限定理 数据科学 (Data Science) The Central Limit Theorem is at the center of statistical inference ...

最新文章

  1. python进行数据分析 kindle_利用Python进行数据分析
  2. 面向对象(继承,多态)
  3. 在maven pom.xml中加载不同的properties ,如localhost 和 dev master等jdbc.properties 中的链接不一样...
  4. 达梦工作笔记-将A表的ID插入到B表,将A表的数据更新到B表
  5. 双赛道20支战队解题思路大公开,线上Poster Session等你来
  6. 转储sql文件_在Linux上SQL Server中更改SQL转储文件位置
  7. c语言基础知识难点,C语言基础的几个难点解析
  8. 基于react-app搭建react-router+redux项目
  9. VS2008的绿色精简版,只有VC2008部分
  10. 面试题大汇总华为面试题
  11. cad卸载不干净_【实用】流氓软件卸载不干净?
  12. Hrbust 2064 萌萌哒十五酱的宠物~(树链剖分+线段树)
  13. 川大博士生被华为以200万年薪录用!分享以下科研及论文写作经验
  14. docker 网络方案--分析
  15. 我的Java学习之路2009-11-17
  16. JavaScript随手笔记---保留小数位
  17. 项目管理:成为项目经理,是怎样的经历?
  18. 《计算机科学概论(第12版)》—第1章1.10节通信差错
  19. java面试题大全(整理版)
  20. “牛气冲天”预交卷,2022年雨花区会怎样“如虎添翼”?

热门文章

  1. Java线程(七):锁对象Lock-同步问题更完美的处理方式 .
  2. java(安全方便的从控制台读入数据)[对Scanner类进行封装,用正则表达式判断]...
  3. HTML5 FileReader API 测试(一)
  4. C和C++实务精选丛书
  5. SQL Server 2005 高级程序设计 学习笔记(2)
  6. Silverlight 解谜游戏 之十六 消失的蒙娜丽莎
  7. PLSQL Developer导入csv文件到oracle
  8. Linux设置ssh免密码登录
  9. mysql数据库查询优化建议_mysql数据库查询优化的24条建议
  10. esp8266 阿里云 arduino_NUCLEO-G071RB通过WiFi与NB连接阿里云