在这个一秒钟就可能江山易主的大数据时代,获得最真实可靠的数据并进行准确的分析和预测是企业占得先机的重要条件。如何在数据上展开角力成为企业生存的核心问题,只有企业对大数据的“外貌”和“内涵”有详尽的了解和把握,企业才有可能在未来的发展中分得一杯羹。

多样的非结构性数据

在电影《黑客帝国》当中,主人公尼奥在服下了蓝色药丸之后,就发现所有在他身边的一切其实都是数字化的幻想而已,他 的工作、伙伴、住的高楼,看到的天空大地,甚至于他的情绪都不例外。电影的创作自然可以天马行空,真实的物理世界尽管不是如此,但不可否认的是它也在朝着 数字化的方向高速前进。

像是高楼大厦,在动工之前就会形成一个涵盖了设计、施工、维护等多方面的综合建筑信息模型,它所使用的就是三维建模 技术。在消费者看来,人们绝对会因为建筑信息模型的美观大方而自掏腰包购买效果图;在地产商看来,建筑信息模型所透露出来的信息便是他们需要为整个过程投 入多少;在设计师看来,整个模型清清楚楚地呈现了所有设计的综合,他们能够在当中调整管线走向和通风设计等等;在工人看来,模型就是他们的施工图;在消防 部门看来,即便是尚未完工的建筑也可以通过模型来评估它的消防效果,并模拟人群疏散的动态情形。总之,这建筑的方方面面实际上都已经数字化了。

日常生活中人们所接触到的文件、照片、视频,还有海量的数据,都有大量的信息蕴含其中。此类数据的特点是共同的,尽 管它们的大小、内容、格式和用途并不相通。拿最为常见的WORD文档举例就会发现,最为简单的文档可能就只有几行字而已,但是一旦插进了图片、音乐等多媒 体内容就可以成为一个多媒体的文件,文章的感染力就会增强。这一类数据就是非结构性数据。

结构性数据与之相对应,在结构性数据中人们对于表格中的数据可以简单解释,因为结构都是相通的。每个人每个月所领到 的工资条,工资条的结构就没有变化过,变化的只是里面的工资和个税、保险。个人的工资条排列在一起就形成了工资表。结构化数据的计算机处理技术已经成熟 了,会计和审计可以很有效地利用Excel工具来进行加减乘除、汇总和统计等一类的任务。要是有大量运算存在的话,商业数据库就会使用上,它们的任务就是 存储和处理这些结构性数据。

可是,日常生活中无论是企业数据还是日常数据,大部分都是非结构性的。有咨询机构调查显示非结构性的数据占到了整个 企业数据量的80%,还有调查显示高达95%,这个数据暂时还没有权威、准确的统计。信息产业这么多年一直在努力的方向就是让非结构性的数据能和结构性数 据一样获得便利、快捷的处理。可是他们总在走弯路,一开始人们希望用处理结构性数据的方式来处理非结构性数据。只是非结构性数据个体之间的差异太大,用统 一的处理模式来硬套的话,结果显然是不会太好。因此人们有很长一段时间认为非结构性数据的处理难度很大。

幸运的是谷歌公司成了大数据处理技术的先驱,它为公众提供搜索服务的同时,把大量网页、文档等数据的快速访问难题也 解决了。雅虎公司也有一个研发小组,在谷歌技术的基础上成功地开发了一整套处理大数据的程序框架,这就是大众所熟知的Hadoop。目前这个领域的技术发 展很是快速。

以上这些公司的技术研发,让不少人在面对非结构性数据的处理问题上重新找回了自信,因此高清图像、视频等处理技术都进入了快速发展的时期。

社交网络上人们情绪表达方式也日渐丰富,企业为人们开发了众多表达心情的标准化图示,用以表达人们的各种复杂的情绪。

大数据的价值发掘

我们来说说银行、地铁中那些敏感部门或是地点的视频监控,凡摄像头的运转均为24小时,它势必会产生大量的视频数 据。通常情况下的视频数据是枯燥乏味的,人们不会关心。但是一旦拍到了图谋不轨的行为,那么对于公安人员来说这视频就非常有价值了。可是事先人们不会知道 哪一个部分有用,因此所有的视频材料都要保存下来,即便是存了一年的数据哪怕只有一帧对破案有用也是有价值的视频。不过对于研究人类行为的社会学家来说, 这些视频都是非常珍贵的第一手材料,因为从中能发现人类的行为模式特点。

人们如今要获得医疗数据并非难事,手腕上的一块和电子表颇为类似的仪器就可以随时随地测量脉搏、体温和血压等等数 据,再不断地将其传回医疗中心。数据除了能帮助人们检测自己的健康情况外,医疗保险公司也很是青睐这技术。保险公司的精算师依照这些数据的特点来研发新的 保险产品,对他们现有的产品组合也是非常有帮助的。

上述的种种事例说明了:1.数据的价值是无可限量的;2.当然这价值犹如沙滩中的黄金一般需要挖掘;3.组合数据的价值要比单一种类的数据价值高得多。

在研究各行各业的数据应用中,会发现即使手中有一座如此大的宝藏,但挖掘工作仍是非常困难的,原因正是由于自身的数 据中所蕴含的重生之道还不为人所知。互联网公司是最早意识到数据价值的公司,因此它们总在研究和分析领域领先。不过大数据的专利不再是属于大公司,它需要 的是看待世界、产业的观念和视角。大公司通过它来合纵连横,扩张跨界,小公司也可以细水长流。关键问题在于如何看待大数据。

究竟多快才是快呢?

显然是小于1秒,就在分秒之间的客户体验。

传统数据应用和大数据应用之间的重要区别就在于此。十几年间,无论是电信还是金融行业都在经历着一场核心应用系统从 分散到总部统一的过程。集中大量数据之后,所产生的第一个问题就是各类报表形成的时间延长了。业界在很长时间内都在质疑能否从海量增加的数据中快速地提取 信息。

在这个领域,谷歌公司的贡献是有开创性的。谷歌的搜索引擎就仿佛在向信息业界宣布,全世界我那工业的搜索可以在1秒内完成,并得到所要得到的结果。大数据应用领域谷歌成了一个标杆。要是有超过1秒钟的数据应用的话,用户就会有不良的体验。下面举个营销方面的例子。

人们在购买越是昂贵的东西时就越是犹豫,会反复去掂量自己的购买能力。购买价格便宜的东西就越容易呈现出冲动购买的 特征。根据消费者的购买特点,京东商城将其分为了四种类型,其中37%是冲动购买者。对于这类购物者来说,能够在冲动的一瞬间为其送上最为精准的商品信 息,是商品销售中的关键因素。幸运的是,关于这一点,社交平台的出现,为调查人们的偏好和兴趣提供了一个极好的平台,也让大数据时代这种精准的营销成了可 能。

股票市场的交易主要是高频交易,要比他人快0.02秒才能有惊人的收益。为了能比他人快20毫秒,有人特地建了一条横跨西海岸到东海岸的光纤,还有人索性就留在了纽交所所在的街区。由毫秒时间差所造成的商业机会,此后会因为大数据的普及而出现在众多行业当中。

很多以应急反应为主的新兴产业很注重时效性。他们如果了解到某工厂有了事故,就会在第一时间做出判断,评估影响范围,到达现场并展开处置。

互联网投资创业现在的热点领域是O2O。经过商家门口的消费者如果能即时收到商家的促销信息,无疑是最为美好的服 务。此时的促销消息若是消费者正好需要的商品或是服务,人人都能从中获益。消费者节省了时间,商家商品得到销售,服务商也获得了佣金。如果所提供的促销信 息非准确时间获得的,那就会演变成为最为恼人的垃圾信息。谁都不愿意在任何时间任何地方收到垃圾信息,而这两种信息的差别常常只是几秒钟的差异而已。

数据的活性越高就有越大的价值。曾经有一家公司提供了数据样本希望有人能帮他们来评估一下潜在的商业价值。数据量很大,更新频率也很高。这样的数据并非不常见,很多支付公司所收集到的交费记录常常都是如此。

数据的活性实际上就是数据的更新频率,更新频率越高的数据就有越大的活性,反之亦然。通常来说,数据集中的活性越大,就有越丰富的信息在其中。因此在大数据领域要有所成就的话,就要想办法去提高数据的活性。

对于公司的投资价值的判定,人们常常会听到这样的观点,公司是否拥有成规模和有活性的数据。之所以多样化和快速等特征不被提及,就因为人们更容易记住这一点。

大数据的结构化、非结构化、半结构化及多结构化

阅读大数据有关文章时,很多类似数据如何被结构化、非结构化、半结构化、多结构化的概念讨论会出现。通常大数据都是非结构性的,而传统数据是结构性的。只不过二者之间的差异并非绝对清晰。

应该说,大多数传统数据都是结构性的。这说明传统数据具有明确的、预先规范好的细节的格式等特点。任何一个时候出现 的新数据都是以这样的模式呈现的。对股票交易来说,交易信息的第一部分格式就是月份/日期/年份等时间信息,然后就是12位的账户数字,接下来是3-5位 字母所表示的股票代码。信息的格式事先就已经定好了,再由规范好的格式和顺序给出,这样的话处理起来就比较简单。

人们在面对非结构性的数据时,常常是没有控制权的,能做的就是接收它们。像是文本数据、视频数据、音频数据等等都是这样。图像是独立像素用特定的方式组合起来的,只不过组合的方式是千变万化的。完全非结构性的数据就是如此。事实上大多数的大数据应该算是半结构化的。

半结构性的数据还是具备可理解的逻辑流程和格式,只是这些格式并非对用户都表现出了友好的姿态。半结构性的数据从某 种程度上也可以被称作是多结构性的数据。此类数据,大量无价值的数据包裹着有价值的数据。相同情况下,理解和分析半结构性的数据难度要大很多。因此要用一 套复杂的规则来理解半结构性的数据,只有在读了每一条信息之后才能动态地决定处理方法。

半结构性数据中最典型的就是网络日志。人们看到网络日志时,会觉得很丑陋,事实上它们中的每一条信息都有特定的价值。

非结构性的大数据源并不常见,反倒是大量的半结构性数据和多结构性数据比较常见。它们拥有可理解的逻辑流程,从中能提取出能用于分析的信息。只不过要驾驭半结构化的数据,必须有时间的保障,这才是处理它们的最佳方式。

网络日志的信息是有逻辑的,尽管很多时候很难看出来。日志中字段和分隔符都是不同的,仿佛是结构性的数据一般,包含 了大量的价值。只不过它们彼此间非以固定的方式相联系。不同网站上的网络日志点击所用的时间长短不一。另外,半结构性的数据要理解其内在的逻辑并非不可能 的,只不过要花上一段时间才行。

分析专家似乎更怕非结构性数据,半结构性的数据对他们来说,要征服是需要付出努力的,而他们也能够做得到。分析专家 首先要把半结构性的数据组织成结构性的,然后再在他们的分析流程中运用。而对于非结构性的数据来说,困难就会大很多。即便是已经征服了半结构性的数据,他 们要面对非结构性的数据时还是会感觉是个巨大的挑战。

大数据是扩展性的下一代传统数据

关于大数据的各种言论作为为众人所关注的热点层出不穷,核心还是大数据要如何从根本上变革分析和使用大数据的方法。仔细思考一下,会发现事实并非如此。

关于庞大的大数据和它们的可扩展性已经不是个新鲜的话题。第一次使用新数据源的时候,通常会认定大数据是庞大的且很 难使用的。事实上大数据不过是突破了当前极限,更大规模的数据罢了。分析专家对于传统数据源的掌握即便是有瓶颈的,但这也不影响其驾驭大数据源。毕竟分析 专家从一开始就非常努力地在探索新数据源,并且将持续下去。

在电信公司中分析电话详单的第一人是谁?当然是分析专家。深入研究零售点销售数据并为此找到价值的第一人又是谁?当然也是分析专家。最初,分析几千个到几万个,甚至几十万个商品的数据被视为是一个巨大的难题。可是现在这一切已经迎刃而解。

最早开始做数据源分析的分析专家处理的数据便是在当时被认定为无法处理的数据。首先他们要做的是找到分析和利用的方法,并且是在当时的条件下。不少人对可行性产生质疑,还有人认为这些数据并非具有价值。

分析专家们正努力在做的事情和他们做事情的理由不会因为大数据而发生改变,即便从一开始很多分析专家会自称为数据科 学家,可是他们的目标还是一致的。待解决的很多问题都涉及了大数据,这跟从前差别不大。最后分析专家和数据科学家们还是会去探索一直以来探索的事情的,并 从中发现一些有价值的趋势和模式。必须强调的一点是,尽管大数据听起来很陌生,可是它所带来的挑战却无须畏惧。

不论从什么方面来说,大数据所产生的问题一定是从前出现过的。在数据分析领域,永恒的主题就是驾驭新的、可扩展性极限的大数据源。大数据不过是下一代的这种数据罢了。处理此类情况,分析师已经很是熟悉了。只要是有驾驭过其他数据经验的企业,大数据也同样可以驾驭。

分析专家的工作策略有一部分会因为大数据而改变。他们常常将新的工具、方法、技术和传统分析工具相结合,目的是为了有效地处理大数据流。要从中提取最有效的信息,复杂的过滤算法是十分必要的。当然也要更新建模和预测程序,大量的数据要输入添加到现有的输入当中去。

从根本上来说,分析的目标和流程并不因工作策略的改变而改变。大数据催生的是创新性的分析方法,分析专家也必须在继续扩展性的瓶颈下革新。可是必须承认的是,分析专家在处理大数据和以往数据时的方式差异不大。

是什么构成了大数据价值链?

依照所提供价值的来源(数据本身、技能和思维)不同,大数据公司可以分为三类。

第一类是在数据本身基础上建立的公司,它们拥有海量数据,或者说至少可以收集海量数据,但在提取数据价值上和催生创新思想方法并不是最佳的,例如Twitter。它拥有的数据是海量的,只是这些数据还都要通过授权给其他两个公司来供他人使用。

第二类是技能型的公司。一般来说它们是咨询公司、技术供应商或是分析公司。它们有专业的技能,可是却不一定拥有大量 的数据以及提出创新性使用数据的才能,例如天睿公司(Teradata),它就是一家大数据分析公司,而它的营销电子所用的数据都是来自沃尔玛和Pop- Tarts这两个零售商。

第三种是思维的公司。这种公司中的代表就是Jetpac。Jetpac的联合创始人皮特·华登(Pete Warden),就是一个通过想法来获取价值的最佳例子。利用用户分享到网络上的旅行照片,Jetpac寻找人们下一站的旅行目的地。很多时候数据和技能 并不是某些公司成功的关键,真正让他们脱颖而出的是其创始人和员工的创新思维,以及如何从数据中将价值中挖掘出来的独特想法。

谷歌的首席经济学家哈尔·范里安(Hal Varian)也认为,世界上最棒的职业就是统计学家,这个说法非常有名,他提到:“要是想成为成功者,那必须是稀缺的,不可替代的人,绝不能是普通的, 随意可以被替代的。”他还说道:“数据多且有战略上的重要性,可是能从数据中提取价值的能力却不是人人都具备的。这也是为什么统计学家、数据库管理者和掌 握机器理论的人是最了不起的人的理由。”

技术和技能的过于强化会让数据本身的重要性被弱化,因此这是不可取的。计算机行业的快速发展,落后人力技术会渐渐远去,而范里安所赞许的技能就会开始普及。

大数据中最有价值的部分就是它本身,所以智者会先考虑如何拥有大数据。尽管他们并非第一个获得这些数据的人,但他们能和接触到数据、有权使用数据或是有意将数据授权于他人的人有接触。

一部分企业就巧妙地把自己放在了信息链的核心,于是扩大规模和挖掘数据的价值就成为可能。信用卡行业就符合这一点。 近些年来,很多中小银行因为防范信用诈骗的成本过高,总是不愿意发行自己的信用卡,发行信用卡的都是大型金融机构,它们才能负担起防范技术所需要的人力物 力。美国的第一资本银行和美国银行就积极地承担了这一工作。只是到现在,中小银行没有自己发行的信用卡,它们对于客户的消费模式全然不知,也就无法为客户 定制特定的服务,关于这一点它们已经后悔了。

Maste Card长期就处在这个信息链的中心,因此数据收集和数据价值挖掘的黄金位置为之所占据。可以想见,未来信用卡公司不会再收取交易的佣金,反倒是会提供免 费的支付服务。因为从中它们可以获得大量的数据,在经过复杂的分析之后,它们能够依靠卖掉分析结果来获得利润。

来说说第二类公司。同样是Maste Card,它们有自己的分析系统,所以它是游离在第一类公司和第二类公司之间。不少公司还会选择发展其专业技能,例如埃森哲咨询公司,它就通过和不同行业公司合作,应用高级无线感应技术来收集各类数据,并对此进行分析。

在医学数据领域,技术公司如何提供有效服务的例子比比皆是。华盛顿州的华盛顿中心医院这么多年来就和微软研究中心合 作分析了众多的匿名医疗记录,这当中包含了患者人口统计资料、检查、诊断、治疗资料,等等。此研究的目的在于降低感染率和再入院率,要知道以往医疗卫生领 域开销最大的就是这两项。无论是哪一个项目比例降低了都意味着开支的巨大降低。

研究中发现了不少惊人的相关关系,不少情况下出了院的病人一个月内又会再次入院。这当中就有不少是已经很常见却始终 没有好的解决方案的,譬如,患有充血性心力衰竭的病人就有再入院的可能性,这病的治疗困难很大。研究当中还发现有一个因素是很出乎人意料的,那就是病人的 心理状态。病人若是对最初诊断中有类似“压抑”这心理暗示疾病的词汇时,病人就有很高的再入院可能性。

尽管这种相关关系很难推导出特定的因果关系,但这也说明病人在出院以后要以解决心理问题为医学干预的重心,这显然对 身体健康有着重要的帮助,也对降低再入院率,提供更好的健康服务,降低医疗成本更有利。机器在一大堆的数据中筛选出了这相关关系,人类或许永远也发现不了 这个问题。这些数据仍属于医院,微软只提供了分析工具,依靠Amalga系统来帮助发现有价值的信息,这并非什么出彩的想法,却是这里最需要的。

技术专家是挖掘数据价值的专用人才。他们在被赞扬的同时还获得了“数据武士”这样一个非常时髦的称号。事实上他们并非想象中的那般耀眼。他们在大数据当中淘金,最后却要将财富拱手送给大数据的拥有者。

第三种类型的公司是拥有大数据思维的公司和个人。先于他人发现机遇是他们的优势所在,当然他们本身未必具备专业技能或是数据,甚至有可能他们还是行外人,可正是因为这个原因他们的思维才更为活跃。他们要考虑的仅仅是实施的可能而非可行性。

克罗斯和他的Flight Caster是这一类公司当中最先有行动的一个,尽管也没比其他企业快多少。大数据思维本质上是一种意思,它认为数据公开后如果能得到恰当处理的话,千万 人急需解决的问题就会得到解决。Flight Caster在2009年8月公开发布了。就在同一个月,Fly On Time.us的计算机专家们也纷纷投入到公开数据中去,并建立了自己的网站。很快,Flight Caster原本的优势被削弱了。到2011年,克罗斯无奈之下只好把公司卖给了Next Jump。

随后克罗斯的重心就转向了新闻行业,很多人将其视为夕阳行业。在他眼里,并非如此,新闻行业是一个创新型外行人可开 垦的宝地。他创办了新的创新科技公司Prismatic开始收集网上资源并排序,所谓的排序是在文本分析、用户喜好等基础上建立起来的。最重要的是,这个 系统包容性很强,无论是青少年博客,还是企业网站,只要是受欢迎的内容就会排在非常前面。而欢迎与否的判定标准则来自点击率和分享次数。

Prismatic显然在服务上非常关注青年人和媒体交流的新方式,所谓信息的来源被弱化了。这无疑给那些自视清高 的主流媒体提了一个醒,公众的力量已经超越了它们。最让人惊讶的是,从新闻领域内部诞生的Prismatic手握着大量的数据。美国国家记者俱乐部的那些 “老人”对于网上的媒体资源始终没关注过,甚至连阿蒙克、纽约和印度班加罗尔的分析专家们也从来没想过这种方法。一头蓬松头发的克罗斯,说话吞吞吐吐,可 就是这样的一个外行人,有想法也做到了,他的数据告诉了这个世界,相比《纽约时报》还有更为有效的信息来源。

同上世界90年代相比,大数据思维以及拥有此思维的人和初期电子商务的情况大相径庭。最初电子商务的从业者不受传统 行业的固有思维和制度缺陷所限制,所以当时还在对冲基金工作的金融工程师杰夫·贝索斯辞职办了一家名为亚马逊的网上商店,软件开发工程师皮埃尔·奥米迪亚 (Pierre Omidyar)开发了一家拍卖网站。现在若是领导者是具有大数据思维的,那他们一般不直接拥有数据资源。正因如此,他们不会在利益和金钱欲望面前让自己 的想法实践受到阻碍。

正如人们见到的那样,也有一部分公司集合了大数据的大多特点。相比他人,埃齐奥尼和克罗斯决胜的想法不但早人一步, 同时还存在技术上的优势。Teradata和埃森哲的员工上下班很是守时,不过他们也常常有灵光一现的时候。这一切都是由于公司所承担不同角色而造成的。 很多公司会将自己所掌握的数据以授权的方式授权给更有能力挖掘数据价值的人。

现在不少大数据的先驱者通常学科背景都比较复杂,当自己掌握了数据技术之后就会和自己的背景知识相结合,然后在广泛 的领域中应用。天使投资人和企业家的新一代正在诞生,他们中的大多数来自谷歌离职的员工以及所谓的Paypal黑手党”。这些人和一部分计算机科学家成了 当下众多数据科技公司的最大依靠。

大数据只要得到有效的利用,公司的盈利模式和传统交流方式就会得到改变。举一个非常典型的例子,欧洲一家汽车制造商就利用了获得对手所没有的行业信息,而重新定位了自己和零件供应商之间的关系。

现在的汽车通常都配备了芯片、传感器和各种软件,汽车启动之后,这些关于汽车的信息就会反馈到制造商的电脑上。一部 中档轿车的微型处理器大致为60个,车辆总价值的三分之一是车上的电子仪器。汽车上装满了这一类的车载仪器也使得车子成了“漂浮的观景台”。汽车零件的工 作状态通过这些电子设备来监控,整体整合之后可以提高汽车的运行质量。总的来说,一个能够掌握这些数据的公司必然在竞争中占得先机。

汽车制造商和行业外的数据分析公司合作,结果显示产自德国的油箱蒸汽泄漏检测传感器存在一定的故障,即使是好的油箱 它也会发出多达16次的报警报告。得到这一消息后,制造商反馈给供应商。商业环境比较和谐的情况下,就会出现已经在这个项目上投入大量资金的制造商,利用 这一部分数据来为自己挽回一点点损失的情况。

制造商要考虑的是接下来该怎么办,是卖掉这些数据吗?它的价值有多少?假设供应商推卸自己的责任怎么办?或者是自己 在挖掘数据中有了失误?制造商很明白,信息一旦被公布,其他的竞争对手也会有的放矢来改进自己的产品。所以比较明智的做法应当是只能让自己从中获益。最后 汽车制造商找到了一个完美的方案,那就是利用软件的改进来改进零件,然后再为此申请一个专利,最后再将专利转卖给供应商。

大数据时代真的来了

继美国政府推出“大数据研究和发展”计划之后,日本政府又重新启动了ICT战略研究,此研究曾在大地震时期暂时停摆,这是一个重视大数据应用的战略计划。联合国此后也发布了《大数据促发展:挑战与机遇》白皮书,全世界似乎都在迎接大数据时代,各种计划接二连三地发布。

日本总务省信息通信政策审议会下设的ICT基本战略委员会在2012年5月召开会议会。会上,大数据研究主任、东京 大学的教授森川博之提到,在大数据技术领域美国的优势是明显的,像是谷歌、亚马逊这样的大企业都在大数据的应用领域拥有很强的技术优势,日本接下来必须在 大数据方面制定一系列战略来应对大数据时代。日本文部科学省在7月就发布了以学术云为主题的讨论会报告,提出大数据时代学术界要做好迎接挑战的准备,主要 在大数据收集、存储、分析、可视化等等阶段展开研究,并构建大数据利用模型。

联合国2012年发布的《大数据促发展:挑战与机遇》白皮书已明确提出大数据时代已然到来,对于联合国和各国政府来 说,这是一个历史性的机遇。报告中还对政府如何利用大数据来响应社会需求,指导经济发展进行了讨论,提出要在联合国成员国建立“脉搏实验室”,主要用于挖 掘大数据的潜在价值。澳大利亚出资赞助印度尼西亚政府在其首都雅加达建立了“脉搏实验室”,于2012年9月投入使用。

大数据当前还是个新兴前沿的概念,我国尚未从国家和政府层面提出大数据相关的战略,可是在2011年11月,工信部 发布的了物联网“十二五”规划中明确提到了四项关键技术创新工程,包括了信息感知技术、信息传输技术、信息处理技术和信息安全技术,当中的信息处理技术就 有海量数据存储、价值挖掘等等方面的智能分析技术,显然这都是和大数据密切相关的技术。也就在同时,广东省等地方政府已经率先启动了大数据战略,推动本省 的大数据发展,协助开放共享。

作为国家的核心资产,各国已经开始了大数据的激烈竞争。一旦在大数据领域落后,必然就无法守住本国的数字主权,也就 意味着难以占据产业战略的制高点,国家安全数字空间也会相应地出现漏洞。美国政府在大力推行“大数据研究和发展”的计划之下,欧盟、中国等大型的经济体也 会在不久的将来出台属于自己的引导性和倾斜性政策,目的就在于抢占大数据的战略制高点。一轮关于大数据的新竞争马上就要登场。

历史上这样的一幕曾经出现过。1993年,美国出台了“信息高速公路”计划,各国因此反应十分强烈。同年日本政府发 布拟建设“研究信息流通新干线”计划,将全国的大学、研究机构利用高速通信线路来连接,并在后一年的5月又提出了日本版的“信息高速公路”计划,前后发布 了《通信基础结构计划》和《通向21世纪智能化创新社会的改革》两个报告,报告中对网络建设的实施分三个阶段进行。欧盟在1993年6月的哥本哈根欧盟首 脑会议上,由当时的主席德洛尔首次提出了“构建欧洲信息社会”的倡议,之后又在12月发布了旨在“振兴经济、提高竞争能力和创造就业机会”的白皮书,白皮 书中已经提出了欧洲版“信息高速公路”构建的清晰构想,还为此成立专门的工作小组主要负责推进整个计划。与此同时,加拿大、韩国、新加坡等发达国家也都在 逐步开发自己的技术优势,只为占据高新技术的制高点,迎接21世纪到来的技术发展挑战。各国都不惜投入巨额资金推出各国版的“信息高速公路”计划,一时间 全球范围内“信息高速公路”计划风生水起。

从本质上来说,大数据就是人类社会所有数据量变到质变的必然产物,是“信息高速公路”计划的进一步升级和扩展,它对人类社会未来的走向和发展势必会有巨大的变革意义。很显然,现在的趋势已经说明了大数据时代真的到来了。

来源:我是码农,转载请保留出处和链接!

本文链接:http://www.54manong.com/?id=1102

'); (window.slotbydup = window.slotbydup || []).push({ id: "u3646208", container: s }); })(); '); (window.slotbydup = window.slotbydup || []).push({ id: "u3646147", container: s }); })();

第二章 大数据如此重要,引无数英雄竞折腰相关推荐

  1. 《数据密集型计算和模型》第二章大数据时代的计算机体系结构复习

    <数据密集型计算和模型>第二章的有关内容.主要复习内容为:计算部件.存储部件.网络部件.软件定义部件.虚拟资源管理系统等. 文章目录 大数据时代的计算机体系结构 一.计算部件 1. 多核和 ...

  2. 第二章 大数据操作系统

    本章将重点展示Hadoop作为大数据操作系统的一面,通过分布式文件系统(HDFS)和负载和资源管理器(YARN)来概述Hadoop的原理.另外还会演示如何使用命令行与HDFS进行交互,并执行一个Map ...

  3. 3DGIS第二章 大数据量场景加速绘制基本原理与方法

    对于仅有几百个多边形和几十兆的低分辨率纹理简单场景,在现阶段一般配置的计算机上也很容易达到实时仿真的目标.然而,随着场景规模的增大,大规模虚拟场景中往往包含上万个多边形,甚至多达几百万个多边形和几百兆 ...

  4. 第二章 大数据量场景加速绘制基本原理与方法

    对于仅有几百个多边形和几十兆的低分辨率纹理简单场景,在现阶段一般配置的计算机上也很容易达到实时仿真的目标.然而,随着场景规模的增大,大规模虚拟场景中往往包含上万个多边形,甚至多达几百万个多边形和几百兆 ...

  5. 第二章大数据技术概述

    大数据技术的产生 海量数据的产生: 来自大人群互联网 来自大量传感器机械 科学研究及行业多结构专业数据 大数据的基本概念 大数据的定义:无法在一定时间内用常规软件工具对其内容进行抓捕.管理和处理的数据 ...

  6. 第二章 大数据技术概述

    大数据基本概念 数据是各种符号如字符.数字等.声音.图片动画.视频多媒体,数据也是原始事实.要保证其原始性和真实性,后期加工才有意义.信息是人们为了某种需求而对原始数据加工重组后形成的有意义.有用途的 ...

  7. 大数据分析-第二章 大数据平台

    Lecture2-大数据平台 1. Hadoop 1.1. Hadoop计算过程 1.2. Hadoop发展简史 Hadoop起源于Apache Nutch,后者是一个开源的网络搜索擎,本身也是由Lu ...

  8. 第二章-大数据处理框Hadoop

    第二章-大数据处理框Hadoop 文章目录 第二章-大数据处理框Hadoop Hadoop简介 Hadoop概念 Hadoop版本 Hadoop优化与发展 Hadoop生态系统 Hive Pig Ha ...

  9. 计算机组成原理笔记(王道考研) 第二章:数据的表示和运算1

    内容基于中国大学MOOC的2023考研计算机组成原理课程所做的笔记. 感谢LY,他帮我做了一部分笔记.由于听的时间不一样,第四章前的内容看起来可能稍显啰嗦,后面会记得简略一些. 西电的计算机组织与体系 ...

最新文章

  1. 阿里云实时计算的前世“功”今生“能”
  2. Git的撤销操作 git checkout -- <file>
  3. 算法62---最长回文子序列长度(子串)、回文子序列总共个数(子串)【动态规划】...
  4. Tensorflow之flags的用法介绍
  5. linux2.6内核compat_ioctl函数
  6. 老是说我编译版本不够_Atlas 2.1.0 实践(1)—— 编译Atlas
  7. 奖学金(信息学奥赛一本通-T1179)
  8. RabbitMq学习笔记005---登录rabbitmq报错User can only log in via localhost
  9. sublime python调试_如何用sublime调试程序
  10. 判断IP是否为搜索引擎蜘蛛或爬虫
  11. 网络爬虫-抓取酷航机票信息
  12. Python3从搜狐国际新闻抓取---完整版
  13. transact sql
  14. 常见夸张标题,博人眼球
  15. 计算机视觉到底需要学什么?怎么快速入门?
  16. 【PHP】linux搭建PHP运行环境
  17. linux文件2的权限,2_Linux_文件和权限处理命令
  18. uniapp 封装导航栏
  19. 劈尖干涉公式_劈尖干涉 牛顿环教案 干涉条纹间距公式
  20. 招教计算机知识,计算机信息技术招教考试基础知识100个选择题

热门文章

  1. 0315 财经爬虫实战
  2. 静电耳机与普通动圈或动铁耳机有什么区别
  3. dvd-rom属于什么
  4. 删除activiti的流程实例报错Process instance is still running, cannot delete historic process instance
  5. 学术论文写作与发表经验分享
  6. MongoDB学习系列 -- 索引
  7. pythonista免费下载-pythonista 3ios
  8. 读源码:PopupWindow
  9. Python 有名为poetry.txt的文件,删除第三行内容
  10. 顶会CIKM‘21论文解读:基于图神经网络的人类行为轨迹恢复模型