大数据的定义:

“大数据”的概念起源于2008年9月《自然》(Nature)杂志刊登的名为“Big Data”的专题,由于成因复杂, 至今对大数据没有公认的定义

定义一:在What is “Big Data”?一文中把大数据定义为:所涉及的数据量规模巨大,无法通过人工在合理时间内截取、管理、处理并整理成为人类所能解读的信息。这种定义更强调处理能力。
定义二:在《大数据时代》一书中,把大数据看成是一种方法,即不能用随机分析法(抽样调查)这样的捷径,而采用所有数据的方法。这种定义更强调应用方法。
定义三:大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。这种定义更侧重应用价值。

以上三种定义中,第一种比较好理解,即“规模巨大,无法通过人工来处理”。

大数据无处不在

2006年个人用户迈入TB时代。硬盘的存储能力也一直在增强。
1Byte=8bit
1KB=1024Byte
1MB=1024KB
1GB=1024MB
1TB=1024GB
1PB=1024TB
1EB=1024PB
1ZB=1024EB
1YB=1024ZB
....

大数据的特点:(4V描述)

1.规模性(Volume):从数据的存储和计算均需耗费海量规模的资源。
2.高速型(Velocity):新数据的产生速度快、需要实时处理,只有更新过的最新的数据才有价值。
3.多样性(Variety):数据的来源和形式多样。数据形式有结构化和非结构化等。数据的来源有网络日志、移动设备、医疗影像等方方面面。因为数据形式多样,所以处理技术也多样。
4.价值稀疏性(Value):大数据价值非常的高,但是知识密度非常低,所以只有经过高度分析的大数据才可以产生新的价值。

大数据的应用:

1.预测。比如通过相关数据预测NBA总冠军归属、总统选举的投票结果等。
2.推荐。比如京东、淘宝等电子商务网站,采集大量的用户行为信息,为不同的用户推荐相关的商品,从而提高购买率。qq聊天对话框处也有广告推荐。
3.商业情报分析。比如飞机票价格随时间的变化规律。
4.科学研究。利用仪器获取数据或者利用模拟器生成数据,再利用软件处理数据,将知识或信息存储在计算机中,利用统计学方法进行科学发现。

大数据算法MOOC笔记1:大数据定义、特点、应用相关推荐

  1. 5000字 大数据时代读书笔记_大数据时代读书笔记

    大数据时代读书笔记 [篇一:大数据时代读书笔记] 大数据时代 -- 读书笔记 一.引论 1. 大数据时代的三个转变: 1. 可以分析更多的数据,处理和某个现象相关的所有数据,而不是 随机采样 2. 不 ...

  2. 数据分析学习总结笔记03:数据降维经典方法

    数据分析学习总结笔记03:数据降维经典方法 1. 数据降维概述 2. 数据降维的应用 3. 数据降维经典方法 3.1 主成分分析(PCA) 3.1.1 PCA概述 3.1.2 PCA原理 3.1.3 ...

  3. 大数据算法课程笔记1:寻找中值算法之随机选取,中值的中值,One Pass算法

    大数据算法的课程笔记,包括四种中值搜索算法.包括最简单的先搜索后检索,平均算法复杂度为O(N)的简单随机选取算法,确定性的中值的中值算法,大概率返回中值的one pass算法. 1. 最简单的方法:先 ...

  4. 大数据算法:对5亿数据进行排序

    0.前言: 在大数据研究的路上,我们总要对一些很大的数据进行各种各样的操作.比如说对数据排序,比如说对数据统计,比如说对数据计算.而在大量的数据面前,我们总是束手无策,因为我们无法在限定时间的情况下, ...

  5. 5000字 大数据时代读书笔记_大数据时代 读书笔记

    大数据时代 维克托·迈尔·舍恩伯格 首先作者抛出了大数据时代处理数据理念上的三大转变:  要全体不要抽样. 首先,要分析与某事物相关的所有数据,而不是依 靠分析少量的数据样本.全数据模式,样本 = ...

  6. 大数据技术基础笔记1 大数据概述

    文章目录 1.1 大数据时代 1.2 大数据概念 1.3 大数据的影响 1.4 大数据的应用 1.5 大数据关键技术 1.6 大数据计算模式 1.7 大数据产业 1.8 大数据与云计算.物联网的关系 ...

  7. JAVA十大排序算法动画_十大排序算法(java实现)

    [前言]最近在重新研究算法,此篇博文供自己复习使用也为方便广大程序员同学!此文代码均为自己实现,通过对比经典解法校验,若有错请读者及时提出! - [对比分析图]首先,我们先来对比分析一下这十大排序算法 ...

  8. Python数据科学学习笔记之——Matplotlib数据可视化

    Matplotlib 数据可视化 1.Matplotlib 常用技巧 1.1.导入 Matplotlib import matplotlib as mpl import matplotlib.pypl ...

  9. 大林算法计算机控制实验报告,大林算法

    南京邮电大学自动控制实验报告 实验六 大林算法 一.实验目的 1.掌握大林算法的特点及适用范围. 2.了解大林算法中时间常数T对系统的影响. 二.实验仪器 1.EL-AT-III型计算机控制系统实验箱 ...

最新文章

  1. R语言包_rCharts
  2. python基础语法 第0关print-重庆酉阳高校邦数据科学通识课【Python基础语法】答案...
  3. 解决svn log显示no author,no date的方法之一
  4. Vmware15虚拟机安装win7镜像
  5. 黑马程序员-为梦想而努力!
  6. 引用腾讯地图时出现”鉴权失败,请传入正确的key“
  7. JS 解决IE浏览器出现Automation 服务器不能创建对象
  8. 数学传奇3——神话的破灭
  9. vue 移动端无限瀑布流 插件使用
  10. 开机提示:one of your disks needs to be checked解决方法
  11. 如何具有更好的凝聚力,我的团队
  12. 【超纯水制备技术分享】超纯水工艺设计流程以及纯水系统前处理技术——离子交换脱盐工艺介绍
  13. C#调用FFMPEG实现桌面录制(视频+音频+生成本地文件)【笔记】
  14. 视频教程-Excel玩转财务管理-Office/WPS
  15. 中国空巢青年达2000万 一线城市成单身人群聚集地
  16. 信捷伺服刚性调整_信捷伺服电机奇怪的质量问题,做工控多年首次仅见!!!!...
  17. 春雷在线考试系统介绍
  18. 游戏服务器怎么修复,永劫无间无法连接游戏服务器怎么解决
  19. Ciso Paoket Tracer 交换机基本配置
  20. 新款戴尔win10改win7系统教程

热门文章

  1. 微信群里如何屏蔽某一个人的发言
  2. IIS 编译器错误消息: CS0016未能写入输出文件“c:\WINDOWS\Microsoft.NET\Framework\v1.1.4322\Temporary ASP.NET Files\roo
  3. 试验数据管理系统TDM与SDM
  4. 删除Linux虚拟机中的/dev/sdb磁盘步骤
  5. 2022款联想小新Pro16,联想小新air15,thinkbook16+选哪个好
  6. 香港理工大学李青教授团队招收机器学习方向全奖博士/博后/RA
  7. 高效的JS 拼接字符串
  8. MYSQL基础(sql语句)
  9. 通俗易懂【Springboot】 单文件下载和批量下载(多个文件合成一个压缩包下载)
  10. Simulink三相电机仿真(2)