大数据基本概念

  • 什么是大数据
  • 大数据处理的发展方向
    • Scale up 更大规模
    • Scale out 更多集成
    • 更好的算法 Algorithm
  • 数据的分类
  • 大数据处理策略

什么是大数据

如果说 Big Data 大数据 是大量的数据。不能说错,因为大量的数据 volume 是大数据定义的一部分,或者准确的说,四分之一。


对于大数据的定义,可以说包含 4个V。

  • Volume:数据量的多。
    大量的数据,TB、ZB数量级的数据涌现,大型企业EB级存储的数据库内容,尤其近些年来移动设备的增多,促使着数据量的增大与增快。
  • Velocity:数据增长的速度。
    据统计,每分钟 Youtube 都会上传96小时的视频,每分钟有千万条信息在微信中发出收到,每分钟有上千万的订单在电商生成。快速增长的数据伴随着我们的生活。
  • Variety:大量的数据种类。
    我们工作时处理的数据库数据,出去游玩时拍照的图片数据,给狗狗录制的视频数据,网络浏览的新闻数据,电商推送的商品图片介绍,你现在正在看的博文,你喜欢听的音乐,开车时的地图信息…各式各样的数据充满我们的生活。
  • Veracity:数据的真实性。
    数据存在着真实与否两种特性,数据的缺失,遗漏都可能使得数据的完整性以及准确性正确性变化。

所以简单来说,大数据处理的问题是海量数据的 采集、存储分析和计算


大数据处理的发展方向

Scale up 更大规模


针对更大规模的数据,处理策略可以采用更大的规模,使用更加强大的CPU、GPU;
可以狭隘的理解为:2060不够用?上3090来!

Scale out 更多集成


针对更大规模的数据,处理策略可以采用叠加的办法,使用跟多的资源去一起处理;
可以狭隘的理解为:一个8G内存不够?我给你插上4块!

更好的算法 Algorithm


比如在机器学习中,从Sigmoid函数到ReLU函数的进步。
YOLO算法对比R-CNN的进步。等等
可以狭隘的理解为:我不够聪明?把我整的更聪明一些!


数据的分类

大量数据的种类,图片,txt,视频,音频,地图数据,图数据,时空数据等等…
对数据的分类,我们主要分为 结构化数据 & 非结构化数据


大数据处理策略

大数据的处理策略,从宏观上,主要分为五步法:

第一步:收集数据
收集数据、存储数据、取出数据、查询数据。
导师曾说,一个项目 70% 的时间花在了收集数据上,这里的时间不仅仅是收集数据,还包括第二步的数据整合,数据清理等步骤。

第二步:整理数据
数据整合,数据清理,特征提取,特征缩放等,提取过多的数据特征可能会导致过拟合,提取过少的数据可能会发生欠拟合;错误的数据可能会影响模型的建立。在整理好数据后,我们就可以将数据带入到模型中,去训练模型了。

第三步:训练模型
选择模型,建立模型,训练模型,测试模型。使用多种方法,运用机器学习、深度学习以及神经网络对数据进行建模。
教授曾说,我们一般般将70%的数据集数据作为训练集 training set,10%作为验证集 validation set,20%作为最后的测试集 testing set.

第四步:制作可视化汇报
可视化数据展示汇报包括列表,折线图、柱状图等多种方式,将模型得到的结果展示出来。制作清晰明了的可视化的展示。

第五步:营销与应用
最后一层Act负责营销以及应用。


2022.11.3 改

【大数据】Big Data 大数据基本概念相关推荐

  1. linux中mysql回滚重演_DM7 达梦 数据库 数据守护(Data Watch) (1) -- 基本概念

    1 数据守护概念 DM 数据守护(Data Watch)是一种集成化的高可用.高性能数据库解决方案,是数据库异地容灾的首选方案.数据守护可以配置成实时主备.MPP主备.或读写分离集群,基本不受数据规模 ...

  2. 【AUTOSAR-CanTp】-2.11-UDS诊断响应帧数据段data padding数据填充和data optimization数据优化(理论+配置)

    共5页精讲: 什么是UDS诊断响应帧数据段的Data padding数据填充,及其配置: 什么是UDS诊断响应帧数据段的Data optimization数据优化,及其配置: 什么是UDS诊断CANF ...

  3. 推荐 :数据科学与大数据技术专业特色课程研究

    在我国,数据科学与大数据技术专业的建设已成为新的热点话题.在系统调研世界一流大学数据科学专业建设现状的基础上,从特色课程视角重点分析加州大学伯克利分校.约翰·霍普金斯大学.华盛顿大学.纽约大学.斯坦福 ...

  4. 数据库学习笔记(一) | 数据(Data)的定义

    数据库学习笔记(一) | 数据(Data)的定义和种类 什么是数据(Data) 结构化数据(Structured Data) 半结构化数据(Semi-structured Data) 非结构化数据(U ...

  5. OpenGL 高级数据Advanced Data

    OpenGL高级数据Advanced Data 高级数据Advanced Data简介 分批顶点属性 复制缓冲 高级数据Advanced Data简介 我们在OpenGL中大量使用缓冲来储存数据已经有 ...

  6. R语言基础——数据框(data frame)

    数据框(data frame)   数据框是一种矩阵形式的数据,但数据框中各列可以是不同类型的数据.数据框每列是一个变量,每行是一个观测.数据框可以看成是矩阵的推广,也可看作一种特殊的列表对象,很多高 ...

  7. 大数据Big Data

    转载自  大数据Big Data 2012年本站曾对大数据预测:如果说2012年是大数据概念为人所知.引人瞩目.小试牛刀的一年,那么2013年大数据将会实现产品部署,早期投资获得回报,一小部分的产业被 ...

  8. Data - 大数据生态圈

    本文内容来自网络,对原文内容和格式做了细微调整,并配图以便阅读理解. 如想查看初始信息,请点击原文. 00 引言 大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单 ...

  9. 大数据概论、大数据概念、大数据特点(4V)、Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、大数据应用场景、大数据发展前景、大数据部门间业务流程分析

    文章目录 1.大数据概念 2.大数据特点(4V) 2.1Volume(大量) 2.2Velocity(高速) 2.3Variety(多样) 2.4Value(低价值密度) 3.大数据应用场景 4.大数 ...

最新文章

  1. python 其他函数调用 __init__ 初始化的值
  2. [2019.1.14]BZOJ2005 [Noi2010]能量采集
  3. 数据库开发——MySQL——pymysql模块
  4. c# Task.Factory.StartNew 传参数_C#/C++混合编程一二事
  5. Android10弹出截屏对话框,Android一个美丽而聪明的警告对话框SweetAlert
  6. 基于HTML5 的人脸识别技术
  7. 网络查找文档比自己电脑上还方便?
  8. 转 Django url 标签的使用
  9. 【CQOI2007】【BZOJ1257】余数之和
  10. 我的第一个Java程序和Java简介
  11. 第五章 字符串字面量---一个特殊的数组
  12. 关于一元线性回归、自相关性与Stata实现
  13. 计算机网络题库与答案西电,西电计算机网络期末试题.doc
  14. 工欲善其事,必先利其器-器
  15. 照片调色系列教程(11):浪漫色调 温情暖暖
  16. 百度地图 web 开发 BMap.point格式
  17. 引用百度地图API完成热力图
  18. Win7 运行bat批处理文件时怎么隐藏cmd命令提示符窗口
  19. delphi中setTimer函数的用法
  20. 腾讯云 wafer2 上手,轻松部署小程序后端!

热门文章

  1. 计算机图形学 OpenGl-种子填充算法画红黄绿交通灯
  2. Java中g的数据类型
  3. java专区软件_分享几款让你事半功倍的装机必备软件
  4. Qt网络资源汇总(官网、源码、社区、博客)
  5. 男人也勾魂(航爷钦定题目,汗!)
  6. android开发如何查看源代码文件(android source)
  7. php nss,CentOS PHP cURL NSS错误5938
  8. psv连接电脑显示无法连接服务器,psv ftp服务器找不到
  9. 逻辑回归模型——股票客户流失预警模型
  10. 如何改善自己的语言表达能力?