【大数据】Big Data 大数据基本概念
大数据基本概念
- 什么是大数据
- 大数据处理的发展方向
- Scale up 更大规模
- Scale out 更多集成
- 更好的算法 Algorithm
- 数据的分类
- 大数据处理策略
什么是大数据
如果说 Big Data 大数据 是大量的数据。不能说错,因为大量的数据 volume 是大数据定义的一部分,或者准确的说,四分之一。
对于大数据的定义,可以说包含 4个V。
- Volume:数据量的多。
大量的数据,TB、ZB数量级的数据涌现,大型企业EB级存储的数据库内容,尤其近些年来移动设备的增多,促使着数据量的增大与增快。 - Velocity:数据增长的速度。
据统计,每分钟 Youtube 都会上传96小时的视频,每分钟有千万条信息在微信中发出收到,每分钟有上千万的订单在电商生成。快速增长的数据伴随着我们的生活。 - Variety:大量的数据种类。
我们工作时处理的数据库数据,出去游玩时拍照的图片数据,给狗狗录制的视频数据,网络浏览的新闻数据,电商推送的商品图片介绍,你现在正在看的博文,你喜欢听的音乐,开车时的地图信息…各式各样的数据充满我们的生活。 - Veracity:数据的真实性。
数据存在着真实与否两种特性,数据的缺失,遗漏都可能使得数据的完整性以及准确性正确性变化。
所以简单来说,大数据处理的问题是海量数据的 采集、存储分析和计算 。
大数据处理的发展方向
Scale up 更大规模
针对更大规模的数据,处理策略可以采用更大的规模,使用更加强大的CPU、GPU;
可以狭隘的理解为:2060不够用?上3090来!
Scale out 更多集成
针对更大规模的数据,处理策略可以采用叠加的办法,使用跟多的资源去一起处理;
可以狭隘的理解为:一个8G内存不够?我给你插上4块!
更好的算法 Algorithm
比如在机器学习中,从Sigmoid函数到ReLU函数的进步。
YOLO算法对比R-CNN的进步。等等
可以狭隘的理解为:我不够聪明?把我整的更聪明一些!
数据的分类
大量数据的种类,图片,txt,视频,音频,地图数据,图数据,时空数据等等…
对数据的分类,我们主要分为 结构化数据 & 非结构化数据
大数据处理策略
大数据的处理策略,从宏观上,主要分为五步法:
第一步:收集数据
收集数据、存储数据、取出数据、查询数据。
导师曾说,一个项目 70% 的时间花在了收集数据上,这里的时间不仅仅是收集数据,还包括第二步的数据整合,数据清理等步骤。
第二步:整理数据
数据整合,数据清理,特征提取,特征缩放等,提取过多的数据特征可能会导致过拟合,提取过少的数据可能会发生欠拟合;错误的数据可能会影响模型的建立。在整理好数据后,我们就可以将数据带入到模型中,去训练模型了。
第三步:训练模型
选择模型,建立模型,训练模型,测试模型。使用多种方法,运用机器学习、深度学习以及神经网络对数据进行建模。
教授曾说,我们一般般将70%的数据集数据作为训练集 training set,10%作为验证集 validation set,20%作为最后的测试集 testing set.
第四步:制作可视化汇报
可视化数据展示汇报包括列表,折线图、柱状图等多种方式,将模型得到的结果展示出来。制作清晰明了的可视化的展示。
第五步:营销与应用
最后一层Act负责营销以及应用。
2022.11.3 改
【大数据】Big Data 大数据基本概念相关推荐
- linux中mysql回滚重演_DM7 达梦 数据库 数据守护(Data Watch) (1) -- 基本概念
1 数据守护概念 DM 数据守护(Data Watch)是一种集成化的高可用.高性能数据库解决方案,是数据库异地容灾的首选方案.数据守护可以配置成实时主备.MPP主备.或读写分离集群,基本不受数据规模 ...
- 【AUTOSAR-CanTp】-2.11-UDS诊断响应帧数据段data padding数据填充和data optimization数据优化(理论+配置)
共5页精讲: 什么是UDS诊断响应帧数据段的Data padding数据填充,及其配置: 什么是UDS诊断响应帧数据段的Data optimization数据优化,及其配置: 什么是UDS诊断CANF ...
- 推荐 :数据科学与大数据技术专业特色课程研究
在我国,数据科学与大数据技术专业的建设已成为新的热点话题.在系统调研世界一流大学数据科学专业建设现状的基础上,从特色课程视角重点分析加州大学伯克利分校.约翰·霍普金斯大学.华盛顿大学.纽约大学.斯坦福 ...
- 数据库学习笔记(一) | 数据(Data)的定义
数据库学习笔记(一) | 数据(Data)的定义和种类 什么是数据(Data) 结构化数据(Structured Data) 半结构化数据(Semi-structured Data) 非结构化数据(U ...
- OpenGL 高级数据Advanced Data
OpenGL高级数据Advanced Data 高级数据Advanced Data简介 分批顶点属性 复制缓冲 高级数据Advanced Data简介 我们在OpenGL中大量使用缓冲来储存数据已经有 ...
- R语言基础——数据框(data frame)
数据框(data frame) 数据框是一种矩阵形式的数据,但数据框中各列可以是不同类型的数据.数据框每列是一个变量,每行是一个观测.数据框可以看成是矩阵的推广,也可看作一种特殊的列表对象,很多高 ...
- 大数据Big Data
转载自 大数据Big Data 2012年本站曾对大数据预测:如果说2012年是大数据概念为人所知.引人瞩目.小试牛刀的一年,那么2013年大数据将会实现产品部署,早期投资获得回报,一小部分的产业被 ...
- Data - 大数据生态圈
本文内容来自网络,对原文内容和格式做了细微调整,并配图以便阅读理解. 如想查看初始信息,请点击原文. 00 引言 大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单 ...
- 大数据概论、大数据概念、大数据特点(4V)、Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、大数据应用场景、大数据发展前景、大数据部门间业务流程分析
文章目录 1.大数据概念 2.大数据特点(4V) 2.1Volume(大量) 2.2Velocity(高速) 2.3Variety(多样) 2.4Value(低价值密度) 3.大数据应用场景 4.大数 ...
最新文章
- python 其他函数调用 __init__ 初始化的值
- [2019.1.14]BZOJ2005 [Noi2010]能量采集
- 数据库开发——MySQL——pymysql模块
- c# Task.Factory.StartNew 传参数_C#/C++混合编程一二事
- Android10弹出截屏对话框,Android一个美丽而聪明的警告对话框SweetAlert
- 基于HTML5 的人脸识别技术
- 网络查找文档比自己电脑上还方便?
- 转 Django url 标签的使用
- 【CQOI2007】【BZOJ1257】余数之和
- 我的第一个Java程序和Java简介
- 第五章 字符串字面量---一个特殊的数组
- 关于一元线性回归、自相关性与Stata实现
- 计算机网络题库与答案西电,西电计算机网络期末试题.doc
- 工欲善其事,必先利其器-器
- 照片调色系列教程(11):浪漫色调 温情暖暖
- 百度地图 web 开发 BMap.point格式
- 引用百度地图API完成热力图
- Win7 运行bat批处理文件时怎么隐藏cmd命令提示符窗口
- delphi中setTimer函数的用法
- 腾讯云 wafer2 上手,轻松部署小程序后端!