【初识大数据】1、大数据简介
文章目录
- 一、大数据简介
- 1.1 课前准备,什么是大数据
- 1.2大数据的特征
- 1.3 学习的路线和课程概述
- 1.4 学习后能增加的技能树
- 1.5 就业大数据岗位
- 1.6 起源
- 1.6.1 名字起源
- 1.6.2 项目起源
- 1.7 三大发行版本
- 1.8 大数据软件环境部署
- 1.8.1 实验环境详解
- 1.8.2 我的个人电脑:
- 1.8.3 安装软件
一、大数据简介
1.1 课前准备,什么是大数据
大数据(BIG DATA),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产
■ 1Byte = 8 bit
■ 1KB = 1024B
■ 1MB = 1024KB
■ 1G = 1024MB
■ 1T = 1024G
■ 1PB = 1024TB
1.2大数据的特征
■ 容量(Volume):数据的大小决定所考虑的数据的价值和潜在的信息;
■ 种类(Variety):数据类型的多样性;
■ 速度(Velocity):指获得数据的速度;
■ 可变性(Variability):妨碍了处理和有效地管理数据的过程。
■ 真实性(Veracity):数据的质量
■ 复杂性(Complexity):数据量巨大,来源多渠道
■ 价值(value):合理运用大数据,以低成本创造高价值
1.3 学习的路线和课程概述
■ JAVA =====> 面向对象编程语言
■ Linux =====> 类Unix操作系统
■ Hadoop生态■ HDFS =====> 解决存储问题■ MapReduce =====> 解决计算问题■ Yarn =====> 资源协调者■ Zookeeper =====> 分布式应用程序协调服务■ Flume =====> 日志收集系统■ Hive =====> 基于Hadoop的数仓工具■ HBase =====> 分布式、面向列的开源数据库■ Sqoop =====> 数据传递工具
■ Scala =====> 多范式编程语言、面向对象和函数式编程的特性
■ Spark =====> 目前企业常用的批处理离线/实时计算引擎
■ Flink =====> 目前最火的流处理框架、既支持流处理、也支持批处理
■ Elasticsearch =====> 大数据分布式弹性搜索引擎
■ .....
1.4 学习后能增加的技能树
1.5 就业大数据岗位
■ 大数据开发工程师
■ 大数据清洗开发工程师
■ 大数据仓库开发工程师
■ 大数据运维开发工程师
■ 大数据平台开发工程师
1.6 起源
1.6.1 名字起源
该项目的创建者,Doug Cutting解释Hadoop的得名 :“这个名字是我孩子给一个棕黄色的大象玩具命名的
1.6.2 项目起源
Hadoop由 Apache Software Foundation 公司于 2005 年秋天作为Lucene的子项目Nutch的一部分正式引入。它受到最先由 Google Lab 开发的 Map/Reduce 和 Google File System(GFS) 的启发。
Google是Hadoop的思想之源(Google在大数据方面的三篇论文,“谷歌三宝”)■ GFS ====> HDFS■ Map-Reduce ====> MapReduce■ BigTable ====> HBase
1.7 三大发行版本
■ Apache、Cloudera、Hortonworks
■ Apache版本最原始、最基础:适合零基础 大公司在用
■ Cloudera
■ Cloudera’s DistributionIncluding Apache Hadoop 简称CDH
■ 中小型公司用、简单方便、自带可视化
■ Hortonworks
■ 文档较好
■ 注:Cloudera 和Hortonworks 在2018年10月,国庆期间宣布合并
1.8 大数据软件环境部署
1.8.1 实验环境详解
■ 硬性要求:■ 内存:最低8G+ (建议16G)■ 个人电脑最大内存检测:■ win + R 输入 cmd■ 复制代码:wmic memphysical get maxcapacity■ 所显示的值:MaxCapacity除以1024的平方■ MaxCapacity:33554432■ 33554432 除以 1024 除以 1024 等于 32G■ 即个人PC的最大支持内存为32G■ 磁盘:500GB+
1.8.2 我的个人电脑:
1.8.3 安装软件
- Google浏览器: 程序员必备:不用‘谷歌浏览器’的程序员不是好程序员(此句五毛,括号内删除)
- Everything(文件搜索工具):提供对个人PC的快速下载
- Notepad++(文本工具)
- IDEA(集成开发工具) & eclipse
■ 后续学习用于编写Java和Scala代码
■ 全称IntelliJ IDEA、Scala for eclipse
■ 在业界被公认为最好的java开发工具之一
■ 支持多插件
■ 下载地址:百度下载社区版即可https://www.jetbrains.com/ - IDM下载器安装配置
- Markdown 工具推荐及下载 typora、马克飞象
- Windows JDK安装
- VMware Work station虚拟化装置安装
- Linux虚拟机安装及配置
- Xshell安装及配置(myputty类似、虚拟机命令管理及文件上传下载)
- IDEA安装及配置
- Teamview工具安装及下载
【初识大数据】1、大数据简介相关推荐
- Interview:人工智能大数据岗位面试—【数据分析师】的简介、技能、待遇、进阶的详细攻略
Interview:人工智能&大数据岗位面试-[数据分析师]的简介.技能.待遇.进阶的详细攻略 目录 数据分析师的简介 1.网友经验之谈 数据分析师的待遇 数据分析师的技能 数据分析师进阶 数 ...
- 《深入理解大数据:大数据处理与编程实践》一一1.2 大数据处理技术简介
本节书摘来自华章计算机<深入理解大数据:大数据处理与编程实践>一书中的第1章,第1.2节,作者 主 编:黄宜华(南京大学)副主编:苗凯翔(英特尔公司),更多章节内容可以访问云栖社区&quo ...
- 大数据舆情分析软件实时监控,TOOM大数据处理与舆情监控简介
舆情数据分析处理是指通过使用大数据技术.人工智能.自然语言处理等,从舆情数据中提取信息,进行模型建立.模式识别.情感分析等,从而了解舆论情况.舆情数据分析处理的目的是了解舆论趋势.话题热点.网民情绪等 ...
- 大数据技术之Hbase简介以及底层原理详解
简介 概述 HBase是有Apache提供的基于Hadoop的分布式,可扩展的非关系型数据库 HBase可以管理很大的数据的表 - billions of rows X millions of col ...
- 大数据生态和Spark简介
一.大数据时代 1.第三次信息化浪潮:根据IBM前首席执行官郭士纳的观点,IT领域每隔十五年就会迎来一次重大变革. 2.数据产生方式的变革促成大数据时代的来临: ①存储设备容量不断增加 ②CPU处理能 ...
- 【笔记】大数据技术之HBase简介与应用(四)
HBase简介 是BigTable开源实现 网页索引:爬虫-> BigTable运行MapReduce HBase 是谷歌的GFS的开源实现 面向列,分布式数据库 底层对应关系 BigTable ...
- 初识大数据--Hadoop大数据平台架构与实践
Hadoop大数据平台架构与实践 推荐书籍: ⭐大数据存储与处理技术的原理(理论) ⭐Hadoop的使用和开发能力(实践) 预备知识: Linux常用命令 Java基础编程 1.大数据相关概念 无 ...
- 【大数据】大数据初识
花了一个月时间整理了一份我当初学习的大数据学习路线,从最基础的大数据集群搭建开始,希望能帮助到大家. 不过在开始之前,我还是希望大家能想清楚,如果自己很迷茫,为了什么原因想往大数据方向发展,还有就是我 ...
- 大数据简介:从数据到大数据,数据技术工具的演变
最近在看大数据相关的书和资料,顺便梳理下笔记,于是有了本文 本文将用4张逻辑图为主线,简单介绍一个产品从"小数据"演化为"大数据"的过程,及可能用到的工具. ( ...
- 数据蒋堂 | 大数据技术的4个E
作者:蒋步星 来源:数据蒋堂 本文共1100字,建议阅读8分钟. 本文将大数据特点总结成4个E,可作为选择大数据技术解决方案的参考. 大数据的4个V说法在业界已经尽人皆知,这是指的大数据本身的特征.现 ...
最新文章
- UVA - 11478 Halum 二分+差分约束
- dw生日祝福网页制作教程_明星祝福生日视频制作
- 超酷的实时颜色数据跟踪javascript类库 - Tracking.js
- SAP云平台cf push命令报错误码44的解决方法
- 【jenkins】jenkins按分支build和email
- 惠普800g1支持什么内存_惠普黑白激光打印机哪种好 惠普黑白激光打印机推荐【图文详解】...
- Python面向过程和面向对象
- 多线程的那点儿事(之优先级反转)
- Struts2后台使用Request和Session方法
- Ubuntu下升级安装gcc-7.5.0教程
- 开锁与网络安全的5个相通之处
- Mac删除自带输入法
- 输入一个分数,将其约分为最简分式
- word文档docx转为pdf文件,在Linux操作系统上也能正常显示中文
- git clone下载代码,中途断掉怎么办?
- Python通过标点符号断句
- 今年这情况。。咱还是留个心眼吧
- 【啃书】《智能优化算法及其MATLAB实例》例9.3运用BP网络预测数据
- Collection集合,List集合
- java自动化测试语言高级之Java 9 新特性