文章目录

  • 一、大数据简介
    • 1.1 课前准备,什么是大数据
    • 1.2大数据的特征
    • 1.3 学习的路线和课程概述
    • 1.4 学习后能增加的技能树
    • 1.5 就业大数据岗位
    • 1.6 起源
      • 1.6.1 名字起源
      • 1.6.2 项目起源
    • 1.7 三大发行版本
    • 1.8 大数据软件环境部署
      • 1.8.1 实验环境详解
      • 1.8.2 我的个人电脑:
      • 1.8.3 安装软件

一、大数据简介

1.1 课前准备,什么是大数据

大数据(BIG DATA),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产

■ 1Byte = 8 bit
■ 1KB = 1024B
■ 1MB = 1024KB
■ 1G = 1024MB
■ 1T = 1024G
■ 1PB = 1024TB

1.2大数据的特征

■ 容量(Volume):数据的大小决定所考虑的数据的价值和潜在的信息;
■ 种类(Variety):数据类型的多样性;
■ 速度(Velocity):指获得数据的速度;
■ 可变性(Variability):妨碍了处理和有效地管理数据的过程。
■ 真实性(Veracity):数据的质量
■ 复杂性(Complexity):数据量巨大,来源多渠道
■ 价值(value):合理运用大数据,以低成本创造高价值

1.3 学习的路线和课程概述

■ JAVA                =====> 面向对象编程语言
■ Linux               =====>  类Unix操作系统
■ Hadoop生态■ HDFS                =====> 解决存储问题■ MapReduce           =====> 解决计算问题■ Yarn      =====> 资源协调者■ Zookeeper           =====> 分布式应用程序协调服务■ Flume               =====> 日志收集系统■ Hive                =====> 基于Hadoop的数仓工具■ HBase               =====> 分布式、面向列的开源数据库■ Sqoop               =====> 数据传递工具
■ Scala               =====>  多范式编程语言、面向对象和函数式编程的特性
■ Spark               =====> 目前企业常用的批处理离线/实时计算引擎
■ Flink               =====> 目前最火的流处理框架、既支持流处理、也支持批处理
■ Elasticsearch       =====> 大数据分布式弹性搜索引擎
■ .....

1.4 学习后能增加的技能树

1.5 就业大数据岗位

■ 大数据开发工程师
■ 大数据清洗开发工程师
■ 大数据仓库开发工程师
■ 大数据运维开发工程师
■ 大数据平台开发工程师

1.6 起源

1.6.1 名字起源

该项目的创建者,Doug Cutting解释Hadoop的得名 :“这个名字是我孩子给一个棕黄色的大象玩具命名的

1.6.2 项目起源

Hadoop由 Apache Software Foundation 公司于 2005 年秋天作为Lucene的子项目Nutch的一部分正式引入。它受到最先由 Google Lab 开发的 Map/Reduce 和 Google File System(GFS) 的启发。
Google是Hadoop的思想之源(Google在大数据方面的三篇论文,“谷歌三宝”)■ GFS        ====>             HDFS■ Map-Reduce     ====>       MapReduce■ BigTable       ====>      HBase

1.7 三大发行版本

■ Apache、Cloudera、Hortonworks
■ Apache版本最原始、最基础:适合零基础 大公司在用
■ Cloudera
■ Cloudera’s DistributionIncluding Apache Hadoop 简称CDH
■ 中小型公司用、简单方便、自带可视化
■ Hortonworks
■ 文档较好
■ 注:Cloudera 和Hortonworks 在2018年10月,国庆期间宣布合并

1.8 大数据软件环境部署

1.8.1 实验环境详解

■ 硬性要求:■ 内存:最低8G+  (建议16G)■ 个人电脑最大内存检测:■ win + R 输入 cmd■ 复制代码:wmic memphysical get maxcapacity■ 所显示的值:MaxCapacity除以1024的平方■ MaxCapacity:33554432■ 33554432 除以 1024 除以 1024 等于 32G■ 即个人PC的最大支持内存为32G■ 磁盘:500GB+

1.8.2 我的个人电脑:

1.8.3 安装软件

  • Google浏览器: 程序员必备:不用‘谷歌浏览器’的程序员不是好程序员(此句五毛,括号内删除)
  • Everything(文件搜索工具):提供对个人PC的快速下载
  • Notepad++(文本工具)
  • IDEA(集成开发工具) & eclipse
    ■ 后续学习用于编写Java和Scala代码
    ■ 全称IntelliJ IDEA、Scala for eclipse
    ■ 在业界被公认为最好的java开发工具之一
    ■ 支持多插件
    ■ 下载地址:百度下载社区版即可https://www.jetbrains.com/
  • IDM下载器安装配置
  • Markdown 工具推荐及下载 typora、马克飞象
  • Windows JDK安装
  • VMware Work station虚拟化装置安装
  • Linux虚拟机安装及配置
  • Xshell安装及配置(myputty类似、虚拟机命令管理及文件上传下载)
  • IDEA安装及配置
  • Teamview工具安装及下载

【初识大数据】1、大数据简介相关推荐

  1. Interview:人工智能大数据岗位面试—【数据分析师】的简介、技能、待遇、进阶的详细攻略

    Interview:人工智能&大数据岗位面试-[数据分析师]的简介.技能.待遇.进阶的详细攻略 目录 数据分析师的简介 1.网友经验之谈 数据分析师的待遇 数据分析师的技能 数据分析师进阶 数 ...

  2. 《深入理解大数据:大数据处理与编程实践》一一1.2 大数据处理技术简介

    本节书摘来自华章计算机<深入理解大数据:大数据处理与编程实践>一书中的第1章,第1.2节,作者 主 编:黄宜华(南京大学)副主编:苗凯翔(英特尔公司),更多章节内容可以访问云栖社区&quo ...

  3. 大数据舆情分析软件实时监控,TOOM大数据处理与舆情监控简介

    舆情数据分析处理是指通过使用大数据技术.人工智能.自然语言处理等,从舆情数据中提取信息,进行模型建立.模式识别.情感分析等,从而了解舆论情况.舆情数据分析处理的目的是了解舆论趋势.话题热点.网民情绪等 ...

  4. 大数据技术之Hbase简介以及底层原理详解

    简介 概述 HBase是有Apache提供的基于Hadoop的分布式,可扩展的非关系型数据库 HBase可以管理很大的数据的表 - billions of rows X millions of col ...

  5. 大数据生态和Spark简介

    一.大数据时代 1.第三次信息化浪潮:根据IBM前首席执行官郭士纳的观点,IT领域每隔十五年就会迎来一次重大变革. 2.数据产生方式的变革促成大数据时代的来临: ①存储设备容量不断增加 ②CPU处理能 ...

  6. 【笔记】大数据技术之HBase简介与应用(四)

    HBase简介 是BigTable开源实现 网页索引:爬虫-> BigTable运行MapReduce HBase 是谷歌的GFS的开源实现 面向列,分布式数据库 底层对应关系 BigTable ...

  7. 初识大数据--Hadoop大数据平台架构与实践

    Hadoop大数据平台架构与实践 推荐书籍: ⭐大数据存储与处理技术的原理(理论) ⭐Hadoop的使用和开发能力(实践) 预备知识: Linux常用命令 Java基础编程 1.大数据相关概念 ​ 无 ...

  8. 【大数据】大数据初识

    花了一个月时间整理了一份我当初学习的大数据学习路线,从最基础的大数据集群搭建开始,希望能帮助到大家. 不过在开始之前,我还是希望大家能想清楚,如果自己很迷茫,为了什么原因想往大数据方向发展,还有就是我 ...

  9. 大数据简介:从数据到大数据,数据技术工具的演变

    最近在看大数据相关的书和资料,顺便梳理下笔记,于是有了本文 本文将用4张逻辑图为主线,简单介绍一个产品从"小数据"演化为"大数据"的过程,及可能用到的工具. ( ...

  10. 数据蒋堂 | 大数据技术的4个E

    作者:蒋步星 来源:数据蒋堂 本文共1100字,建议阅读8分钟. 本文将大数据特点总结成4个E,可作为选择大数据技术解决方案的参考. 大数据的4个V说法在业界已经尽人皆知,这是指的大数据本身的特征.现 ...

最新文章

  1. UVA - 11478 Halum 二分+差分约束
  2. dw生日祝福网页制作教程_明星祝福生日视频制作
  3. 超酷的实时颜色数据跟踪javascript类库 - Tracking.js
  4. SAP云平台cf push命令报错误码44的解决方法
  5. 【jenkins】jenkins按分支build和email
  6. 惠普800g1支持什么内存_惠普黑白激光打印机哪种好 惠普黑白激光打印机推荐【图文详解】...
  7. Python面向过程和面向对象
  8. 多线程的那点儿事(之优先级反转)
  9. Struts2后台使用Request和Session方法
  10. Ubuntu下升级安装gcc-7.5.0教程
  11. 开锁与网络安全的5个相通之处
  12. Mac删除自带输入法
  13. 输入一个分数,将其约分为最简分式
  14. word文档docx转为pdf文件,在Linux操作系统上也能正常显示中文
  15. git clone下载代码,中途断掉怎么办?
  16. Python通过标点符号断句
  17. 今年这情况。。咱还是留个心眼吧
  18. 【啃书】《智能优化算法及其MATLAB实例》例9.3运用BP网络预测数据
  19. Collection集合,List集合
  20. java自动化测试语言高级之Java 9 新特性

热门文章

  1. 福利|回馈粉丝,送一些现金红包给大家
  2. 男女稳定匹配问题——贪心
  3. 地铁三号线 - 幸福的长发男子
  4. TED-谷歌创始人演示谷歌眼睛
  5. 电商平台-优惠券设计与架构
  6. word嵌入对象依损坏_word的操作问题.
  7. TP5.1框架中百度富文本编辑器UEditor的使用
  8. 网络安全漏洞分析之重定向漏洞分析
  9. w3chool 离线手册 2017-8-23 CHM制作工具软件与教程
  10. Jx的OnePiece:Python环境百科全书