作者刚开始接触大数据不久,现在想通过这篇文章分享一些我学到的,我自己理解的知识;希望大家学有所获

Hadoop离线是大数据生态圈的核心与基石,是整个大数据的入门。

linux、hadoop、hive三者形成一体,掌握这些知识就可以独立基于数据仓库是实现离线数据分析的可视化报表开发。

大数据导论:

数据是什么?

针对客观事物的描述(描述包括,数字、文字、字母、数字符号的组合、图像、影像......)

生活中的数据爆炸,例如:个人的信息,身高,年龄,性别,籍贯,姓名.....数据随处可见。。。

数据如何产生?

人为或是利用智能设备等记录数据

例如:远古时代,猎人打猎,把每天的打猎数据拿绳子记录下来;

我们平时做的笔记,写的日记,这些都算数据;

再或者,我们的手机,穿戴设备,里面记录了很多的数据,QQ消息、银行卡.......

可见:生活中充满了数据,多不胜数。

企业数据分析方向:
把隐藏在数据中的这些信息提取出来,总结规律,提供了经验,利于人类社会的发展与创新。

三大方向:
现状分析->原因分析->预测分析

一句话:数据会说话,一切以数据说话;

数据反应了当下的现状,引起我们的沉思,面对未来,我们更好地打算......

原因分析:
离线分析:针对旧的数据进行分析;例如:每一周的数据;一天过去,这一天产生的数据;这一几个小时产生的数据,离线分析对的是旧数据。面向过去,分析已经存在的数据,这种处理方式也叫做批处理。

现状分析:

实时分析:针对刚刚(数据产生的时间非常短)产生的新数据的处理,间断时间可以达到毫秒级。例如:双十一的时候,人们网上购物,京东,阿里电商平台的数据是很庞大的,通过实时分析技术可以分析人们的消费习惯,人们的兴趣,各个方面(从各个方面,各个角度分析用户)。实时分析面向当下产生的数据进行分析。

预测分析:
机器学习:
基于历史数据和当下实时产生的数据预测未来发生的事情;

侧重于数学算法运用、分类聚类关联预测....

企业中数据分析:
现状分析(当下的数据):分析后,各个部分的构成、发展、变动。

原因分析(过去的数据):分析后,做出相应的调整。

预测分析(结合数据预测未来):分析后,看到(万事万物包括在内)未来的趋势。

数据分析的流程:

其重要性体现在如何开展数据分析提供了强有力的逻辑支撑。

1、清楚需求和目标

其为分析起点,明确方向,分析框架体系化,从什么角度思量问题?如何分析?

数据分析方法论是一些营销管理类的相关理论,例如:用户行为,PEST分析法、5W2H。

2、数据采集

数据从无到有的过程,例如收集用户行为(购物,诚信,经济...)数据;

数据传输搬运的过程,比如:采集数据库数据到数据分析平台。

分类:
业务数据、日志数据、爬虫数据、互联网公开数据

对应:

RDBMS  服务器、应用日志、爬虫数据库、行业政府网站

3、数据预处理

拿到的数据可能有缺失,有违背现实情况的假数据,等,对于这些脏数据我们有对应的流程进行控制,所以首先拿到数据先要进行加工处理,形成适合分析的数据。主要包括:数据清洗、数据转化、数据提取、数据计算。

数据预处理的好处:保证数据的尽量真实性,让数据变得干净规整的结构化数据,方便后续操作。

思考:

(1)当下的企业用于分析的数据侧重于文本数据多一些还是视频、音频?

文本数据      文字不会说谎

(2)什么叫赶紧规整的结构化数据?有非结构化数据?

二维表数据,行列对应,方便操作;

通俗来说就是,格式清晰、利于解读的数据。

4、数据分析

使用适当的方法工具对处理过的数据进行的分析,提取有价值的信息,形成有效的过程;这步操作需要各种数据分析方法,还要分析人员熟悉数据分析的操作。

5、数据可视化

通过数据分析结合用价值的数据(信息),进行处理,进行展示。因为,人类对于图像的印象比起文字、声音能更好地记忆,更加深刻;

数据可视化属于数据应用的一种;

注意:数据分析的结果不只是有可视化展示,还可以有数据挖掘  如: python运用到(matplotlib/numpy/pandas)工具处理数据,将数据中的有价值信息进一步提取。

6、撰写报告

这步是数据分析的总结与呈现

把数据的起因、过程、结果及其建议完整地呈现出来,以供决策者参考决定权益。

总之:
一切围绕数据展开工作;

数据从哪里来,数据到哪里去;

核心步骤:采集、处理、分析、应用

大数据技术背景:

大数据时代已经来到!

5V大数据特点:

量、种类、价值密度、数据数据产生密度、质量

大数据的定义:

说白了:大数据就是数据太大了,数据爆炸了,太多了......

大数据应用:

大数据应用真的太广了,贯穿人类的生活,例如:交通,购物、医疗、政府管理、部队信息、科技、金融、房产、天气...

用户画像:根据你的各种信息,综合考虑,判断你的身份,你需要什么,就会向你提供什么;生成一幅画,你的兴趣、社交习惯、消费习惯、等等 给你贴标签....;精准定位:通过卫星定位 导航技术,判定你身处的位置,获取你的一切信息;推荐系统:例如:某音的大数据推荐,根据方法,猜你喜欢。购物时,弹出你想要购买的商品,跟根据推荐算法,向用户发送消费信息......

分布式和集群:
二者针都是多台机器(服务器)的环境;

区别:分布式是不同的组件;集群是相同组件的机器。

这么多的数据如何实现存储,如何计算呢?

分布式:

走进linux操作系统(Opering System):
os不用多说他的重要性了吧;

连接 硬件和软件,硬件之上,软件之下。没有操作系统,计算机就是(啥也不是)(没有装操作系统的计算机称为“裸机”)

移动设备上的操作系统:去年不是华为自主研发的鸿蒙系统嘛,瞄准5G技术。

linux之父:

linux操作系统最牛皮的还要说他的内核(最核心的技术,主要功能):

Linux的发行版:

我们熟悉的ubantu(合适个人桌面)   红帽(旗舰版)/centos(社区版)(适合服务器)

那问题来了,我们学习大数据怎样能搭建一个局域网来学习大数据呢???

准备什么?

服务器?机架?网线光纤???

其实不然,我们利用对硬态资源的虚拟就能实现,在电脑上面安装多台虚拟机,为我们模拟一个大数据处理数据的环境,分布式,集群啊都可以实现。

虚拟机下载:参考其他文章,Vmware.


我文章虽然写的很烂,但是我会坚持的!!!

下一篇文章见!

欢迎来到大数据时代-----赶快来了解一些大数据的基础知识相关推荐

  1. 云小课|大数据时代的隐私利器-GaussDB(DWS)数据脱敏

    阅识风云是华为云信息大咖,擅长将复杂信息多元化呈现,其出品的一张图(云图说).深入浅出的博文(云小课)或短视频(云视厅)总有一款能让您快速上手华为云.更多精彩内容请单击此处. 摘要: 数据仓库服务Ga ...

  2. 5000字 大数据时代读书笔记_《大数据时代》读后感5篇

    <大数据时代>读后感 5 篇 对于畅销书刊.热点话题.时尚科技,始终不太感兴趣.书 刊,喜欢有一定年份的.话题,钟情于务虚的观点.新奇的产品 于我无缘,习惯使用成熟的科技产品.既不清高,也 ...

  3. 5000字 大数据时代读书笔记_《大数据时代读书笔记》

    大数据时代读书笔记 本书在讲些什么? <大数据时代>的一大贡献在于大数据方兴未艾.众说纷纭的时刻,进一步 阐述和厘清了大数据的基本概念和特点,这对许多以为大数据就是"数据大&qu ...

  4. 大数据时代是什么意思?大数据是什么?

    界快速虚拟化,数据的来源及其数量正以前所未有的速度增长. 伴随着云计算,大数据.物联网.人工智能等信息技术的快速发展和传统产业数字化的转型,数据量呈现几何级增长,根据市场研究资料显示,全球数据总量将从 ...

  5. 大数据时代:9种从大数据中获取商业价值的方法

    很多大数据都是来自一些新的来源,这代表客户或合作伙伴互动的新渠道.和任何新的数据来源一样,大数据值得探索.通过数据探索,你可以了解一些之前所不知道的商业模式和事实真相. 关于管理大数据的调查显示,89 ...

  6. 【网站架构】云计算、大数据时代如何调用云计算、爬虫数据程序

    本期,我们来聊一下后端程序整合其他应用. 对于这个问题,可能很多人会一笑而过,整合其他应用不就是根据其软件说明对接吗(数据库.SaaS服务)? 但是,云计算.大数据时代,大型网站系统已经不单单是前端. ...

  7. 大数据时代,如何才能发挥大数据在智慧城市建设中的重要作用?

    随着移动互联网.物联网.云计算等新一代信息技术的不断成熟与普及,产生了海量的数据资源,人类社会进入大数据时代.大数据不仅增长迅速,而且已经渗透到各行各业,发展成为重要的生产要素和战略资产,蕴含着巨大的 ...

  8. 深度揭秘:大数据时代企业卖技术还是卖数据?

    大数据技术的热度这几年一直在上升,现在我们在谈论大数据的时候已经不再仅仅局限于炒作大数据的概念了,更多的是聚焦在一些大数据的具体应用上,作为企业用户来讲,现在也已经开始有越来越多的企业领导和IT管理者 ...

  9. 大数据时代如何通过区块链保证数据的稀缺性?

    作者:白硕 作者介绍:白硕,恒生研究院院长 在区块链以及自然语言处理.知识图谱等人工智能领域有深厚的造诣,在语言学.哲学方面也有深入研究,注重学科交叉与融会贯通. 数据被称为数字化时代的金矿,是基础战 ...

最新文章

  1. 中国地区的官方ubuntu源
  2. python固定数据类型_Python的数据类型
  3. 多协程爬取中大微博内容(以及转发数,点赞数,评论数)
  4. Spring Profiles example--转载
  5. Stream流中的常用方法_limit
  6. 从零写一个编译器(一):输入系统和词法分析
  7. JavaScript从入门到放弃 - (一)构造函数和原型
  8. macaca使用中问题解决方法整理
  9. Echarts地图详细镇区的划分_echarts乡镇地图,echarts地图街道-算法与数据结构文档
  10. LeetCode从读题到自闭:1. 两数之和
  11. Atitit 软件理论方面的书籍 目录 1. 计算机科学分为计算机理论和计算机应用。 计算机基础理论包含以下几部分: 2 1.1. ( 1) 程序理论( 程序逻辑、程序正确性验证、形式开发方法等
  12. 计算机专业考注册测绘师经验,2017年注册测绘师考试知识点整理:测绘综合能力--摄影测量与遥感...
  13. 计算机房通气换气次数,各种换气次数汇总
  14. 【libnice】艰难的meson+ ninja手动编译过,vs2022 v143 debug
  15. Sklearn中的StratifiedKFold与stacking模型的融合方法
  16. 瑞幸咖啡,不过是又一个“逃离美团者”
  17. 个人的网易云邮箱账号
  18. mysql查询出当前年份的12个月
  19. 百度浏览器的隐私安全问题分析
  20. 手机充电原理分析及问题总结

热门文章

  1. 倾斜摄影 镜头畸变校准_什么是风景摄影的最佳镜头?
  2. 绝了,GitHub程序员的微服务资源库太强了,每份学习手册都优质详细
  3. HashMap与ConcurrentHashMap面试要点
  4. 生产计划管理软件有哪些?哪个好
  5. 联通发布“沃云”品牌 推出云计算产品
  6. Windows 11 22H2 中文版、英文版 (x64、ARM64) 下载 (updated Feb 2023)
  7. 【输出一个静态“心形”图案、一个跳动的“心”——使用C++、C语言来实现】
  8. 9月15日相约苏州丨共同探讨数智化时代,国产数据库的技术创新与实践
  9. 如何把一个文件夹的文件分配到多个文件夹
  10. echarts 全国各省市地图切换展示