大数据概述

数据的表现形式:

  • 线下数据信息化:数据库、文字记录、照片……
  • 互联网-移动互联网:网页数据、用户行为记录、数字图像……
  • 传感器:设备监控、智能家居、摄像头……

大数据的4V特征:

  • 大量化(Volume):存储量大、增量大;
  • 多样化(Variety):来源多、格式多;
  • 快速化(Velocity):高速数据I/O;
  • 价值密度低(Value)

大数据基础技术


一、工程技术

Hadoop介绍

Hadoop是一个能够对大量数据进行分布式处理的软件框架。
Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS 实现存储,而 MapReduce实现分析处理。

关系型数据库 Hadoop
数据量 GB PB
使用场景 点查询或更新 整个数据集,一次写多次读,没有更新
结构化程度 结构化 半结构化及非结构化
扩展性 线性 非线性

Hadoop和网格计算的区别:
网格计算:CPU密集型,各个处理单元接收小批量数据,然后贡献CPU,最后提交计算结果;
Hadoop:数据本地化,传输数据量较大,对网络带宽要求较高。

HDFS(Hadoop Distributed File System)基本命令:
%hadoop fs -ls .
%hadoop fs -mkdir books
%hadoop fs -copyFromLocal input/docs/test.txt hdfs://loca1host/user/tom/test.txt

HDFS特点
1.流式访问:
跑在HDFS上的应用与一般的应用不同,它们主要是以流式读为主,做批量处理;比之关注数据访问的低延迟问题,更关键的在于数据访问的高吞吐量。
2.write-one-read-many
一个文件经过创建、写,关闭之后就不需要改变。这一假设简化了数据一致性问题,使高吞吐量的数据访问成为可能。
3.本地计算
移动计算的代价比之移动数据的代价低。一个应用请求的计算,离它操作的数据越近就越高效。将计算移动到数据附近,比之将数据移动到应用所在显然更好,HDFS提供给应用这样的接口。
4.容错及备份
Hadoop有健壮的数据校验+容灾备份。通过配置解决

HIVE
定义:一个构建在Hadoop上的数据仓库框架。
目的: 可以通过类SQL语句快速实现简单的MapReduce统计,使熟悉SQL的用户无缝使用Hadoop。
特点:语法基本和MySQL相同,但是功能没有MySQL丰富,满足最基本的SQL语法要求。

HIVE的实现逻辑

select year,count(temperature)
from src
where year>1990
group by year
having count(temperature)>1000;

这个sql的语义是:
1)(map)从src表中选出所有的记录,选出year>1990的记录;
2)(partition and shuffle)按照year进行分组(year相同的记录放到一组);
3)(reduce)对每个分组计算count(temperature),选出count(temperature)>1000的记录;
4)最后对于计算结果选出year和count(temperature)的值作为返回结果

小结:

二、策略技术
机器学习中经典算法和对应问题

有监督学习:对具有概念标记(分类)的训练样本进行学习,以尽可能对训练样本集外的数据进行标记(分类)预测。这里,所有的标记(分类)是已知的。无监督学习:对没有概念标记(分类)的训练样本进行学习,以发现训练样本集中的结构性知识。这里,所有的标记(分类)是未知的。因此,训练样本的岐义性高。聚类就是典型的无监督学习
定量输出称为回归,或者说是连续变量预测;定性输出称为分类,或者说是离散变量预测。


典型应用


  1. 精准营销:广告变现
  2. 精准营销:推荐引擎
  3. 实时监控:上海外滩踩踏事件
  4. 智能链接:互联网+O2O
  5. 智能链接:互联网+O2O:Uber
  6. 辅助决策:智能选股

  7. 辅助决策:智能选址

总结

本文参考自牛客网。

大数据基础技术和应用相关推荐

  1. 看这里→大数据工程技术人员系列课程—《大数据工程技术人员-大数据基础技术》正式上线!...

    点击蓝字,关注我们 行业背景 据中国商业联合会数据分析专业委员会统计,未来中国基础性数据分析人才缺口将达到1400万.2025年前大数据人才需求仍将保持30%-40%的增速,需求总量将会在2000万人 ...

  2. 机器学习、数据挖掘、人工智能和其他大数据基础技术,之间的业务逻辑关系?

    不管是学习技术还是开发产品,分析和理解这个大数据产业版图都十分必要.版图细节不做赘述,我们重点从学习的角度来看DT(Datatechnology)技术泛型下包括那些核心技术,各技术领域之间是什么样的逻 ...

  3. 大数据技术原理与应用 第一篇 大数据基础

    目录 第一章 大数据概述 一. 大数据时代 1.1 三次信息化浪潮 1.2 信息科技发展 1.3 数据产生方式的变革 1.4 大数据的影响 二. 大数据的概念 2.1 大数据的特征 2.2 大数据关键 ...

  4. 【大数据】AI、IoT、区块链这些技术与大数据融合,大数据基础软件干货不容错过

    作者:刘学习  | 小编:阿软 在IT产业发展中,包括CPU.操作系统在内的基础软硬件地位独特,不但让美国赢得了产业发展的先机,成就了产业巨头,而且因为技术.标准和生态形成的壁垒,主宰了整个产业的发展 ...

  5. K8S 从懵圈到熟练--大数据平台技术栈18

    回顾:大数据平台技术栈 (ps:可点击查看),今天就来说说其中的K8S! 来自:阿里技术公众号 阿里妹导读:排查完全陌生的问题.不熟悉的系统组件,对许多工程师来说是无与伦比的工作乐趣,当然也是一大挑战 ...

  6. 大数据可视化技术面临的挑战及应对措施

    来源:科技导报 本文约5400字,建议阅读10分钟 本文介绍了适用于大数据的数据可视化技术,讨论了针对大数据可视化应用需求自主研发的交互式可视化设计平台AutoVis及其应用. [ 导读 ]本文从大数 ...

  7. url采集工具_大数据关键技术浅谈之大数据采集

    在前几篇文章中,企通查为大家介绍了大数据处理的基本流程.从大数据的一系列处理过程中(抽取.集成.分析.解释),我们可以发现这一整套流程中涵盖了数据存储.处理.应用等多方面的技术. 大数据价值的完美体现 ...

  8. 车联网大数据框架_大数据基础:ORM框架入门简介

    作为大数据开发技术者,需要掌握扎实的Java基础,这是不争的事实,所以对于Java开发当中需要掌握的重要框架技术,也需要有相应程度的掌握,比如说ORM框架.今天的大数据基础分享,我们就来具体讲一讲OR ...

  9. 海洋大数据关键技术及在灾害天气下船舶行为预测上的应用

    海洋大数据关键技术及在灾害天气下船舶行为预测上的应用 王冬海,卢峰,方晓蓉,郭刚 中电科海洋信息技术研究院有限公司,北京 100041 摘要:随着海洋数据量的爆炸式增长,海洋大数据受到越来越多的关注. ...

最新文章

  1. Django视图、URL、模版简介
  2. 华为手机投屏电脑_华为手机如何实现无线投屏?
  3. 多标签分类任务大赛50万奖金等你来
  4. android 程序错乱,android – 安装时应用程序崩溃,错误sqlite3_...
  5. Linux下Apache、PHP、MySQL默认安装路径
  6. 信息学奥赛一本通1090
  7. matlab抛物柱面画图,抛物柱面 - calculus的日志 - 网易博客
  8. 一文讲解AGV机器人的12种导航导引方式,收藏备用
  9. 2021-2027全球与中国抽屉五金市场情况与未来趋势研究报告
  10. .nav ul .mall a:hover 是什么意思
  11. 计算机科学班会,计算机科学与技术学院20级13班召开“砥砺前行,“计”往开来”主题班会...
  12. 关于 Windows 设置tomcat开机自动启动
  13. 三维建模分享之蒸汽坦克
  14. ch.ethz.ssh2._MindTerm SSH客户端3.4版已发布
  15. 关镇铨,有人为其洗白,我只想说我的亲身经历,最后悔的就是选择他们
  16. MySQL索引基础续
  17. 前端开发必备工具-网页调试工具
  18. SpringBoot对Controller进行单元测试【含乱码解决】(详细代码)
  19. 【245期】面试官:同类中两个方法加同步锁,多个线程支持同时访问这两个方法吗?...
  20. 【MFC】MFC基础类——CString(使用心得)

热门文章

  1. android ImageView 之 android:scaleTye=
  2. 英语基础语法(八)-时态
  3. 基于Windows 7旗舰版搭建WinCE6.0开发环境的过程
  4. 限制 计算机中 某用户上网 win7,Win7旗舰版怎么限制孩子的上网时间?电脑限制孩子上网时间的方法...
  5. android 网易item广告,Android仿网易严选商品详情页
  6. 计算机科学基本理论,计算机科学的基础知识.ppt
  7. sqlmap指定cookie_利用SQLMap进行cookie注入
  8. 【C++grammar】文件I/O流的基本用法
  9. 常用算法总结(穷举法、贪心算法、递归与分治算法、回溯算法、数值概率算法)
  10. php 移植 arm 精简,php5.4.5移植到arm-linux摘要,lighttpd配置