文章目录

  • 1. 软件在大数据方向的应用
  • 2. 大数据方向应用:
  • 3. 大数据的应用流程
  • 4. 传统数据分析的痛点:
  • 5. 大数据的应用流程与生态圈
  • 6. 大数据技术框架应用
  • 7. Flink框架应用
  • 8. Pyflink
  • 9. 搭建大数据Python知识体系

1. 软件在大数据方向的应用

  • Python:机器学习深度学习

  • java:Hadoop和Flink底层语言支持都是基于java

  • Scala:Spark框架

2. 大数据方向应用:

  1. 新基建和数字化转型助力大数据行业升级

  1. 欧美国家经过数字化转型,制造业成本减少20%-30%左右,营收增加20%-30%左右。物流成本降低30%,营收增加30%等等。
  2. 从传统物流到智慧物流的转变,通过手机物流数据,利用物流数据的手段普及到整个零售行业。

3. 大数据的应用流程

  • 数据如何采集
  • 数据如何储存
  • 数据如何ETL(数据清洗)
  • 数据分析——得到统计指标
  • 数据挖掘——对已有的数据进行价值化的提取
  • 数据报表展示——业务或数据的决策

例子:物流项目:

  • 采集:仓储,物流管理系统、用户下单层面
  • 存储:HDFS,HBase
  • 数据清洗:缺失值,异常值
  • 数据分析:统计各种指标
  • 数据建模:通过机器学习模型达到预测,AI+大数据为物流行业赋能
  • 数据报表展示:基于业务决策——物流智能选址

4. 传统数据分析的痛点:

  • 当前数据类型包括以下三种:

    • 半结构化:JSON,Xml
    • 非结构化:视频、音频
    • 结构化:Mysql
  • 传统数据分析在应用过程中有以下痛点

    • Mysql+Oracle:无法解决非结构化数据,数据量增大如何处理

    • python数据分析

      • 优势:Python生态中数据科学库完整,并有支持深度学习机器学习的库

      • 劣势:Python生态数据分析框架,例如pandas,多数是基于单机版数据分析,对于分布式数据支持需要引入大数据框架,无法解决

    • 传统数据分析瓶颈:当数据达到一定量级,传统数据库做的是纵向扩展,所以瓶颈是存在的。(当数据量超出存储能力时候,我们只能纵向增加内存,瓶颈永远存在)

  • 大数据分析的优势

    不同于传统的数据分析,大数据是通过廉价的PC机通过网络连接在一起,构建分布式的计算和分布式的存储。

  • 大数据分析的特点有:

    • 数据量大:GB-TB-ZB之间差别1024倍,数据呈现指数级别增长
    • 数据种类多:结构化、半结构化和非结构化
    • 速度快:
      • 第一代计算引擎MR
      • 第二代计算引擎Hive
      • 第三代计算引擎Impala和Spark
      • 第四代计算引擎Flink(阿里参与建设)
      • Hive和Spark离线数据分析,而Flink是做实时数据分析的
    • 价值密度低:在大数据基础上如何对数据进行价值化提取(全量级数据呈现指数增长,有价值数据呈现部分增长)有价值数据在总数据中比例低,所以我们需要机器学习算法对数据进行价值提取。

5. 大数据的应用流程与生态圈

  1. 数据如何采集

    • Flume+Sqoop+Canal+DataX
  2. 数据如何储存

    • HDFS+Hbase
  3. 数据如何ETL(数据清洗)

    • MapReduce

    • Spark

    • Flink

    • kylin

    • Impala

  4. 数据分析——得到统计指标

    • MapReduce

    • Spark

    • Flink

    • kylin

    • Impala

  5. 数据挖掘——对已有的数据进行价值化的提取

    • SparkMI

    • SparkMlib

    • Alink

  6. 数据报表展示——业务或数据的决策

    • BI

    • Apache SuperSet

6. 大数据技术框架应用

7. Flink框架应用

Apache Flink是一个用于分布式流和批处理数据处理的开源平台。Flink的核心是流数据流引擎,为数据流上的分布式计算提供数据分发、通信和容错。Flink在流引擎之上构建批处理,覆盖本机迭代支持,托管内存和程序优化。Flink核心思想与SparkStreaming类似,针对数据集的微批处理框架,在相对不高的延迟下(秒级)完成批量数据的近实时处理。

阿里巴巴16年,以9000w欧元的价格收购了在柏林的一家开源的流计算引擎的创业公司,从此开启Flink高速发展之路。19年,阿里内部的blink合入flink1.9版本中。

特性

  • 收集数据,按照时间进行微批数据的切分,并进行分布式处理,数据处理吞吐量大;
  • 由于针对批次数据加工,相对延迟高于Storm,且无法完成实时事务性处理(例:银行即时转账等业务)。

Flink 官方文档:https://flink.apache.org/

8. Pyflink

将Flink的分布式能力赋予python,将python丰富的数据分析库,应用于Flink

  1. 为什么Spark和Flink等组件都纷纷支持Python语言?

    • 当前有大量的Python语言流行度和Python的开发者
    • Python在数据挖掘和机器学习方面常使用的语言
    • 能够基于使用PySpark及PyFlink完成的对应数据分析和挖掘的项目任务
    • Python+大数据组合(解决业务中还得重新学习Spark或Flink框架的问题)
    • 通过Python结合Matplotlib完成数据的EDA(数据探索性分析),同时我们可以通过Pyhon和Spark的结合PySpark完成SparkSql大数据分析和SparkMllib的大数据挖掘。
  2. 如何能够借助Python语言和大数据框架完成建模

    • 借助Python的Django和Flask完成Web任务,通过Python的Scrapy完成数据爬虫工作

    • 亦可通过Python的Numpy、Pandas和Matplotlib数据科学库完成数据分析任务

    • 但当数据量增加内存无法加载大量数据计算的时候,可能需要Python和大数据框架的结合处理、分析和对数据进行建模

    • PySpark的SparkSql完成分布式计算任务,使用Python操作SparkMllib完成数据挖掘和机器学习任务

  1. Python如何支持Flink:

    • Flink要做到,批处理(处理批量数据)和流处理(处理实时数据)的统一

    • DataStream API支持流计算;DataSet API支持批计算

  1. 1.9版本之后的PyFlink将PyFlink部署到PyPi上可以直接安装:pip install apache-Flink

9. 搭建大数据Python知识体系

  • 大数据技能

    • java
    • mysql,Oracle
    • hadoop
    • Nosql存储
    • Flink技术栈
    • Spark技术栈
  • Python大数据分析技能
    • 机器学习
    • SparkML
    • FlinkML
  • PySpark——PyFlink分布式计算核心技能
    • PySpark
    • PyHive
    • Kafka-Python
    • PyFlink案例实战

【AI案例】(二)搭建大数据Python生态知识体系相关推荐

  1. 一文看懂大数据生态圈完整知识体系【大数据技术及架构图解实战派】

    一文看懂大数据生态圈完整知识体系 徐葳 随着大数据行业的发展,大数据生态圈中相关的技术也在一直迭代进步,作者有幸亲身经历了国内大数据行业从零到一的发展历程,通过本文希望能够帮助大家快速构建大数据生态圈 ...

  2. 【技术总结】大数据开发模块化知识体系、学习路线及对应的资料推荐

    〇.概述 1.常用网站 2.常用资料 一.环境 Linux Shell Git Maven Docker K8S Rancher 二.数据库 MySQL Oracle Sql Server Postg ...

  3. 大数据之-hadoop知识体系架构---大数据之hadoop工作笔记0001

    源码编译的时候机器内存要大于4G.<

  4. 大数据架构:全网最全大数据架构生态

    文章目录 简介 1.数据采集技术框架 2.数据存储技术框架 3.分布式资源管理框架 4.数据计算框架 (1)离线数据计算 5.数据分析技术框架 6.任务调度技术框架 7.大数据底层基础技术框架 8.数 ...

  5. Python +大数据-Hadoop生态-Linux(二)-集群搭建和安装

    Python +大数据-Hadoop生态-Linux(二)-集群搭建和安装 今日课程学习目标 1.掌握Linux用户.权限管理 2.掌握Linux常用系统命令 3.掌握服务器集群环境搭建 4.了解sh ...

  6. Python + 大数据-Hadoop生态-Linux(一)-环境搭建和Vi

    Python + 大数据-Hadoop生态-Linux(一)-环境搭建和Vi 今日课程学习目标 1.了解Linux操作系统发展介绍.安装配置 2.掌握SSH原理机制.Linux文件上传下载 3.掌握L ...

  7. Python +大数据-hadoop生态-hadoop(三)--Hadoop HDFS

    Python +大数据-hadoop生态-hadoop(三)–Hadoop HDFS 今日课程学习目标 理解分布式文件存储的概念与实现 掌握HDFS分块存储.副本机制等特性 学会shell操作HDFS ...

  8. 搭建大数据运行环境之二

    前言 上篇文章咱们将大数据相关的一些组件都集成安装在了一个docker中 搭建大数据运行环境之一 这篇文章咱们继续 启动下该docker中的大数据相关的组件 将大数据运行环境跑起来 上篇文章的几个注意 ...

  9. 二、大数据技术之Hadoop --从Hadoop框架讨论大数据生态

    目录 1.从Hadoop框架讨论大数据生态 1.1 Hadoop是什么 1.2 Hadoop发展历史 1.3 Hadoop三大发行版本 1.3.1 Apache Hadoop 1.3.2 Cloude ...

最新文章

  1. Imagination升级PowerVR图形架构,高端移动设备或将迎来重大升级
  2. objective-C NSNotificationCenter (通知)的使用方法
  3. python 移动运算符的理解
  4. 人工智能定会的录取率也不过百分之29
  5. springcloud 文件服务器,SpringCloud传文件
  6. 图像内复制粘贴篡改取证matlab_[论文笔记] 篡改检测:RGB-N
  7. java实现简易聊天窗口先运行服务器还是客户端_一个简易聊天功能的服务器端和客户端源码...
  8. virtualbox怎么共享文件夹 linux,Virtualbox中Ubuntu设置共享文件夹
  9. 计算机二级c语言题库缩印,计算机二级C语言上机题库(可缩印做考试小抄资料)...
  10. OJDBC版本区别nbsp;[ojdbc14.jar…
  11. cad剪裁地形图lisp_CAD怎么在完整地形图里截取需要的部分地形图
  12. 通过经纬度调用百度sdk api实现查询详细地址 Java
  13. 格雷斯音频大篷车无线音箱回顾
  14. 基于FPGA的DDS直接数字频率合成器,频率和相位控制字可配置,在vivado2019.2平台中verilog开发.含testbench
  15. jquery点击图片放大,再点缩小(转)
  16. Modra Pharmaceuticals于2021 ASCO GU年会公布其转移性前列腺癌IIb期临床试验初步数据
  17. 把TortoiseSVN中默认的文件比较工具替换为Beyond Compare
  18. Maven中央仓库连接不上的问题解决
  19. linux与windows双系统启动引导
  20. 成功的项目经理,每天、每周、每旬、每月都做了什么?

热门文章

  1. Speedtest 直装高级版 +支持多平台 —— 强悍网络速度测试工具!
  2. 拉伯证券|锂离子动力电池有哪些优缺点?锂离子电池的优缺点详解
  3. swapidc的php语言,SWAPIDC目录说明及文件说明及某些常量内容
  4. JAVA WEB 开源CMS系统,可用来二次开发
  5. 【ZYNQ实战】利用AXI Quad SPI快速打通Linux至PL端SPI从设备
  6. 手机短信转发到另一个手机接收_吓人!手机收到“处理尸体”短信 警方调查揭开真相!...
  7. 什么是哈希冲突?怎么解决哈希冲突。
  8. 2022年高处安装、维护、拆除新版试题及高处安装、维护、拆除考试试卷
  9. 导播软件 vjdirector
  10. AE 枪口火焰的五毛特效