一、大数据处理技术-基于Hadoop/Yarn的实战(含Spark、Storm和Docker应用介绍 )

本课程从大数据技术以及Hadoop/Yarn实战的角度,结合理论和实践,全方位地介绍Hadoop/Yarn这一高性能处理大数据工具的开发技巧。本课程涉及的主题包括:Hadoop/Yarn分布式文件系统DFS;MapReduce的的工作机制、类型和格式;如何构建和管理Hadoop/Yarn集群;Pig Latin语言的使用技巧;Hive数据仓库工具介绍;HBase和Zookeeper工具的使用和管理;开源数据采集工具sqoop。

本课程教学过程中还提供了案例分析来帮助学员了解如何用Hadoop/Yarn系列工具来解决具体的问题,并介绍了从大数据中挖掘出有价值的信息的关键。

第一讲 云计算及大数据处理技术介绍
第二讲 Google的关键技术
第三讲 Hadoop系统及HDFS
第四讲 MapReduce计算模型设计
第五讲 Pig 数据流处理工具
第六讲 云数据仓库Hive
第七讲 HBase和NoSQL
第八讲 数据抽取工具Sqoop
第九讲 Hadoop与其他云数据处理技术的融合

二、大数据实时处理–基于Spark的大数据实时处理及应用技术

课程中结合实例,介绍图工具GraphX如何发现社交网络中的人际关系,大数据挖掘工具MLlib如何进行商品聚类和电影推荐,以及Streaming流挖掘工具,并探讨了Spark与Docker等云环境下新技术的结合,分析了其应用前景。

本课程教学过程中还提供了案例分析来帮助学员了解如何用Spark实时大数据工具来解决业界的问题,并介绍了Spark生产环境搭建的相关知识。

第一讲 Spark大数据实时处理技术
第二讲 Spark安装配置及监控
第三讲 Scala编程语言使用概述
第四讲 Spark分布式计算框架
第五讲 Spark内部工作机制详解
第六讲 Spark数据读取与存储
第七讲 Spark通信模块和容错机制
第八讲 SQL On Spark
第九讲 Spark流数据处理工具Streaming
第十讲 Spark中的大数据挖掘工具MLlib
第十一讲 Spark大规模图处理工具GraphX
第十二讲 Spark与其他大数据技术的融合与应用

三、Storm大数据流式处理技术

本课程从大数据流式处理技术以及Storm实战的角度,理论和实践相结合,全方位地介绍Storm大数据流式处理工具的原理和内核。以案例分析的方式来帮助学员了解如何用BDAS系列工具来解决具体的问题,并介绍了从大数据中挖掘出有价值的信息的关键。

第一讲 Storm大数据处理介绍
第二讲 Storm配置和容错机制
第三讲 Storm可靠性及消息传输
第四讲 Storm拓扑及流分组
第五讲 Spout和Bolt详解
第六讲 分布式DPRC
第七讲 Storm事务拓扑
第八讲 Storm中的Trident
第九讲 Trident的状态
第十讲 Storm企业应用

四、大数据分布式存储系统

在大数据时代,很多企业的数据都是逐步积累的,这就要求存储系统有很好的横向扩展能力;而要对传统存储设备进行横向扩展,会带来很高的成本,但是分布式存储却能够比较好的解决这样的问题。

第一讲 分布式存储系统概述
第二讲 大数据集(超大文件)存储
第三讲 海量小文件存储
第四讲 分布式存储技术发展新动向和趋势

五、大数据前沿技术分析与应用

大数据相关技术最近几年出现了井喷的趋势,众多技术纷纷出现,典型的系统包括Hadoop、Spark、Flume、Scribe、Kafka、Storm、Mahout、MLlib、Docker等,涵盖网络数据爬取、日志采集、分布式消息订阅、大数据分析挖掘等方面,涉及离线批处理、实时处理、流式处理等多种处理方式。这些技术解决不同的应用需求,涉及面广,技术要求高,交叉知识范围广,知识内容更新频繁,要理清其中的关系,从中发现最适合本机构的技术,成为了目前各机构技术专家的一个难点。

第一讲 大数据技术基础
第二讲 批处理大数据平台Hadoop
第三讲 实时大数据平台Spark
第四讲 流式大数据平台Storm
第五讲 Python网络爬虫
第六讲 大数据日志采集工具Flume
第七讲 分布式消息订阅工具Kafka
第八讲 NoSQL云数据处理工具
第九讲 大数据中的SQL工具
第十讲 大数据分析挖掘工具
第十一讲 资源虚拟化工具Docker
第十二讲 大数据技术展望

六、数据仓库与数据挖掘(结合SPSS和WEKA)

本课程重在突出数据仓库与数据挖掘决策支持的本质,介绍数据挖掘的各种方法、技术实现手段,通过对实例的深入剖析解释它们的原理。

第一讲 数据仓库原理及联机分析技术介绍
第二讲 数据仓库设计与开发
第三讲 基于数据仓库的决策支持系统
第四讲 数据仓库案例剖析
第五讲 数据挖掘与知识发现
第六讲 关联分析算法及其案例
第七讲 聚类分析算法及其案例
第八讲 其它数据挖掘算法介绍

七、Python和R数据挖掘技术-基于Python和R语言的数据挖掘和统计分析技术

本课程将对基于Python和R语言进行数据处理、数据探索的基本方法,利用R语言实现模型选择、Logistic回归及决策树算法,以及贝叶斯算法及支持向量机、神经网络等算法原理及实现进行讲解。

第一讲 数据挖掘,Python和R简介
第二讲 数据的导入与导出
第三讲 数据可视化展现
第四讲 决策树与随机森林
第五讲 回归分析
第六讲 聚类分析
第七讲 离群点检测
第八讲 时间序列分析
第九讲 关联规则
第十讲 社交网络分析

八、大数据分析挖掘-基于Hadoop/Mahout/MLlib的大数据挖掘(含Spark、Storm和Docker应用介绍 )

本课程从大数据挖掘分析技术实战的角度,结合理论和实践,全方位地介绍Mahout和 MLlib等大数据挖掘工具的开发技巧。本课程涉及的主题包括:大数据挖掘及其背景,Mahout和 MLlib大数据挖掘工具,推荐系统及电影推荐案例,分类技术及聚类分析,以及与流挖掘和Docker技术的结合,分析了大数据挖掘前景分析。

本课程教学过程中还提供了案例分析来帮助学员了解如何用Mahout和 MLlib挖掘工具来解决具体的问题,并介绍了从大数据中挖掘出有价值的信息的关键。

第一讲 大数据挖掘及其背景
第二讲 MapReduce/DAG计算模式
第三讲 云挖掘工具Mahout/MLib 
第四讲 推荐系统及其应用开发
第五讲 分类技术及其应用
第六讲 聚类技术及其应用
第七讲 关联规则和相似项发现
第八讲 流数据挖掘相关技术
第九讲 云环境下大数据挖掘应用

九、Spark大数据挖掘工具MLlib实战(机器学习)

本课程主要讲解Spark MLlib,Spark MLlib是一种高效、快速、可扩展的分布式计算框架,实现了常用的机器学习,如:聚类、分类、回归等算法。讲解各个算法的理论、详细展示Spark源码实现,最后均会通过实例进行解析实战,帮助大家真正从理论到实践全面掌握Spark MLlib分布式机器学习和大数据挖掘方法。

第一讲 Spark大数据实时处理技术
第二讲 Spark安装配置及监控
第三讲 Scala编程语言和分布式计算模型 
第四讲 Spark MLlib线性回归和逻辑回归算法
第五讲 Spark MLlib贝叶斯分类算法
第六讲 Spark MLlib决策树算法
第七讲 Spark MLlib聚类算法
第八讲 Spark MLlib关联规则算法
第九讲 Spark MLlib个性化推荐算法
第十讲 Spark MLlib神经网络算法

十、Python语言基础及数据分析技术

Python语法简洁清晰,Python具有丰富和强大的库。能够把用其他语言制作的各种模块(尤其是C/C++)很轻松地联结在一起。 Python包括一套完整的数据处理、计算和制图软件系统;简便而强大的编程语言:可操纵数据的输入和输入,可实现分支、循环,用户可自定义功能。

本课程将对基于Python语言进行数据处理、数据探索的基本方法,并对Python语言算法原理及实现进行讲解。

第一讲 基础知识
第二讲 Python数据结构
第三讲 选择与循环
第四讲 字符串与正则表达式
第五讲 函数设计与使用
第六讲 面向对象程序设计
第七讲 文件操作
第八讲GUI编程
第九讲 数据库编程
第十讲 科学计算与可视化
第十一讲 大数据处理

十一、大数据可视化技术与应用

本课程立足于可视化的本质问题,从设计的角度讲述数据可视化技术,而非可视化实现算法。

课程通过演绎可视化设计的基本流程、常用工具和方法,加上针对典型数据类型可视化方法的案例分析,以启发学员思考,达到以更加丰富的可视化方法,运用各种交互设计手段进行可视化分析与探索,深入挖掘自身现有业务数据价值的目的。

第一讲 数据可视化概述
第二讲 可视化设计基础
第三讲 可视化编码基础
第四讲 地理空间数据可视化方法  
第五讲 时变数据可视化方法
第六讲 关系数据可视化方法
第七讲 高维数据可视化方法
第八讲 文本数据可视化方法
第九讲 可视化交互设计方法

十二、云计算与大数据处理技术

本课程分别从多个角度分析在面对海量数据处理的困难时,不同的应用体系是如何解决问题并获得成功的。研究这些已有的体系不是目的,而是希望学员能够通过学习这些解决问题的方法和思路,通过归纳整理深入理解,再根据自己所面对的领域特征,形成解决具体实际问题的方案。通过本课程学习,希望推动国内云计算项目开发上升到一个新水平。

第一讲 云计算的概念与现状
第二讲 从Google云计算体系,理解海量数据处理的方法
第三讲 从Hadoop云计算项目,进一步研究云数据处理方法
第四讲 从Windows Azure,理解平台即服务的本质
第五讲 从Amazon云计算,讨论如何提供云服务
第六讲 实施云计算的关键点:安全策略
第七讲 当前数据中心如何向云计算环境转变?

第八讲 基础设施即服务(IaaS)关键实现技术

第九讲 软件即服务(SaaS)关键实现技术

大数据课程培训大纲及详细说明(全)相关推荐

  1. 大数据课程培训大纲详解,大数据培训学习内容

    大数据助力成就非凡.大数据正在改变着商业游戏规则,为企业解决传统业务问题带来变革的机遇.毫无疑问,当未来企业尝试分析现有海量信息以推动业务价值增值时,必定会采用大数据技术.那么大数据培训哪家好呢?今天 ...

  2. python大数据课程培训大纲

    一.大数据处理技术-基于Hadoop/Yarn的实战(含Spark.Storm和Docker应用介绍 ) 本课程从大数据技术以及Hadoop/Yarn实战的角度,结合理论和实践,全方位地介绍Hadoo ...

  3. 大数据要学什么?看看这份大数据课程大纲

    大数据领域每年都会涌现出大量新的技术,成为大数据获取.存储.处理分析或可视化的有效手段.大数据技术能够将大规模数据中隐藏的信息和知识挖掘出来,为人类社会经济活动提供依据,提高各个领域的运行效率,甚至整 ...

  4. 学习大数据不知从何学起?看看这份大数据课程大纲

    大数据领域每年都会涌现出大量新的技术,成为大数据获取.存储.处理分析或可视化的有效手段.大数据技术能够将大规模数据中隐藏的信息和知识挖掘出来,为人类社会经济活动提供依据,提高各个领域的运行效率,甚至整 ...

  5. 谨防上当:揭露那些披着大数据外衣的假大数据课程

    据业内知情人士爆料,大数据培训市场 "野鸡课程"层出不穷.不单单有不择手段的招生方式,更有鱼龙混杂的课程大纲,使得不少学生大呼上当.那么,目前市场上都有哪些披着大数据噱头的假课呢? ...

  6. 调研 | 大数据师资培训,你想学哪门课、有哪些意见?

    为更好地满足全体培养单位的师资研讨与培训需求,全国工程专业学位研究生教育指导委员会拟委托清华数据科学研究院开展大数据方面的师资研讨与培训活动.为提高活动的针对性和活动的质量,现征求您的建议和意见,感谢 ...

  7. 2019大数据课程_根据数据,2019年最佳免费在线课程

    2019大数据课程 As we do each year, Class Central has tallied the best courses of the previous year, based ...

  8. 【免费】某机构最新3980元机器学习/大数据课程高速下载,限量200份

    [免费]某机构最新3980元机器学习/大数据课程高速下载,限量200份 湾区人工智能 今天 现在,越来越多做Python的朋友在学大数据/机器学习技术,马云也说了:"未来最大的资源就是数据, ...

  9. 不错的大数据课程体系(感谢某机构,希望不属于侵权)

    2019独角兽企业重金招聘Python工程师标准>>> 阶段一.大数据.云计算 - Hadoop大数据开发技术 课程一.大数据运维之Linux基础 本部分是基础课程,帮大家进入大数据 ...

最新文章

  1. Git 常用命令清单
  2. python *args **kwargs
  3. Linux内核设计与实现 总结笔记(第五章)系统调用
  4. python数组初始化_Python Numpy 数组的初始化和基本操作
  5. python读取视频流做人脸识别_基于 Python + OpenCV 进行人脸识别,视频追踪代码全注释...
  6. php代码执行漏洞,预警!!!PHP 远程代码执行漏洞
  7. iphone:解析html的第三库hpple初试
  8. 一、基础篇--1.1Java基础-包装类的装箱和拆箱
  9. docker工作原理、组成部分、特点优点
  10. 安卓系统源码、内核下载
  11. 国内主要安全产品及厂商
  12. 2-4 实变函数之可测函数
  13. excel npoi 连接_MVC导出Excel之NPOI简单使用(一)
  14. Nginx 使用 ngx_http_mirror_module 模块 复制 http请求流量
  15. IDEA项目名称的中文和数字乱码文字
  16. 幼儿学习品质提升的培养策略问卷
  17. AutoCAD Civil 3D笔记
  18. kaldi-关键词识别kws
  19. 【万人独木桥】那个夏天—后高考生活该如何安排?
  20. 【解决】Failure to find com.xxx:xxx-target:pom:1.0-SNAPSHOT in https://xxxx/snapshot was cached in the

热门文章

  1. 2012年5月SAT香港真题解析
  2. 搭建智能DNS---就近原则
  3. js中splice方法和slice方法
  4. python之图片文本识别
  5. 【hash】兔子与兔子(C++)
  6. 面向对象基础案例(2)
  7. python求平均数和中位数
  8. 【vs2019】vs2019(Visual Studio2019)离线安装包下载详细步骤
  9. pci 中断冲突_如何解决IRQ冲突
  10. 字符串是否为空(isEmpty和isBlank的区别)