2022  8  5  — 2022  8  9  北京(同时转线上直播)

5 日报到,6 -9 日上课)

  1. 掌握大数据建模分析与使用方法。
  2. 掌握大数据平台技术架构。
  3. 掌握国内外主流的大数据分析与 BI 商业智能分析解决方案。
  4. 掌握大数据分析在搜索引擎、广告服务推荐、电商数据分析、金融客户分析方面的应用。
  5. 掌握主流的基于大数据 Hadoop 和 Spark、R 的大数据分析平台架构和实际应用。
  6. 掌握基于 Hadoop 大数据平台的数据挖掘和数据仓库分布式系统平台应用,以及商业和开源的数据分析产品加上 Hadoop 平台形成大数据分析平台的应用剖析。掌握常见的机器学习算法。

来自中国科学院计算技术研究所、清华大学、北京理工大学等科研机构和大学的高级专家,拥有丰富的科研   及工程技术经验,长期从事机器学习、数据挖掘、大数据分析等领域的教学与研究工作。

八、具体课程安排

时间安排

课程大纲

详细内容

实践训练

第一天

900-1200

1400-1700

一、大数据概述

  1. 大数据及特点分析
  1. 大数据关健技术
  1. 大数据计算模式
  1. 大数据应用实例

二、大数据处理架构 Hadoop

1.Hadoop 项目结构2.Hadoop 安装与使用3.Hadoop 集群的部署与使用

4.Hadoop 代表性组件

  1. Hadoop Single Node Cluster
  1. Hadoop Multi Node Cluster

三、分布式文件系统 HDFS

  1. HDFS 体系结构
  2. HDFS 存储
  3. HDFS 数据读写过程
  1. 创建与查看HDFS 目录
  2. 从本地计算复制文件到HDFS
  3. 将HDFS 文件复制到本地计算机
  4. 复制与删除HDFS 文件
  5. Hadoop HDFS Web 浏览 HDFS

四、分布式数据库 HBase

  1. HBase 访问接口
  2. HBase 数据类型
  3. HBase 实现原理
  4. HBase 运行机制
  5. HBase 应用

第二天

900-1200

1400-1700

五、MapReduce

  1. MapReduce 体系结构
  2. MapReduce 工作流程
  3. 资源管理调度框架YARN 4.MapReduce 应用

六、Spark

  1. Spark 生态与运行架构
  2. Spark SQL
  1. Spark 部署与应用方式
  1. Python Spark 安装
  2. 本地运行pyspark 程序
  3. 在Hadoop YARN 运行 pyspark 4.Spark Web UI

七 、 IPython Notebook 运 行Python Spark 程序

  1. Anaconda
  1. IPython Notebook 使用 Spark
  2. 使用IPython Notebook 在 Hadoop YARN 模式运行
  1. 在不同模式运行IPython Notebook 运行

Python Spark 命令

  1. Python 程序开发

八、 Python Spark

集成开发环境

  1. Python Spark 集成开发环境部署配置
  2. Spark 数据分析库 MLlib 的开发部署

Spark MLlib 应用程序示例

第三天

900-1200

1400-1700

九、 Python Spark

决策树二分类与多分类

  1. 决策树原理
  2. 大数据问题
  3. 决策树二分类
  1. 搜集数据
  2. 数据准备:导入并转换数据、提取特征字段、提取标签

4.决策树多分类

  1. Python Spark 建模,训练模型
  2. 预测数据
  3. 评估数据,给出评价指标并得到评估结果

十、 Python Spark

支持向量机

  1. 支持向量机SVM 原理与算法
  2. Python Spark SVM 程序设计
  1. 数据准备
  2. 建立SVM 模型,训练模型
  3. 评估参数并找出最优参数
  4. 根据模型进行预测

十一、Python Spark

贝叶斯模型

  1. 朴素贝叶斯模型原理
  2. Python Spark 贝叶斯模型程序设计
  1. 建模贝叶斯模型,并进行对参数估计
  2. 训练模型,得到最优参数
  3. 根据模型进行预测

十二、Python Spark

逻辑回归

  1. 逻辑回归原理
  2. Python Spark 逻辑回归程序设计
  1. Python Spark 逻辑回归建模
  2. 根据模型进行分类

第四天

900-1200

1400-1700

十三、Python Spark

回归分析

  1. 大数据分析
  2. 数据集介绍
  3. Python Spark 回归程序设计
  1. 数据准备
  2. 训练回归模型
  3. 建立评估指标
  4. 训练回归模型,并找到最优参数
  5. 根据模型进行预测

十 四 、 Spark ML Pipeline 机器学习流程分类

1.机器学习流程组件:StringIndexer、OneHotEncoder、VectorAssembler 等2.使用 Spark ML Pipeline 机器学习流程分类程序设计

  1. 数据准备
  2. 建立机器学习Pipeline 流程
  3. 使用Pipeline 流程训练
  4. 使用PipelineModel 预测
  5. 评估模型准备率

十五、Python Spark

创建推荐引擎

  1. 推荐算法
  2. 推荐引擎大数据分析使用场景
  3. 推荐引擎设计
  1. 搜索数据
  2. 准备数据
  3. 训练模型
  4. 使用模型进行推荐

十六、项目实践

1.日志分析系统与日志挖掘项目实践

a、Hadoop,Spark,ELK 技术构建日志数据仓库

b、互联网微博日志分析系统项目1.推荐系统项目实践

a、电影数据分析与个性化推荐关联分析项目

《大数据建模、分析、挖掘技术》相关推荐

  1. ComeFuture英伽学院——2020年 全国大学生英语竞赛【C类初赛真题解析】(持续更新)

    视频:ComeFuture英伽学院--2019年 全国大学生英语竞赛[C类初赛真题解析]大小作文--详细解析 课件:[课件]2019年大学生英语竞赛C类初赛.pdf 视频:2020年全国大学生英语竞赛 ...

  2. ComeFuture英伽学院——2019年 全国大学生英语竞赛【C类初赛真题解析】大小作文——详细解析

    视频:ComeFuture英伽学院--2019年 全国大学生英语竞赛[C类初赛真题解析]大小作文--详细解析 课件:[课件]2019年大学生英语竞赛C类初赛.pdf 视频:2020年全国大学生英语竞赛 ...

  3. 信息学奥赛真题解析(玩具谜题)

    玩具谜题(2016年信息学奥赛提高组真题) 题目描述 小南有一套可爱的玩具小人, 它们各有不同的职业.有一天, 这些玩具小人把小南的眼镜藏了起来.小南发现玩具小人们围成了一个圈,它们有的面朝圈内,有的 ...

  4. 信息学奥赛之初赛 第1轮 讲解(01-08课)

    信息学奥赛之初赛讲解 01 计算机概述 系统基本结构 信息学奥赛之初赛讲解 01 计算机概述 系统基本结构_哔哩哔哩_bilibili 信息学奥赛之初赛讲解 02 软件系统 计算机语言 进制转换 信息 ...

  5. 信息学奥赛一本通习题答案(五)

    最近在给小学生做C++的入门培训,用的教程是信息学奥赛一本通,刷题网址 http://ybt.ssoier.cn:8088/index.php 现将部分习题的答案放在博客上,希望能给其他有需要的人带来 ...

  6. 信息学奥赛一本通习题答案(三)

    最近在给小学生做C++的入门培训,用的教程是信息学奥赛一本通,刷题网址 http://ybt.ssoier.cn:8088/index.php 现将部分习题的答案放在博客上,希望能给其他有需要的人带来 ...

  7. 信息学奥赛一本通 提高篇 第六部分 数学基础 相关的真题

    第1章   快速幂 1875:[13NOIP提高组]转圈游戏 信息学奥赛一本通(C++版)在线评测系统 第2 章  素数 第 3 章  约数 第 4 章  同余问题 第 5 章  矩阵乘法 第 6 章 ...

  8. 信息学奥赛一本通题目代码(非题库)

    为了完善自己学c++,很多人都去读相关文献,就比如<信息学奥赛一本通>,可又对题目无从下手,从今天开始,我将把书上的题目一 一的解析下来,可以做参考,如果有错,可以告诉我,将在下次解析里重 ...

  9. 信息学奥赛一本通(C++版) 刷题 记录

    总目录详见:https://blog.csdn.net/mrcrack/article/details/86501716 信息学奥赛一本通(C++版) 刷题 记录 http://ybt.ssoier. ...

  10. 最近公共祖先三种算法详解 + 模板题 建议新手收藏 例题: 信息学奥赛一本通 祖孙询问 距离

    首先什么是最近公共祖先?? 如图:红色节点的祖先为红色的1, 2, 3. 绿色节点的祖先为绿色的1, 2, 3, 4. 他们的最近公共祖先即他们最先相交的地方,如在上图中黄色的点就是他们的最近公共祖先 ...

最新文章

  1. My blog please navigate to http://hi.baidu.com/248828412
  2. Lazy Load, 延迟加载图片的 jQuery 插件 - NeoEase
  3. 【循序渐进学Python】7.面向对象的核心——类型(上)
  4. python idle撤回上一条命令_找回Python IDLE Shell里的历史命令(用上下键翻历史命令怎么不好用了呢?)...
  5. Codeforces Round #736 (Div. 2) D. Integers Have Friends ST表gcd + 尺取
  6. micropython oled中文_micropython中怎么将gb2312编码的字节流变成中文
  7. JavaScript-字符串
  8. Java并发篇_Java内存模型
  9. 信息隐藏技术与应用期末复习
  10. android 屏幕方向监听,android 屏幕旋转问题 - jwzhangjie的个人空间 - 51Testing软件测试网 51Testing软件测试网-软件测试人的精神家园...
  11. 正则表达式(以后认真研究下)
  12. python识别文字软件_使用Python和大漠插件进行文字识别含软件源码
  13. 【精华】拒绝国外IP海外IP访问的几种方法
  14. 9个完整android开源app项目
  15. 怎样设置网络工作组计算机,如何建立计算机工作组?
  16. JavaScript中获取键盘事件
  17. Spring注解@Value在controller无法获取到值
  18. 试题 算法提高 陶陶摘苹果
  19. uni-app封装自己常用的css样式-----自定义css的样式 (便于开发)-----原理简单
  20. linux课件完整汇总

热门文章

  1. Java 工程师核心基础修炼
  2. 用Python读取轻轻松松背单词的GDS词库文件
  3. 企业如何做好培训直播
  4. Java中的弱引用WeakReference详解
  5. 通信系统中常用到的符号单位及参数(持续更新)
  6. 3d 视频切换到全屏播放
  7. JedisPubSub
  8. Kubernetes容器网络(二):Calico网络原理
  9. 微信公众平台(3):微信小程序发布为什么需要https证书
  10. 使用Privoxy做智能代理切换