大数据技术 学习笔记
内容来自:大数据技术
视频
课程目标
课程模块
第一讲 大数据概念及计算简介
要求:对本课程教学目标、内容、方式做一个全面概要介绍
内容:了解数据科学的发展背景和要解决的问题,介绍大数据概念和再现代服务行业的应用情况。重点是大数据的概念和数据科学的发展史
第二讲 大数据计算体系与模式
要求:介绍大数据存储系统和数据处理平台
内容:让学生了解主要的大数据存储系统,包括数据的清洗、建模、分布式文件存储、NoSQL数据库、数据访问接口。向学生介绍目前数据工程界采用的主要数据处理平台,通过实例介绍各类数据分析算法的特点和功能,使学生初步了解计算处理模型和计算平台引擎。本章重点为大数据存储系统和数据处理平台。
大数据计算系统可归纳为3个基本层次:数据存储系统、数据处理系统、数据应用系统
大数据计算系统
数据存储系统
数据处理系统
数据应用系统
计算总体架构
数据建模
数据存储架构
逻辑存储结构
物理存储结构
大数据存储系统
分布式文件系统
提供大数据物理存储架构
主要技术:HDFS,GFS,…
- HDFS架构:Master/slave
- 组织:
一个主节点
一群从节点
数据文件倍分成固定大小的数据块
每份数据快可以存储再不同节点做备份(数据容错、恢复性) - 优点:开源、使用廉价设备、易用性好
- 缺点:数据读取慢、不擅长存储小文件、不擅长单个数据读取和更新
分布式数据库 NOSQL Database(not only SQL Database)
优点
- 不需要预先定义数据结构
- 扩展性好
- 数据划分
- 不需要做数据同步
NoSQL数据的四种类型
统一数据访问结构
传统数据块接口软件
ODBC
JDBC
数据读写接口
统一数据接口
大数据处理系统
各类算法实现、各类计算模型支撑、提供平台架构
理解计算模式
大数据计算架构
计算模型与计算架构
MapReduce计算模型
例子 计算词频
计算原理
- 按行拆分
- map、reduce程序不一定一一对应
- suffle结果存放在磁盘空间中(磁盘读写)
图并行计算模型
流计算模型
计算平台与计算引擎
数据应用系统
IBM
ORACLE
Mcrosoft
大数据应用系统
第三讲 数据采集方法
要求:讲授数据的采集方法和数据接口
内容:讲授内容包括日志数据的采集、互联网数据的采集等,让学生掌握网络爬虫技术。本章重点为互联网数据采集。
系统日志数据采集
日志数据采集目的
系统日志数据采集
网络数据采集
搜索引擎局限性
网络爬虫工作原理
根据既定目标抓取数据,选择性抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源
技术框架:控制器、解析器、资源库。
控制器:为各个现成分配工作任务,并调度爬虫的线性资源。
解析器:批量下载网页,并对页面的格式和内容进行处理
资源库:存储下载到的网页资源,通常采用大型的数据库存储模型
爬虫体系结构
第四讲 数据清洗与规约方法
要求:介绍数据预处理技术、数据清洗技术、数据规约技术的基本原理和方法
内容:讲授内容包括日志数据的采集、互联网数据的采集等,让学生掌握网络爬虫技术。本章重点为互联网数据采集。
第五讲数据分析算法
要求:讲授常用的数据分析算法的原理
教学内容:讲授内容包括常用的数据分析算法的原理,并比较不同数据分析算法之间的区别,让学生掌握各种数据分析方法的原理,并能够选择适当的方法解决数据科学中的问题。本章重点为常用的数据分析算法的原理。
第六讲 文本读写技术
要求:讲授文本读写技术的工作原理及方法
教学内容:让学生掌握文本读写技术的组成特点,了解常见的文本读写技术的特点,掌握读取文件、写入文件、连接数据库的方法等。本章重点为文本读写技术的工作原理。
第七讲 数据处理技术
教学要求:介绍数据处理技术的基本原理及主要方法
内容:让学生了解数据处理技术的概念和特点,了解其基本原理、主要功能特点等,让学生对数据处理技术有一个初步理解。本章重点为数据处理技术的基本原理。
第八讲 数据分析计算
要求:介绍数据分析技术的概念.算法及应用场景
内容:让学生了解数据分析技术的概念和特点,了解其原理、算法、应用场景等,让学生对数据分析算法体系有一个初步理解。本章重点为数据分析算法的基本原理。
第九讲 数据可视化技术
要求:讲解数据可视化技术的基本原理和主要功能
内容:讲授数据可视化技术的基本原理和主要功能,介绍数据可视化技术的应用场景。本章重点为数据可视化技术的基本原理。
大数据技术 学习笔记相关推荐
- 云计算和大数据技术---学习笔记
云计算和大数据技术 Part 1 云计算基础 思维导图: 练习题: Part 1 云计算基础 思维导图: 练习题: 云计算技术是硬件技术和网络技术发展到一定阶段而出现的一种新的技术模型,通常技术人员在 ...
- [XW大数据技术学习探讨] 公众号学习笔记
[XW大数据技术学习探讨] 公众号学习笔记 一.前言: 博主是某学校大数据专业大二的学生,我们专业的老师XW为了更好的帮助我们学习大数据技术,建立了微信公众号"XW大数据技术学习探讨&quo ...
- 大数据业务学习笔记_学习业务成为一名出色的数据科学家
大数据业务学习笔记 意见 (Opinion) A lot of aspiring Data Scientists think what they need to become a Data Scien ...
- 大数据技术 学习之旅_数据-数据科学之旅的起点
大数据技术 学习之旅 什么是数据科学? (What is Data Science?) The interesting thing about Data Science is that it is a ...
- 大数据技术 学习之旅_为什么聚焦是您数据科学之旅的关键
大数据技术 学习之旅 David Robinson, a data scientist, has said the following quotes: 数据科学家David Robinson曾说过以下 ...
- 大数据技术 学习之旅_如何开始您的数据科学之旅?
大数据技术 学习之旅 Machine Learning seems to be fascinating to a lot of beginners but they often get lost in ...
- 大数据HiveSQL学习笔记三-查询基础语法以及常用函数
大数据HiveSQL学习笔记三-查询基础语法以及常用函数 一.基础语法 1.SELECT -列名- FROM -表名- WHERE -筛选条件- 如:需要根据城市,性别找出匹配的10个用户 user_ ...
- 大数据技术学习路线指南
大数据技术作为决策神器,日益在社会治理和企业管理中起到不容忽视的作用,美国,欧盟都已经将大数据研究和使用列入国家发展的战略,类似谷歌,微软,百度,亚马逊等巨型企业也同样把大数据技术视为生命线以及未来发 ...
- ssm大数据技术学习网0y331【独家源码】 应对计算机毕业设计困难的解决方案
本项目包含程序+源码+数据库+LW+调试部署环境,文末可获取一份本项目的java源码和数据库参考. 系统的选题背景和意义 选题背景: 随着信息技术的快速发展和互联网的普及,大数据技术在各个领域中扮演着 ...
最新文章
- [Cocos2d-x]视差滚屏效果的实现
- 深入探究Java中equals()和==的区别是什么
- JavaScrip(一)JavaScrip的写法
- 爬取广州所有停车场数据(Python)
- hbuilder打包ios_免费获得苹果证书,HBuilderX打包IPA文件
- 熊猫直播宣布停服:主站流浪计划第一阶段开启
- 【嵌入式Linux】嵌入式Linux驱动开发基础知识之LED模板驱动程序的改造:设备树
- Visual Studio Code 编辑器 使用入门
- JVM 内存管理、自带性能监测调优工具 (jstack、jstat)及 JVM GC 调优
- java发送接收组播(多播)数据包(UDP包)
- tcpdump如何判断丢包_亿级规模的高可用微服务系统,如何轻松设计?
- 超声B mode聚焦成像仿真(ultrasound B mode fcous imaging simulation)
- 当当购书额外优惠,还有想看的书未入手?这次不要再错过了!
- fun, Python http文件上传 web容器
- 【神器】yololib 飘云修改版 -- 给iOS APP 添加导入表注入--你懂的
- Java+Jsp+MySQL高校选课系统设计与实现(附源码下载地址)
- html标签 lt heavy gt,HTML Purifier:转换< body>到< div>
- 怎么修改开龙软件里服务器名称,开龙设置服务器备份
- 【Pandas实战】足球运动员数据分析
- 在MySQL中创建Oracle中的dept、emp、bonus、salgrade表