文章大纲

  • 1. 框架平台介绍篇
    • 云平台
    • 安装与调试
    • 大数据搜索框架 Elasticsearch
    • 大数据框架 spark
  • 2. 数据处理篇
    • 数据接入
    • 数据清洗
    • ETL
    • EDA
    • 特征工程
  • 3. 大数据机器学习篇
  • 4. 算法原理篇
  • 5. 最佳实践经验篇
    • SQL 优化
    • 大数据可视化
    • 基于大数据的数据处理
    • 基于大数据的数据分析
    • 跨语言跨平台调用 扩展spark
  • 6. 笔试面试篇
  • 参考文献

本专栏持续更新中,内容还未完整的请稍安勿躁,部分内容有参考其他书籍或是网络文献,都会给出原始出处

如您购买了专栏,更多资料请参照博客左侧的联系方式加群分享:
QQ交流群: 593683975
QQ群提供技术交流,CSDN资源,百度文库等资源共享
加群需要回答问题:抛硬币正面上的期望? 请给出您的答案


21 世纪必将是大数据的时代,是智能信息处理的黄金时代。

BAT 公司在 2013年左右的数据量如下:

  • 2013 年百度相关技术报告称,百度数据总量接近 1000PB,网页的数量大是几千亿个,每年更新几十亿个,每天查询次数几十亿次。
  • 2013年腾讯相关技术报告称,腾讯约有8 亿用户,4亿移动用户,总存储数据量经
    压缩处理以后在 100PB左右,日新增 200TB 到 300TB,月增加 10%的数据量。
  • 2013年阿里巴巴相关技术报告称,总体数据量为 100PB,每天的活跃数据量已经超过 50TB,共有4亿条产品信息和2 亿多名注册用户,每天访问超过 4000 万人次。

为了采集、存储和分析大数据,互联网公司尝试研发大数据技术,在众多技术方案中,开源系统 Hadoop、 Spark、Elasticsearch等 成为应用最广泛的大数据技术,由于它们的用户量巨大,已经初步成为大数据技术规范。

本专栏《大数据处理实践探索》 通过记录基于Python 的大数据处理实践探索案例,力图将大数据与机器学习相结合 产生新的实践落地思路。 网络上的大数据相关博文多是基于java 或者Scala ,本专栏的目的在于 基于python 将大数据(pyspark、 Elasticsearch、sklearn …),数据开发,与数据分析相结合。 并在实践内容上给出一定指导,最后本专栏特地针对笔试面试高频题方面给出了分享,希望能够在找工作时候帮助到大家。

本专栏 于 2021年7月20日 正式更名为《大数据机器学习实践探索》,并将主要更新:基于大数据的机器学习最佳实践 中的主要内容,围绕大数据环境下的机器学习,基于spark 给大家介绍最新的大数据机器学习算法。

github 地址: big_data_repo


1. 框架平台介绍篇

大数据尝试从海量数据中,通过一定的分布式技术手段,挖掘出有价值的信息,最终提供给用户,进而产生实用价值和商业价值。由于数据本身的多样性以及数据分析需求的多元化,大数据技术体系非常复杂,涉及的组件和模块众多。

为了便于读者从顶层框架上对大数据有一个清楚的认识,本部分尝试首先概括大数据技术框架。

云平台

通过我和北美工程师的合作,他们将AWS 已经当成了一种基础设置,如果你还不了解云计算,或者任意一家云平台的话,你out 了。 学习云计算或者云平台的途径最好就是通过他们的文档。国内云平台如同雨后春笋般蓬勃发展,但最值得借鉴的还是鼻祖AWS.

  • python 与aws 交互
  • aws ec2 配置ftp----使用vsftp

安装与调试

本小节主要针对开发环境搭建,集群环境搭建进行介绍

  • 基础环境搭建:在jupyter notebook 中使用 pyspark

  • 在idea 2021 上 配置本地 scala 2.12 spark 3.0.2 开发环境

  • 使用python fabric搭建RHEL 7.2大数据基础环境以及部分优化

  • CDH集群安装&测试总结

  • CDH 5.x 集群安装及卸载

  • docker环境下zookeeper集群部署(一)

  • docker环境下zookeeper集群部署(二)

大数据搜索框架 Elasticsearch

Elasticsearch是一个实时的分布式搜索和分析引擎,使得人们可以在一定规模上和一定速度上实现数据检索,常用于全文本检索,结构化检索、分析以及三种的结合应用。Wikipedia、Guardian、Stack Overflow、Github都在使用Elasticsearch实现自己的相关检索工作。

  • 大数据处理实践探索 ---- 之 搜索神器elastic search
  • 《读书报告 – Elasticsearch入门 》---- 安装以及简单使用(1)
  • 《读书报告 – Elasticsearch入门 》---- 简单使用(2)
  • 基于elasticsearch的搜索自动纠错

大数据框架 spark

Spark最初诞生于美国加州大学伯克利分校(UC Berkeley)的AMP实验室,是一个可应用于大规模数据处理的快速、通用引擎。2013年,Spark加入Apache孵化器项目后,开始获得迅猛的发展,如今已成为Apache软件基金会最重要的三大分布式计算系统开源项目之一(即Hadoop、Spark、Storm)。Spark最初的设计目标是使数据分析更快——不仅运行速度快,也要能快速、容易地编写程序。为了使程序运行更快,Spark提供了内存计算,减少了迭代计算时的IO开销;而为了使编写程序更为容易,Spark使用简练、优雅的Scala语言编写,基于Scala提供了交互式的编程体验。虽然,Hadoop已成为大数据的事实标准,但其MapReduce分布式计算模型仍存在诸多缺陷,而Spark不仅具备Hadoop MapReduce所具有的优点,且解决了Hadoop MapReduce的缺陷。Spark正以其结构一体化、功能多元化的优势逐渐成为当今大数据领域最热门的大数据计算平台。

  • spark 中的数据类型

  • 基础环境搭建:在jupyter notebook jupyterhub 中使用 pyspark 及scala

  • spark读取elasticsearch nested array

  • 基于 kubeflow k8s 中运行jupyter 提交PySpark 任务

WSL 是 Windows Subsystem for Linux windows下的linux子系统,由于直接在windows 上安装pyspark 跑很多基于linux 的库的机器学习库很费劲,有什么办法是省时省力并且占用资源少的方式呢?相比虚拟机动辄8g 左右的内存占用量,wsl 当然是一个非常好的选择。

  • 使用 WSL 进行pyspark + xgboost 分类+特征重要性 简单实践

2. 数据处理篇

数据接入

数据接入就是对于不同的数据来源、不同的合作伙伴,完成数据采集、数据传输、数据处理、数据缓存到行业统一的数据平台的过程。

  • 统一数据接入实践分享

数据清洗

数据清洗, 是整个数据分析过程中不可缺少的一个环节,其结果质量直接关系到模型效果和最终结论。在实际操作中,数据清洗通常会占据分析过程的50%—80%的时间。

数据清洗的目的从两个角度来讲:

一、是为了解决数据质量问题
二、是让数据更适合做挖掘、展示、分析

  • 数据清洗的目的,方法

ETL

ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。

  • 浅谈pandas,pyspark 的大数据ETL实践经验
  • 大数据处理实践探索(3)---- pyspark 之大数据ETL利器

EDA

还有比pandas profiling 更好使的python EDA 工具吗?

经典Titanic 数据集的探索性数据分析报告:

https://pandas-profiling.github.io/pandas-profiling/examples/master/titanic/titanic_report.html

  • python Pandas Profiling 一行代码EDA 探索性数据分析

特征工程

特征工程的主要目的是放大数据的价值。有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已

  • python分箱
  • spark 特征工程 – 分箱 Binning
  • 降维(非监督学习之PCA降维&流行学习TSNE)
  • 正则化、归一化、标准化

3. 大数据机器学习篇

在大数据领域中,机器学习几乎无处不在,即便我们没有特意引用它们,它们也经常出现在大数据应用中,例如:搜索、推荐、预测和数据挖掘等。随着互联网的高速发展,数据量不断爆发式增长,数据维度越来越丰富,这也为机器学习的发展和应用提供了良好的土壤,机器学习的良好成果也反向让数据产生更大的价值,成为真正的“大数据”,两者相辅相成,相互促进,让数据越来越智能。

  • 基于大数据的机器学习最佳实践

4. 算法原理篇

  • 集群测试----intel-hadoop/HiBench流程分析----以贝叶斯算法为例

5. 最佳实践经验篇

SQL 优化

sql 优化无处不在,核心可以概括为几点:

  1. 有效使用索引
  2. 根据查询计划持续优化
  3. 构建高效的sql 语句
  • PostgreSQL 内置分区功能

大数据可视化

一图胜千言,视觉传达的信息量带宽远大于文字。

  • 技术调研----BI工具对比及Surperset 之 docker安装与可视化

  • kibana 小技巧


基于大数据的数据处理

  • 大数据处理实践探索(1)---- python 与oracle数据库导入导出

  • 使用python对数据库,云平台,oracle,aws,es导入导出实战

基于大数据的数据分析

使用pyspark 进行kaggle比赛Give me some credit数据集的建模与分析

  • 1. 数据准备与EDA
  • 2.1 数据清洗
  • 2.2 特征工程

跨语言跨平台调用 扩展spark

  • 基于spark 实现混合编程:跨语言交互与调用 ---- scala 、 python、java 如何相互调用
  • 通过python扩展spark mllib 算法包(e.g. 基于spark使用孤立森林进行异常检测)
  • pandas dataframe 与 spark dataframe 互相转换(数据类型应该怎么转换呢?)

6. 笔试面试篇

笔试面试题复习的核心要义是什么? 一言以蔽之,基础+原理。

  • 大数据基础知识问答

  • 笔试面试高频问题 ---- 基础知识

  • 笔试面试高频问题 ---- hadoop

  • 笔试面试高频问题 ---- Yarn 基础

  • 笔试面试高频问题 ---- spark 基本调优

  • 笔试面试高频问题 ---- spark 基础

  • 笔试面试高频问题 ---- hive 基础

  • 笔试面试高频问题 ---- ElasticSearch(待补充)

  • 大数据领域面试题大全英文版(Top Interview Questions )


参考文献

Spark入门教程(Python版)

《大数据机器学习实践探索》 ---- 总目录相关推荐

  1. 《自然语言处理实战入门》 ---- 总目录

    文章大纲 前言 综论 第 一 部分 :NLP 前置知识 开发环境 基础技术 网络爬虫 机器学习必知必会开源库 深度学习基础 常用资源 第 二 部分:NLP 基础理论 序列标注与分词算法 词嵌入(分布式 ...

  2. 《自然语言处理实战入门》 第三章 :中文分词原理及相关组件简介 ---- 语言学与分词技术简介

    文章大纲 0.内容梗概 1. 汉语语言学简介 1.1 汉语与汉字的起源 1.2 汉字的统一与演变 1.3 印欧语系与汉藏语系 1.4 语言区别对于NLP 的影响 2. 词汇与分词技术简介 2.1 汉语 ...

  3. 《自然语言处理实战入门》 ---- 第4课 :中文分词原理及相关组件简介 之 汉语分词领域主要分词算法、组件、服务(上)...

    目录 0.内容梗概 1. 基于传统统计算法的分词组件 1.1 hanlp : Han Language Processing 1.2 语言技术平台(Language Technology Platfo ...

  4. 《自然语言处理实战入门》 ---- 第4课 :中文分词原理及相关组件简介 之 语言学与分词技术简介...

    <自然语言处理实战入门> ---- 第4课 :中文分词原理及相关组件简介 之 语言学与分词技术简介 https://edu.csdn.net/course/play/20769/25954 ...

  5. 《自然语言处理实战入门》第三章 :中文分词原理及相关组件简介 ---- 工业级词法分析组件百度LAC2.0

    文章大纲 简介 工具介绍 安装与使用 安装说明 功能与使用 分词 词性标注与实体识别 定制化功能 增量训练 1. 分词训练 2. 词法分析训练 文件结构 效果 原理 参考文献 简介 LAC全称Lexi ...

  6. 《自然语言处理实战入门》第二章: NLP前置技术----网络爬虫简介

    我们平时做自然语言处理,机器学习,都是希望能够有丰富的训练数据集,这样才能获取质量上乘的模型.在大数据时代,处理数据已经不再是是问题了,spark,hadoop ,Elastic search提供了海 ...

  7. 《自然语言处理实战入门》 信息抽取 ---- 信息抽取初探

    文章目录 基本介绍 一.传统信息抽取 关键词抽取 TF-IDF TextRank 关键句子抽取 二.深度学习信息抽取 总结 参考文档 基本介绍 信息抽取 (Information Extraction ...

  8. 《自然语言处理实战入门》 深度学习组件TensorFlow2.0 ---- 文本数据建模流程

    文章大纲 一,准备数据 二,定义模型 三,训练模型 四,评估模型 五,使用模型 六,保存模型 参考文献 文本处理的建模流程,使用清华发布的新闻分类数据集: 中文文本分类数据集THUCNews THUC ...

  9. 《自然语言处理实战入门》第三章 :中文分词原理及相关组件简介---- 汉语分词领域主要分词算法、组件、服务(下)

    文章大纲 0.内容梗概 3. NLP 云厂商 3.1 百度语言处理基础技术 简介 特点 .服务范围 调用样例 3.2 PaddleNLP 3.3 腾讯NLP 简介 特点.服务范围 调用样例 3.4 阿 ...

  10. 《自然语言处理实战入门》---- 神经网络与推荐系统初步简介

    作者:一人 1.深度神经网络对于任何领域都是适用的 深度神经网络(Deep Neural Networks, DNN)在过去的数年已经在图像分类.语音识别.自然语言处理中取得了突破性的进展.在实践中的 ...

最新文章

  1. 织梦生成html加速,加快DEDECMS静态html网页生成速度的方法
  2. 自己开发开源jquery插件--给jquery.treeview加上checkbox
  3. openFeign 服务接口的调用01——概述
  4. 看文艺青年怎么玩微信客户端
  5. Batch Normalization的一些个人理解
  6. unity3d中脚本生命周期(MonoBehaviour lifecycle)
  7. 20-30-010-安装-kafka-manager
  8. centos7使用记录
  9. 冬至了,回家羊肉。:)
  10. 识图在线识图_水电腾讯课堂开课啦~学习建筑水电识图从这里开始(文末有福利)...
  11. 乱码 问号 java_java 中文 乱码 问号
  12. 梯度散度旋度哈密顿量公式
  13. 3分钟在线开通优惠费率的微信支付商户号(商户收款码)
  14. win10插入耳机还是外放
  15. 斯坦福NLP名课带学详解 | CS224n 第17讲 - 多任务学习(以问答系统为例)(NLP通关指南·完结)
  16. 计算机预测自己未来的相貌,测测未来另一半的模样 测测你的另一半长相软件...
  17. [渝粤教育] 西南科技大学 教育心理学 在线考试复习资料
  18. 企业微信第三方应用添加好友
  19. android虚拟按键趋势,为什么Android虚拟按键老被吐槽但却有厂商坚持在做?
  20. 【考研经验】双非二战山东大学计算机技术初试第二经验贴

热门文章

  1. ubuntu httrack 下载整个网站
  2. linux fedora分区,新手指南:手把手教你安装Fedora
  3. 计算机系统概述(思维导图)
  4. 深入防火墙记录(2)
  5. python graphviz中文乱码_graphviz画决策树图中文乱码问题终极解决方案
  6. iOS抓包工具Charles的使用
  7. 计算机在生态修复的应用说明,景观规划与生态修复(课程教学大纲)
  8. JVM初级认知:Eden Space、Survivor Space、Tenured Gen+并发
  9. 转:使用Java RTP传输声音和视频的程序(绝对经典)
  10. 优雅女人必做的20件事