前  言

本书的缘起与成书过程

大数据经过分析能够产生高价值,这无疑已在大数据火爆的今天成为共识,从而使得大数据分析在“大数据+”涉及的领域(如工业、医疗、农业、教育等)有了广泛的应用。大数据分析的相关知识不仅是大数据行业的从业人员应该必备的,也是和大数据相关的各行各业的从业者需要了解的。

然而,人们对大数据分析的解读有多个不同方面。从“分析”的角度解读,大数据分析可以看作统计分析的延伸;从 “数据”的角度解读,大数据分析可以看作数据管理与挖掘的扩展;从“大”的角度解读,大数据分析可以看作数据密集高性能计算的具体化。

而大数据分析的有效实施也需要多个方面的知识。从分析的角度来讲,需要统计学、数据分析、机器学习等方面的知识;从数据处理的角度来讲,需要数据库、数据挖掘等方面的知识;从计算平台的角度来讲,需要并行系统和并行计算的知识。

上述多样化造成了目前大数据分析的教材和参考书的多样化:有些书重点介绍统计学或者机器学习知识,突出“分析”;有些书重点介绍实现平台和技术,突出“大”;有些书重点介绍数据挖掘知识及其应用,突出“数据”。笔者认为,这三类知识对大数据分析都是必不可少的,于是试图编写一本教材来融合这三类知识,给读者展示一个相对广阔的大数据分析图景。

也正是因为解读的角度和所需知识的多样化,本书的成书过程也比较曲折。在成书的过程中,笔者对大数据分析的认识也在不断加深,因而在编写过程中几次变换结构和体例。由于笔者主要从事数据相关工作,所以起初以大数据分析算法和相关技术为主,对数据分析模型方面的知识只是一笔带过。在和业内人士的交流中发现,对于很多读者来说,了解分析模型可能更重要,因为很多分析算法和大数据分析所需的技术都有平台实现,分析模型却需要了解业务的人来建立,于是笔者增加了较多数据分析模型方面的内容。而后通过和阿里云的合作,笔者又进一步了解了大数据分析的需求,于是增加了数据预处理等内容,并基于阿里云的技术和平台对书中的一些内容做了实现。这就是本书现在的版本。

本书的内容

本书力求系统地介绍大数据分析过程中的模型、技术、实现平台和应用。考虑到不同部分的侧重不同,故采取了不同的写作方法,尽可能使本书的内容适合更多的读者阅读。

模型部分主要突出了大数据分析模型的描述方法。通过这一部分的学习,读者可以在不考虑实现的情况下,针对应用需求建立大数据分析模型,即使不了解实现平台和具体技术,读者也可以独立学习这部分内容。在实践中,可以将分析模型表达为R语言,甚至像阿里云提供的可视化工具中那样分析流程,即使不掌握算法等方面的技术,同样可以进行大数据分析。

当然,如果对大数据分析相关技术有深入了解,会更加快速有效地进行分析,因而技术部分介绍了大数据分析所涉及的技术,重点在于解决大数据分析的效率和可扩展性问题。

“工欲善其事,必先利其器”,有了好的开发平台,就可以有效地实现相关的技术,因而实现平台部分介绍了多种开发大数据分析系统的实现平台。

最后两章针对“推荐系统”和“社交网络”这两个大数据分析的典型应用涉及的一些模型和技术进行了介绍,也是前面内容在应用中的具体体现。

“大数据”是一个比较宽泛的概念,本书围绕着分析过程进行讲解,突出大数据的特点,与大数据算法、大数据系统、大数据程序的编程实现、机器学习、统计学等书籍具有互补性,读者可以相互参考。

王宏志
2017年2月7日于哈尔滨

目  录

[第1章 绪论
1.1 什么是大数据 ](https://yq.aliyun.com/articles/212332/)
1.2 哪里有大数据
1.3 什么是大数据分析
1.4 大数据分析的过程、技术与难点
1.5 全书概览
小结
习题
第2章 大数据分析模型
2.1 大数据分析模型建立方法
2.2 基本统计量
2.2.1 全表统计量
2.2.2 皮尔森相关系数
2.3 推断统计
2.3.1 参数估计
2.3.2 假设检验
2.3.3 假设检验的阿里云实现
小结
习题
第3章 关联分析模型
3.1 回归分析
3.1.1 回归分析概述
3.1.2 回归模型的拓展
3.1.3 回归的阿里云实现
3.2 关联规则分析
3.3 相关分析
小结
习题

《大数据分析原理与实践》——导读相关推荐

  1. 《应用时间序列分析:R软件陪同》——1.5 习题

    本节书摘来自华章计算机<应用时间序列分析:R软件陪同>一书中的第1章,第1.5节,作者:吴喜之,刘苗著, 更多章节内容可以访问云栖社区"华章计算机"公众号查看. 1.5 ...

  2. 《应用时间序列分析:R软件陪同》——2.3 随机游走

    本节书摘来自华章计算机<应用时间序列分析:R软件陪同>一书中的第2章,第2.3节,作者:吴喜之,刘苗著, 更多章节内容可以访问云栖社区"华章计算机"公众号查看.

  3. 《应用时间序列分析:R软件陪同》——导读

    ** 前言 ** 首先,一些教材偏重于数学理论和推导.作者多为数学出身,他们习惯于数学的严格性和导出精确而又漂亮的数学结论.这些书适用于那些愿意为时间序列的数学理论研究做出贡献的读者. 其次,国内教材 ...

  4. arima模型_时间序列分析(R)‖ARIMA模型预测实例

    背景 十九大报告,对教育方面做出了详细说明.近年来,随着研究生招生规模的逐渐扩大,报名参加硕士研究生考试的人数也逐年增加.大多数关于研究生的文章是以研究生的现状.研究生的教育.研究生的就业等方面为主题 ...

  5. R语言入门(1)时间序列分析

    时间序列分析 使用软件为Rstudio,参考CRAN中时间序列分析分析函数和package,拿手上的数据练习一下时间序列分析. 1.原始数据说明 选择连续9天的数据,共2025条,时间间隔为5分钟.具 ...

  6. r软件时间序列分析论文_高度比较的时间序列分析-一篇论文评论

    r软件时间序列分析论文 数据科学 , 机器学习 (Data Science, Machine Learning) In machine learning with time series, using ...

  7. 时间序列分析及应用r语言pdf_R语言:时间序列经典分析法(二)

    题记:本文是个人的读书笔记,仅用于学习交流使用.本文将深入研究时间序列技术. 01 解决什么问题? 前面一章,介绍了时间序列中涉及到的基本概念,本章将在此基础上介绍如何对时间序列的资料进行分析,怎么选 ...

  8. 使用R语言对股票数据进行时间序列分析

    tushareID:469251 R语言相对于python在做统计分析是十分方便的软件,时间序列分析在数理统计理论方面很有支撑,解释性也很强,理论已经很成熟,不了解的小伙伴可以去搜下相关课程. 这里记 ...

  9. R语言mgcv包时间序列分析在空气污染与健康领域的应用(3)---模型自由度选择

    广 义 相 加 模 型 ( generalized additional model,GAM)是对传统广义线性模型的非参数拓展,可有效处理解释变量与效应变量间复杂的非线性关系.GAM 目前已广泛应用于 ...

  10. R语言mgcv包时间序列分析在空气污染与健康领域的应用(1)

    在空气污染与健康研究领域,经常需要用时间序列方法将随时间变化的污染物暴露资料和随时间变化的事件发生数资料联系起来,分析人群健康结局与暴露水平之间的关系. 时间序列分析是根据系统观测得到的时间序列数据, ...

最新文章

  1. Shuffle 相关
  2. VAE--就是AutoEncoder的编码输出服从正态分布
  3. 我的世界java版forge放在哪_我的世界1.9forge安装 怎么装forge教程
  4. python函数编程实战_(转)函数式编程实战教程(Python版)
  5. bzoj 4551: [Tjoi2016Heoi2016]树【并查集】
  6. java 读取文件 二进制_JAVA中读取文件(二进制,字符)内容的几种方法总结
  7. Centos7升级Python2到Python3
  8. 拉起客户端 Universal Links Scheme Open App iOS(Deep Link)
  9. 网卡5790c linux驱动,富士通DPK5790H驱动
  10. JavaScript 对象 — 重学 JavaScript
  11. 免费后台管理UI界面、html源码推荐
  12. Android开发工具类 Utils
  13. H.266/VVC帧间预测技术学习:高级运动矢量预测(Advanced Motion Vector Prediction, AMVP)
  14. verification和validation的区别
  15. python基础入门1:输入输出,二进制字符编码,数据类型与注释
  16. 完美世界GameJam参加报告——《解字》游戏的设计与开发
  17. 2.服务器部署web服务器
  18. Python中的单引号、双引号、三引号
  19. 能被4,6,7,8,9,11整除的数
  20. web前端面试重点难点问题

热门文章

  1. 【spring boot】10.spring boot下的单元测试
  2. python常用模块收录
  3. mac navicat premium 使用技巧
  4. 未来数据中心的选择:宽带多模光纤(WBMMF)
  5. php PDO php.ini
  6. Python学习记录day4
  7. JQuery插件:ScrollTo平滑滚动到页面指定位置
  8. 高效学习Oracle的方法论
  9. 让Visual Studio 也支持JS代码折叠 [ Visual Studio | #region | #endregion ]
  10. RamDisk加速Windows 7?