写给大数据开发初学者的话5
见:http://lxw1234.com/archives/2017/01/832.htm
至此,你的大数据平台底层架构已经成型了,其中包括了数据采集、数据存储与计算(离线和实时)、数据同步、任务调度与监控这几大模块。接下来是时候考虑如何更好的对外提供数据了。
第九章:我的数据要对外
通常对外(业务)提供数据访问,大体上包含以下方面:
- 离线:比如,每天将前一天的数据提供到指定的数据源(DB、FILE、FTP)等;
离线数据的提供可以采用Sqoop、DataX等离线数据交换工具。
- 实时:比如,在线网站的推荐系统,需要实时从数据平台中获取给用户的推荐数据,这种要求延时非常低(50毫秒以内)。
根据延时要求和实时数据的查询需要,可能的方案有:HBase、Redis、MongoDB、ElasticSearch等。
- OLAP分析:OLAP除了要求底层的数据模型比较规范,另外,对查询的响应速度要求也越来越高,可能的方案有:Impala、Presto、SparkSQL、Kylin。如果你的数据模型比较规模,那么Kylin是最好的选择。
- 即席查询:即席查询的数据比较随意,一般很难建立通用的数据模型,因此可能的方案有:Impala、Presto、SparkSQL。
这么多比较成熟的框架和方案,需要结合自己的业务需求及数据平台技术架构,选择合适的。原则只有一个:越简单越稳定的,就是最好的。
如果你已经掌握了如何很好的对外(业务)提供数据,那么你的“大数据平台”应该是这样的:
第十章:牛逼高大上的机器学习
关于这块,我这个门外汉也只能是简单介绍一下了。数学专业毕业的我非常惭愧,很后悔当时没有好好学数学。
在我们的业务中,遇到的能用机器学习解决的问题大概这么三类:
- 分类问题:包括二分类和多分类,二分类就是解决了预测的问题,就像预测一封邮件是否垃圾邮件;多分类解决的是文本的分类;
- 聚类问题:从用户搜索过的关键词,对用户进行大概的归类。
- 推荐问题:根据用户的历史浏览和点击行为进行相关推荐。
大多数行业,使用机器学习解决的,也就是这几类问题。
入门学习线路:
- 数学基础;
- 机器学习实战(Machine Learning in Action),懂Python最好;
- SparkMlLib提供了一些封装好的算法,以及特征处理、特征选择的方法。
机器学习确实牛逼高大上,也是我学习的目标。
那么,可以把机器学习部分也加进你的“大数据平台”了。
写给大数据开发初学者的话1
写给大数据开发初学者的话2
第三章:把别处的数据搞到Hadoop上
第四章:把Hadoop上的数据搞到别处去
写给大数据开发初学者的话3
第五章:快一点吧,我的SQL
第六章:一夫多妻制
写给大数据开发初学者的话4
第七章:越来越多的分析任务
第八章:我的数据要实时
写给大数据开发初学者的话5
第九章:我的数据要对外
第十章:牛逼高大上的机器学习
写给大数据开发初学者的话5相关推荐
- 一文读懂大数据平台——写给大数据开发初学者的话!
一文读懂大数据平台--写给大数据开发初学者的话! 文|miao君 导读: 第一章:初识Hadoop 第二章:更高效的WordCount 第三章:把别处的数据搞到Hadoop上 第四章:把Hado ...
- 写给大数据开发初学者的话 | 附教程
导读: 第一章:初识Hadoop 第二章:更高效的WordCount 第三章:把别处的数据搞到Hadoop上 第四章:把Hadoop上的数据搞到别处去 第五章:快一点吧,我的SQL 第六章:一夫多妻制 ...
- 写给大数据开发初学者的话
PS:原文分为五个章节,这里直接合并为一篇文章,原文地址:http://lxw1234.com/archives/2016/11/779.htm 经常有初学者在博客和QQ问我,自己想往大数据方向发展, ...
- 写给大数据开发初学者的话4
见:http://lxw1234.com/archives/2016/11/795.htm 如果你已经按照<写给大数据开发初学者的话3>中第五章和第六章的流程认真完整的走了一遍,那么你应该 ...
- 写给大数据开发初学者的话3
前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家.点击跳转到教程. 如果你已经按照<写给大数据开发初学者的话2>中第三章和第四章的流程认真完整的走了一遍,那 ...
- 写给大数据开发初学者的话2
见 : http://lxw1234.com/archives/2016/11/782.htm 如果你已经按照<写给大数据开发初学者的话>中第一章和第二章的流程认真完整的走了一遍,那么你应 ...
- 大数据开发初学者学习路线
目录 前言 导读: 第一章:初识Hadoop 第二章:更高效的WordCount 第三章:把别处的数据搞到Hadoop上 第四章:把Hadoop上的数据搞到别处去 第五章:快一点吧,我的SQL 第六章 ...
- 大数据开发初学者学习路线_初学者的Web开发路线图
大数据开发初学者学习路线 This beginner's roadmap lays out all the basics for web development. We're going to go ...
- 写给大数据初学者的话——转自lxw的大数据田地
原文地址:http://lxw1234.com/archives/2016/11/779.htm 导读: 第一章:初识Hadoop 第二章:更高效的WordCount 第三章:把别处的数据搞到Hado ...
最新文章
- 《C++成员函数重载、覆盖与隐藏》
- 什么是XLNet中的双流自注意力
- Java_案例实例1.简单的人机交互
- Android ToolBar的使用
- WPF 动态更换图片路径
- Spring MVC自定义验证注释
- Java 生成随机数的 N 种方法
- 15个友好的jQuery 提示框插件
- Linux学习笔记---初次编译Uboot系统
- 分布式监控报警平台Centreon之:Centreon简介
- 小明利用计算机软件绘制函数,辽宁省大连市2014年高二学业水平模拟考试 信息技术试题(三)...
- gdi和gdi+并用
- JLINK 驱动 V7.00a 更新导致JLINK V9无法使用问题解决
- 新手入门学Python一定要知道的编程开发工具
- grpc系列1-K8S集群,VIP,grpc._channel._InactiveRpcError connection reset by peer解决方案 Paddleserving服务化部署
- 幼麟棋牌登录流程分析
- 机器学习(三):一文读懂线性判别分析(LDA)
- css 背景图片模糊遮罩效果
- 冯·诺依曼体系结构的学习总结
- android onCreate与onCreateView的区别
热门文章
- angular8 设置延时时间
- Map集合根据key,value排序
- 【windows环境——VSCode安装教程】
- 【PAT甲级最新题解】PAT甲级2020.7月春季考试满分题解(附代码)
- 《python深度学习》代码中文注释
- Keras入门实战(1):MNIST手写数字分类
- android 存储不被垃圾清理,手机内存足够大,就不需要清理垃圾了?你错了!
- http协议与服务器通信,iPhone应用用HTTP协议和服务器通信
- c语言有语段不运行,各位C语言的高手,帮忙看下下面两段代码!他们不能运行!急!!!!!!...
- Linux 软件包管理器的目的是什么,Linux软件包的管理--RPM包管理器