CU访谈录:DTCC讲师徐冬奇分享技术路上的挑战、踩坑、痛苦、成长 【总结分析】
徐冬奇:
来自百度基础架构部大数据团队架构师,擅大数据平台(OLAP分析、用户属性挖掘)、分布式存储等技术,目前关注广告平台。
下载附件 (26.99 KB)
以下为访谈的重点总结(point标识)和个人体会(mine标识)
point:
Hadoop体系是个非常了不起的,围绕它业界建立并不断丰富了它的EcoSystem,从最传统的HDFS、MapReduce,到诸如Hive、Scribe、Zookeeper、HBase等等。我们的大数据工作实际上已经很难离开Hadoop了,在百度你经常会听到工程师说今天要跑个任务,百度的Hadoop集群已经是万级别的规模了,存储、计算、调度百度都研发了新一代的系统,尽管如此,其本源仍然是Hadoop体系。中小规模的公司,如果用到大数据,我建议义无反顾地去加入到Hadoop生态体系的怀抱,搭建一个Hadoop系统并不困难,从学习到配置各类参数搭建好两三天就够了,想要从大数据中查询用Hive;想要出天级报表,最简单的方法就是每天跑个Mapreduce任务或者写个HQL任务灌入到Mysql即可。
数据处理大致可以分成两大类:联机事务处理OLTP(on-line transaction processing)、联机分析处理OLAP(On-Line Analytical Processing)。OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。由于两大系统应用领域有区别,侧重点自然也有区别,OLTP更多地侧重于ACID事务处理,ACID是指在可靠数据库管理系统中,事务(transaction)所应该具有的四个特性:原子性(Atomicity)、一致性(Consistency)、隔离性(Isolation)、持久性(Durability),要做到这些,技术难度是很大的。而OLAP技术难点在于如何在海量历史数据中给定各个维度毫秒级别快速查询出想要的结果,技术往往涉及预聚集、物化视图、列存储、压缩、查询优化、谓词下推等等,对于OLAP来说,根据应用场景还可再细分,一个是报表系统,它的特点是查询QPS非常高、 7*24小时不停服务、查询往往通过web界面固化,一般面向数十万广告主、网站主的报表就是此类别;另一个就是OLAP分析系统,它的特点是查询QPS并不高,一天几千个查询,也不要求7*24小时服务,主要面向决策分析人员,查询时各个维度可随意组合,上卷、下钻随意进行。一个公司里会用OLAP做分析的分析师并不多,大部分人所使用的报表都是提前设计好的,针对所关注的点提前做了物化视图的优化。
当然,OLAP与OLTP也有技术共通之处,很多时候我们在优化OLAP时,第一时间就会想OLTP类数据库系统他们怎么做的,是不是可以借鉴,例如谓词下推、索引选择、Partial Aggregation等等。在我们的系统中,我们专门针对OLAP开发了存储引擎,作为Mysql引擎,这样可在Mysql中写SQL来做毫秒级OLAP分析,这也可以看作OLAP与OLTP的碰撞和互补所长。
做数据挖掘,前提是数据仓库要建设好,数据源质量要保证,由此各类ETL工作非常繁杂。随着移动互联网多屏时代已经到来,操作电脑、玩各种各样的手机app,看智能电视,那么如何将这些数据贯通起来成为非常关键。数据挖掘往往需要涉及数据清洗、特征提取、训练样本、模型训练,这里面其实各类算法差别不会太大,重点在于选取哪些数据,提取哪些特征,样本如何弄准确。 行为数据精准性是个大的工程,首先日志打印得对不对都是问号,各种各样的垃圾充斥其中,日志处理时各种各样的异常都需要去处理,再比如那么多服务器上的日志如何快速准确得收集。
对新人的建议:我的建议是加入大公司大团队,只有在大数据中浸淫才能不断提升自身大数据知识和技能。之前也面试过人,说对Hadoop熟悉,在学校里跑过两个任务,但离真正的Hadoop工程师还很远,原因就在于没有有挑战的任务需要去解决,很多坑都没有踩过。具备良好素养的工程师都是通过不断踩坑成长起来的。
mine:
技术的训练需要特定的场所,高级的技术尤是,不断地踩坑填坑,技术便不断被磨砺,这是一个必需的过程。
CU访谈录:DTCC讲师徐冬奇分享技术路上的挑战、踩坑、痛苦、成长 【总结分析】相关推荐
- H5微信分享 朋友 分享给朋友圈 vue 踩坑实战,附注意事项 及 解决方案
最近有一个微信分享的功能,恰逢疫情期间远程办公,然后家里的笔记本比较拉闸本地环境不完善,然后远程办公只能推代码到测试环境调试,博主也是比较难受,日渐憔悴,一周没对接好的问题,好在到了公司一下午就调试好 ...
- 分享微信微信朋友圈踩坑
分享微信朋友圈没反应,也没什么报错信息,网上大家都知道的是thumbData不能超过32K,可是我已经压缩到32K了,还是调不起来.最后发现原来主图也有限制,太坑了. WXMediaMessage ( ...
- 微信公众号H5端网页分享微信好友-实现思路(踩坑记录总结)
第三方配置就不说了,按着官方文档来就可以了 第一个坑 在进行接口鉴权时需要签名等参数,签名等参数需要调用后端接口返回.需要注意的是:调用接口需要一个参数就是页面路径地址(url参数,我这边页面路径用u ...
- 爱奇艺技术沙龙盘点(内含资料分享)
第一期 移动开发从组件化到Web化 坐标:上海 简介: 随着移动互联网业务的不断增长和移动客户端技术发展不断深入,模块化.组件化及动态化的架构设计在帮助开发者降低模块耦合.提升团队合作效率和灵活应 ...
- 爱奇艺技术分享:爱奇艺Android客户端启动速度优化实践总结
本文由爱奇艺技术团队原创分享,原题<爱奇艺Android客户端启动优化与分析>. 1.引言 互联网领域里有个八秒定律,如果网页打开时间超过8秒,便会有超过70%的用户放弃等待,对Andro ...
- AI:2020年6月16日晚20点陆奇博士演讲《正视挑战把握创业创新机会》
AI:2020年6月16日晚20点陆奇博士演讲<正视挑战把握创业创新机会> 导读:陆奇,毕业于复旦大学,获计算机科学学士.硕士学位,1987年毕业后留校执教.此后就读于卡耐基梅隆大学,获计 ...
- 体验AI拜年新姿势,爱奇艺技术团队这波操作真秀!
春节是中国人最看重,也是最具仪式感的节日,回首往年春节假期,无外乎三个关键词:拜年.消费.聚会.而2021年春节和以往不同,为响应国家号召,不少人选择就地过年,与之相伴而生的还有"云拜年&q ...
- 爱奇艺路香菊:视频人物识别关键技术及其应用|爱奇艺技术沙龙回顾
主讲人 | 路香菊 爱奇艺科学家 张康 编辑整理 量子位编辑 | 公众号 QbitAI 近日,爱奇艺技术沙龙"多模态视频人物识别的关键技术及应用"成功举办,爱奇艺科学家路香菊出席并 ...
- 爱奇艺、优酷、腾讯视频竞品分析报告2016(二)
接上一篇<爱奇艺.优酷.腾讯视频竞品分析报告2016(一)> http://milkyqueen520.blog.51cto.com/11233158/1760192 2.4 产品设计与交 ...
最新文章
- 大数据架构和模式(一)——大数据分类和架构简介
- i2c hid 触摸板不能用_I2C 总线协议初探 - STM32 I2C 接口外设学习笔记
- 在User Control 中使用 CustomValidator
- 中国科学院大学计算机金智,金智-中国科学院大学-UCAS
- mysql 时间 sql_MySQL sql语句获取当前日期|时间|时间戳
- Linux命令备忘实例——排序和基本统计命令
- oracle的freelist,Oracle表的分类以及相关参数的详解
- MySql修改默认端口
- 配置交叉编译工具链和环境变量
- python 爬虫 美女_Python3爬取美女妹子图片
- vbm 分析_vbm分析 | Forum of resting-state fMRI
- Windows中使用命令创建计划任务(at、schtasks)
- 慢就是快的人生哲理_关于慢的境界的哲理美文
- 2016年度中国手游报告:梦幻西游手游是最大赢家
- linux怎么生成arm文件,AMR 文件扩展名: 它是什么以及如何打开它?
- oracle数据库path,oracle数据库path
- node生成唯一设备id(node-machine-id)
- html css javascript 动漫网页设计成品 (妖狐小红娘) 学生漫画网页DW制作 web实训网页设计 HTML5期末大作业
- 域名抢注自动提交程序详解
- 用Arduino实现DHT11自动控制L9110电机风扇