本周阅读了老师推荐阅读的公众号:架构师中的推文《淘宝数据魔方技术架构解析》,感想如下:

淘宝,已成为一个国民级别的应用,每个新手机在推荐应用里的购物这一选项,排在第一个的就是淘宝。淘宝,更是在每年双十一屡次刷新人们购物的记录,人们浏览商品,加入购物车,购买,评价,等一系列购物的操作,都会产生很多的数据。那么通过阅读本片公众号推文,我有了一个大体的理解。

在文章中所提到,淘宝将数据分为两类,冷数据和热数据,冷数据即指用户在浏览、搜索、加入购物车时一些操作产生的数据,这些数据不需要及时的反馈给用户,所以可以使用hadoop、mapreduce等技术,进行数据的分析,而计算出的结果并不需要计算出来就返回到前端。热数据是指,一些对实效性很高的数据,比如说搜索词的统计数据,这类数据如果在采用hadoop等技术是非常之慢的,众所周知,hadoop技术适合处理历史数据,而非实时热数据,针对此,淘宝采用了称之为“银河”的实时数据计算平台,用来处理一些用户搜索词的统计来完成“猜你喜欢”、“好物推荐”等模块的精准式推送。

目前,通过大三上半年的学习,对hadoop、mapreduce技术有了部分了解,并作过一些清洗数据等的小实验。在实验中,mapreduce清洗数据时,首先这个数据就包括了有用数据和无用的脏数据,本文提到的淘宝自主研发的数据传输组件DataX、DbSync和Timetunnel能够实时传输数据给一个1500节点的hadoop集群上,有40000个作业的1.5PB原始数据进行处理,而对于处理的需求都能在凌晨两点之前完成,这本身对系统的要求是非常之高的,从这一点就可以看出、淘宝在处理数据这方面真的是非常厉害。

其次,文章第二部分所提到的,关系型数据库仍是王道。在大二大三中,我所接触到的数据库基本是Mysql、SQL这两大类,因为数据量不是很多,且进行编码的作业目前只涉及了增删改查,对性能方面没有要求,对支持最大访问量、同时进行数据的读写、并发访问还没有真正的遇到过,所以我现在在完成网页时所使用的Mysql、SQL数据库已经基本能满足,但是,在大三上学期学习hadoop等技术时,了解到了非关系型数据库,hbase以列式存储的方式处理数据、以及redis处理字符串类型的数据、mongoDB处理文档的行数处理数据等,这些数据库在处理某些特定的数据确实比关系型数据库处理的快。文章中所提到的,淘宝以关系型数据库为基础,用NoSQL来做SQL的有益补充,使得其在处理数据方面能够如虎添翼,最大程度的完成对用户每天产生的数据进行清理,计算,返回。

正如文章结尾所说,淘宝的数据魔方目前已经能提供压缩前80TB大的数据存储空间,支持每天4000万的数据查询请求,把响应时间控制在28毫秒,真的是非常之厉害。

《淘宝数据魔方技术架构解析》原文地址:https://mp.weixin.qq.com/s?__biz=MzAxNjAzMTQyMA==&mid=2648476063&idx=1&sn=882fb8584b82107d5af191af5b805d0e&chksm=83d3224cb4a4ab5a72e04dbaa6c6621cc866ab913bb7abb1aa8e6f7860e128501ca1a3c26d4a&scene=21#wechat_redirect

转载于:https://www.cnblogs.com/ljl1998/p/10589540.html

阅读心得3:《淘宝数据魔方技术架构解析 》相关推荐

  1. 淘宝数据魔方技术架构解析读后感

    本次阅读文章为:淘宝数据魔方技术架构解析 文章地址:https://mp.weixin.qq.com/s?__biz=MzAxNjAzMTQyMA==&mid=2648476063&i ...

  2. 读《淘宝数据魔方技术架构解析》有感

    淘宝网拥有国内最具商业价值的海量数据.截至当前,每天有超过30亿的店铺.商品浏览记录,10亿在线商品数,上千万的成交.收藏和评价数据.如何从这些数据中挖掘出真正的商业价值,进而帮助淘宝.商家进行企业的 ...

  3. python爬取淘宝数据魔方_《淘宝数据魔方技术架构解析》阅读笔记

    淘宝网拥有国内最具商业价值的海量数据.截至当前,每天有超过30亿的店铺.商品浏览记录,10亿在线商品数,上千万的成交.收藏和评价数据.如何从这些数据中挖掘出真正的商业价值,进而帮助淘宝.商家进行企业的 ...

  4. python爬取淘宝数据魔方_淘宝数据魔方技术架构解析

    淘宝网拥有国内最具商业价值的海量数据.截至当前,每天有超过30亿的店铺.商品浏览记录,10亿在线商品数,上千万的成交.收藏和评价数据.如何 从这些数据中挖掘出真正的商业价值,进而帮助淘宝.商家进行企业 ...

  5. 分布式系统 淘宝数据魔方技术架构解析

    淘宝网拥有国内最具商业价值的海量数据.每天有超过30亿的店铺.商品浏览记录,10亿在线商品数,上千万的成交.收藏和评价数据.如何从这些数据中挖掘出真正的商业价值,进而帮助淘宝.商家进行企业的数据化运营 ...

  6. python爬取淘宝数据魔方_淘宝数据魔方技术架构解析阅读心得

    淘宝网拥有国内最具商业价值的海量数据,而帮助消费者进行理性的购物决策,是淘宝数据平台与产品部的使命.为此,我们进行了一系列数据产品的研发,比如为大家所熟知的量子统计.数据魔方和淘宝指数等.本文将以数据 ...

  7. 《淘宝数据魔方技术架构解析》阅读总结

    作为大型的电商平台,淘宝掌握的核心数据技术--数据魔方技术. 用一组数据可以看出淘宝平台的数据庞大:淘宝网拥有国内最具商业价值的海量数据.截至当前,每天有超过30亿的店铺.商品浏览记录,10亿在线商品 ...

  8. [转]浅析淘宝数据魔方技术架构

    为什么80%的码农都做不了架构师?>>>    为此,我们进行了一系列数据产品的研发,比如为大家所熟知的量子统计.数据魔方和淘宝指数等.尽管从业务层面来讲,数据产品的研发难度并不高; ...

  9. 数据分析之淘宝数据简介

    数据分析之淘宝数据简介 淘宝数据组成 用户数据 商品数据 其他行为数据 交易行为数据 数据规模: ● 用户总数:2亿 ● 在线商品总数:5亿 ● 交易行为数据:6百万笔/天 ● 其他行为数据:3千万U ...

最新文章

  1. 万能的Python,不仅能开发效率高,还能绘画各种漫画图像
  2. PAT甲级1017 Queueing at Bank:[C++题解]字符串、结构体、最小堆
  3. protobuf扫盲
  4. C/C++——朴素的模式匹配算法和KMP模式匹配算法
  5. java解析xml 字符串_Java解析XML字符串
  6. element ui分页怎么做_vue+element-ui的分页完整版
  7. python运算学习之Numpy ------ 数组操作:连接数组、拆分数组 、广播机制、结构化数组、文件贮存与读写、np.where、数组去重...
  8. 厉害了!为了干掉 HTTP ,Spring团队又开源 nohttp 项目!
  9. Oracle 基本查询:dual、distinct、null、between and、in、like、order by、group by、dual、as
  10. Fortran77基础
  11. SkeyePlayer RTSP/RTMP低延迟播放器源码解析系列之效率优化方案
  12. 省市县选择框html,省市县.html
  13. 你家的wifi安全么?
  14. Win32多线程之被激发的对象(Signaled Objects)
  15. 关于CLR GC调优的一些问题
  16. (Scikit-Learn)线性回归 基函数的含义详解
  17. aspen压缩因子_Aspen 物性代号及常用的英语单词中英文对照
  18. 政务云市场开启“狂飙”:一项前三,两项跃升!
  19. 数据结构与算法基础学习(一)
  20. JAVA(第六版)——期末复习2

热门文章

  1. Android测试系列之Instrumented Unit Test-Espresso
  2. “Run Android instrumented tests using Gradle“ option was ignored ... 的解决方法
  3. Echarts类似航班选座如何做一个实时监测设备状态的案例
  4. CentOS 7安装教程(图文详解)
  5. HTML表格(table、tr、td、th、thead、tbody、tfoot标签)
  6. Python实现对12500张猫狗图像的精准分类
  7. 使用python做一个密码锁_Python选择结构——设计密码锁
  8. 教你一招轻松搞定大量视频滚动字幕
  9. 《计算机网络》第四章 网络层 ——分类的IP 划分子网 构成超网 路由选择协议 路由器构成
  10. AcWing 105 七夕祭