阅读心得3：《淘宝数据魔方技术架构解析》

本周阅读了老师推荐阅读的公众号：架构师中的推文《淘宝数据魔方技术架构解析》，感想如下：

淘宝，已成为一个国民级别的应用，每个新手机在推荐应用里的购物这一选项，排在第一个的就是淘宝。淘宝，更是在每年双十一屡次刷新人们购物的记录，人们浏览商品，加入购物车，购买，评价，等一系列购物的操作，都会产生很多的数据。那么通过阅读本片公众号推文，我有了一个大体的理解。

在文章中所提到，淘宝将数据分为两类，冷数据和热数据，冷数据即指用户在浏览、搜索、加入购物车时一些操作产生的数据，这些数据不需要及时的反馈给用户，所以可以使用hadoop、mapreduce等技术，进行数据的分析，而计算出的结果并不需要计算出来就返回到前端。热数据是指，一些对实效性很高的数据，比如说搜索词的统计数据，这类数据如果在采用hadoop等技术是非常之慢的，众所周知，hadoop技术适合处理历史数据，而非实时热数据，针对此，淘宝采用了称之为“银河”的实时数据计算平台，用来处理一些用户搜索词的统计来完成“猜你喜欢”、“好物推荐”等模块的精准式推送。

目前，通过大三上半年的学习，对hadoop、mapreduce技术有了部分了解，并作过一些清洗数据等的小实验。在实验中，mapreduce清洗数据时，首先这个数据就包括了有用数据和无用的脏数据，本文提到的淘宝自主研发的数据传输组件DataX、DbSync和Timetunnel能够实时传输数据给一个1500节点的hadoop集群上，有40000个作业的1.5PB原始数据进行处理，而对于处理的需求都能在凌晨两点之前完成，这本身对系统的要求是非常之高的，从这一点就可以看出、淘宝在处理数据这方面真的是非常厉害。

其次，文章第二部分所提到的，关系型数据库仍是王道。在大二大三中，我所接触到的数据库基本是Mysql、SQL这两大类，因为数据量不是很多，且进行编码的作业目前只涉及了增删改查，对性能方面没有要求，对支持最大访问量、同时进行数据的读写、并发访问还没有真正的遇到过，所以我现在在完成网页时所使用的Mysql、SQL数据库已经基本能满足，但是，在大三上学期学习hadoop等技术时，了解到了非关系型数据库，hbase以列式存储的方式处理数据、以及redis处理字符串类型的数据、mongoDB处理文档的行数处理数据等，这些数据库在处理某些特定的数据确实比关系型数据库处理的快。文章中所提到的，淘宝以关系型数据库为基础，用NoSQL来做SQL的有益补充，使得其在处理数据方面能够如虎添翼，最大程度的完成对用户每天产生的数据进行清理，计算，返回。

正如文章结尾所说，淘宝的数据魔方目前已经能提供压缩前80TB大的数据存储空间，支持每天4000万的数据查询请求，把响应时间控制在28毫秒，真的是非常之厉害。

《淘宝数据魔方技术架构解析》原文地址：https://mp.weixin.qq.com/s?__biz=MzAxNjAzMTQyMA==&mid=2648476063&idx=1&sn=882fb8584b82107d5af191af5b805d0e&chksm=83d3224cb4a4ab5a72e04dbaa6c6621cc866ab913bb7abb1aa8e6f7860e128501ca1a3c26d4a&scene=21#wechat_redirect

转载于:https://www.cnblogs.com/ljl1998/p/10589540.html

阅读心得3：《淘宝数据魔方技术架构解析》相关推荐

淘宝数据魔方技术架构解析读后感
本次阅读文章为:淘宝数据魔方技术架构解析文章地址:https://mp.weixin.qq.com/s?__biz=MzAxNjAzMTQyMA==&mid=2648476063&i ...
读《淘宝数据魔方技术架构解析》有感
淘宝网拥有国内最具商业价值的海量数据.截至当前,每天有超过30亿的店铺.商品浏览记录,10亿在线商品数,上千万的成交.收藏和评价数据.如何从这些数据中挖掘出真正的商业价值,进而帮助淘宝.商家进行企业的 ...
python爬取淘宝数据魔方_《淘宝数据魔方技术架构解析》阅读笔记
淘宝网拥有国内最具商业价值的海量数据.截至当前,每天有超过30亿的店铺.商品浏览记录,10亿在线商品数,上千万的成交.收藏和评价数据.如何从这些数据中挖掘出真正的商业价值,进而帮助淘宝.商家进行企业的 ...
python爬取淘宝数据魔方_淘宝数据魔方技术架构解析
淘宝网拥有国内最具商业价值的海量数据.截至当前,每天有超过30亿的店铺.商品浏览记录,10亿在线商品数,上千万的成交.收藏和评价数据.如何从这些数据中挖掘出真正的商业价值,进而帮助淘宝.商家进行企业 ...
分布式系统淘宝数据魔方技术架构解析
淘宝网拥有国内最具商业价值的海量数据.每天有超过30亿的店铺.商品浏览记录,10亿在线商品数,上千万的成交.收藏和评价数据.如何从这些数据中挖掘出真正的商业价值,进而帮助淘宝.商家进行企业的数据化运营 ...
python爬取淘宝数据魔方_淘宝数据魔方技术架构解析阅读心得
淘宝网拥有国内最具商业价值的海量数据,而帮助消费者进行理性的购物决策,是淘宝数据平台与产品部的使命.为此,我们进行了一系列数据产品的研发,比如为大家所熟知的量子统计.数据魔方和淘宝指数等.本文将以数据 ...
《淘宝数据魔方技术架构解析》阅读总结
作为大型的电商平台,淘宝掌握的核心数据技术--数据魔方技术. 用一组数据可以看出淘宝平台的数据庞大:淘宝网拥有国内最具商业价值的海量数据.截至当前,每天有超过30亿的店铺.商品浏览记录,10亿在线商品 ...
[转]浅析淘宝数据魔方技术架构
为什么80%的码农都做不了架构师?>>> 为此,我们进行了一系列数据产品的研发,比如为大家所熟知的量子统计.数据魔方和淘宝指数等.尽管从业务层面来讲,数据产品的研发难度并不高; ...
数据分析之淘宝数据简介
数据分析之淘宝数据简介淘宝数据组成用户数据商品数据其他行为数据交易行为数据数据规模: ● 用户总数:2亿 ● 在线商品总数:5亿 ● 交易行为数据:6百万笔/天 ● 其他行为数据:3千万U ...

阅读心得3：《淘宝数据魔方技术架构解析》

阅读心得3：《淘宝数据魔方技术架构解析》相关推荐

最新文章

热门文章

阅读心得3：《淘宝数据魔方技术架构解析 》

阅读心得3：《淘宝数据魔方技术架构解析 》相关推荐

最新文章

热门文章

阅读心得3：《淘宝数据魔方技术架构解析》

阅读心得3：《淘宝数据魔方技术架构解析》相关推荐