浙江女性胸部全国最小!

--马云

大纲:

一、写作背景

二、开始淘宝

2.1 推荐系统(导购员)

2.2 大数据平台开发(店里监控布局)

2.3 实时计算(收银员)

2.4 数据仓库(储物间)

2.5 数据分析(店长)

2.6 离线计算(会计)

2.7 数据挖掘(精算师)

三、总结

一、写作背景

1.总跟女票说我是做大数据的,女票也跟她朋友说我是做大数据的,但一问是啥,我跟我女票解释了半天她都没听懂,她也不知道怎么跟她朋友说。最好的解决方法是换女票,当然这是不存在的,想都不会想也不敢想。于是乎说写篇她看完也能知道大数据的文章给她。

2.我的知识星球里很多伙伴都问了诸如此类的问题(一笔概括,证明女票是多么重要,滑稽脸)

3.下次要是有人问你大数据开发是什么,希望你能把这篇文章分享给他。

二、开始淘宝

2.1 推荐系统(导购员)

一打开女票的手机淘宝页面,就发现推荐栏叫我女票换包。

推荐商品栏以及热搜和搜索框中的内容,都是根据你定制的。你最近经常搜的物品和浏览的东西都被记录起来,然后被贴上标签。像我女票应该是被贴上「小仙女」、「时尚」、「少女」等标签,下次的女神节,情人节等节日活动的对象就是他们。

这个就是大数据中的推荐系统,专门猜你喜欢,类似导购,提高你的购买率。

2.2 大数据平台开发(店里监控布局

那么数据是怎么被记录的?被记录的又是什么数据?

你的昵称,设备IP,浏览的足迹,每个商品停留的时间,浏览的时间段都是后台要采集的数据。

首先我们搭建一个平台,专门去定制收集数据的手段以及采取的策略和存放这些数据的地方,这就是大数据平台的搭建。类似你在你店里布置了监控探头,录音等设备,然后有其他店员通过这些设备帮你观察消费者的言行举止等等行为。

2.3 实时计算(收银员)

当你在浏览商品的时候,你会发现旁边会有实时的推荐,如下图:

这是因为你在浏览商品的过程中数据不断被收集,然后被投放到上述的推荐系统中。但是那些用户名,商品等信息不一定都是规则的,有可能是数字,有可能是符号。所以我们这边要有一个程序员,专门负责实时的处理这些数据,把这些数据处理成有规则的,并存储到数据仓库中。至于为什么这样做,下面会解释。

这个过程就是大数据的实时计算,它具有时效性,就是不能停,立刻马上做出响应的。把它比喻成收银员就是为了突出实时,别人要结账你得立即做出响应。

2.4 数据仓库(储物间)

前面提到了数据仓库,顾名思义,存储数据的仓库。在我们一些工厂或者企业的仓库里,我们通常都会按循序、分类放好我们的物品,要制定规则,哪些能放,哪些不能放,哪些需要处理之后才能放。比如说你要放一个柜子,可能不能放,但你如果把它拆成木板就可以放,等要用的时候要拿这些木板去组装就行。

所以才有上述的实时计算,因为它要遵守数据仓库管理员制定的规则,将数据按照规格处理好才能进行存放。

2.5 数据分析(店长)

当你从淘宝给你推荐的商品挑选出你喜欢的之后,点击直接购买并付款。淘宝系统会生成一条你订单的数据到数据库里面,上面会有你的收件地址、联系方式、商品信息、数量等。

而这些数据有什么用呢?你可能会想说,留底当凭证啊。对的,不过不止这个作用。

举个例子:马云开会说:我要看一下这十年的内衣销售明细,各个地区的销售情况。这时候有个部门就要去整理出这些报表了,那就是数据分析部门,他们要从海量的数据中去分析这些指标,并整理成报表给马老板看。

马老板看了这些数据之后,得出一个结论:「浙江女性胸部全国最小」。然后呢?肯定是以后往浙江多进一些小码的内衣,以增加销售量,然后可能再顺带卖点木瓜什么的。

这就是数据分析带来的好处,为我们公司的高层提供决策上的支持。

2.6 离线计算(会计)

不对啊,十年的数据量,能说查就查吗?数据量得多大啊!没错,不可能说要什么数据立马就能查出来的。最理想的方案就是:当天结束就计算当天的指标,把销售额,地址什么的统计好,然后每星期再统计一下,每个月再统计一下,以此类推。那算十年不就分分钟的事?

对的,那这些事情谁来做呢?当然是我们离线计算工程师。离线计算顾名思义,实时计算的对立方,我们做的是幕后工作。可以将实时计算工程师想象为收银员,每个顾客买单时都得结账并打印发票什么的,不能拖延。离线计算则是会计,每天下班之后看着账单点数,看看今天哪些东西各卖多少。可以慢悠悠地算一个晚上,数据对就行,没人在乎你算了多久。

2.7 数据挖掘(精算师)

那这些处理好的数据不能光存着啊,得挖掘出它的价值。没错,根据这些订单数据,我们能推测出未来商品的一个销售走势,哪个地区需要投放哪些商品,这就是数据挖掘。数据挖掘相当于我们企业的精算师顾问,他会从你已有的数据去分析你之后的走势,给你提供一些有价值可供参考的建议。

我们要给数据挖掘系统投放有价值的数据,它类似我们人脑,输入的数据越有价值和参考性,预测的结果越准,否则只会误导。

三、总结

好了,通过以上步骤,淘宝更懂我女朋友了,它会推送更多符合我女票的胃口的商品,然后下单之后的数据会帮助那些商家投放更多种类的商品到该地区,选择更多了,我女朋友也更喜欢在淘宝购物了。

致转行AI的在校大学生的一封信

【AI自学】 完备的 AI 学习路线,最详细的资源整理!

转行AI需要看的一些文章

转行学AI,具体细分方向如何选,来自一线工程师的感悟

用法律武器,痛击腾讯侵权行为!!!湾区人工智能可以改善知识产权现状吗?

【送书PDF】Python编程从入门到实践

Python从入门到精通,深度学习与机器学习资料大礼包!

【免费】某机构最新3980元机器学习/大数据课程高速下载,限量200份

觉得不错, 请随意转发,麻烦点个在看!


如果觉得写得还行,

希望可以在右下角点个「好看」

【大数据】通过女票的淘宝历程,大白话讲解大数据各个方向的分工相关推荐

  1. 通过淘宝,大白话讲解大数据各个方向的分工

    本文公众号来源:大数据肌肉猿 作者:无精疯 最近也开始接触大数据相关的东西,看到这篇文章非常通俗易懂地讲解了大数据究竟是干嘛的,推荐阅读! (本文由虐狗的嫌疑,放下40米长刀再食用!) 大纲: 一.写 ...

  2. 通过女票的淘宝历程,大白话讲解大数据各个方向的分工

    浙江女性胸部全国最小! --马云 本文转自公众号"大数据肌肉猿",作者无精疯 1 背景 总跟女票说我是做大数据的,女票也跟她朋友说我是做大数据的,但一问是啥,我跟我女票解释了半天她 ...

  3. 电商大数据 API接口 数据挖掘 淘宝拼多多京东1688数据抓取

    电商API简介 电商大数据是指电子商务产业(B2B.C2C.O2O等)所产生的大量结构化和半结构化的可视化数据.通过数据挖掘和数据分析等手段,经过过程性和综合性的考量,从而帮助电子商务企业做全局性.系 ...

  4. 大数据信息资料采集:淘宝飞猪旅游酒店客栈旅社公寓数据信息采集

    大数据信息资料采集:淘宝飞猪旅游酒店客栈旅社公寓数据信息采集 数据采集满足多种业务场景:适合产品.运营.销售.数据分析.政府机关.电商从业者.学术研究等多种身份职业. 舆情监控:全方位监测公开信息,抢 ...

  5. 【行业参考】大数据背景下的淘宝核心数据库建设与OceanBase技术探讨

    声明: 本文为转载(信息来源:三星应用社区-CSDN),文章标题为本博自拟,与来源无关.本文仅作参考,如有版权问题,请与博主联系删除.请勿转载本文,因转载导致的版权纠纷,与本博无关. 时至今日,&qu ...

  6. 获取各大电商平台,item_get_app - 获得淘宝app商品详情原数据API返回数据说明

    今天跟大家分享的是item_get_app - 获得淘宝app商品详情原数据API返回数据说明 item_get_app  获得淘宝商品详情 [查看演示] API测试工具 注册链接(获取Key和sec ...

  7. 淘宝心选在大润发开店了,背后意味着什么?

    相比其他精选电商平台,淘宝心选能够借助大润发等阿里新零售大军加快落地的脚步,而大润发等也可以因此丰富产品线,满足年轻顾客群体的需求. 6月28日,"淘宝心选·生活家"首店在上海大润 ...

  8. python爬取淘宝数据魔方_《淘宝数据魔方技术架构解析》阅读笔记

    淘宝网拥有国内最具商业价值的海量数据.截至当前,每天有超过30亿的店铺.商品浏览记录,10亿在线商品数,上千万的成交.收藏和评价数据.如何从这些数据中挖掘出真正的商业价值,进而帮助淘宝.商家进行企业的 ...

  9. 用大数据为潮流赋能  淘宝热词如何打造“有温度的时尚”?

    在刚刚结束的淘宝新势力周上,很多人都没有想到,"大哥廓西"会跃居女装品类增速第一的位置.高达近300%的成交增幅数据背后,"大哥廓西"一定蕴藏着巨大的秘密. 在 ...

最新文章

  1. java vuser脚本_loadrunner12中JavaVuser脚本的编写
  2. NGUI全面实践教程(大学霸内部资料)
  3. 王者服务器维修2019年四月份,2019王者荣耀4周年庆版本更新时间介绍[图]
  4. 认真看看, 以后写 SQL 就爽多了:MyBatis 动态 SQL
  5. docker 部署springboot容器日志处理
  6. CC++动态分配内存(手动分配内存)三种方式
  7. MyEclipse的Git配置
  8. Java大牛的一些总结,献给对未来还在迷茫中的你!
  9. java io怎么学_Java IO 初学者 怎么都弄不出来
  10. Robotium导入被测源码遇到问题 had used a different Landroid/support/v4/view/ViewPager
  11. spring源码解析系列之事件驱动模型架构
  12. 归并排序验证性实验_性能优化技巧:有序归并
  13. JS 创建对象方法
  14. 第十五章 第十五章 异步A3C(Asynchronous Advantage Actor-Critic,A3C)-强化学习理论学习与代码实现(强化学习导论第二版)
  15. 小说阅读器java源代码_Android项目源码任阅小说阅读器高仿追书神器
  16. 安装torch与luarocks的一些问题
  17. 推荐几个好用的 html5 游戏源码下载网站
  18. wegame显示密保服务器,wegame英雄联盟怎么选定大区
  19. RobotStudio安装教程
  20. 微服务4——服务的限流、熔断(Sentinel-三ti no)sca-comsumersca-provider

热门文章

  1. ElasticSearch API实现CRUD
  2. java并发:初探sleep方法
  3. 个人永久性免费-Excel催化剂功能第75波-标签式报表转标准数据源
  4. Java equals()方法和hashCode()方法
  5. 【HDU3530】 [Sdoi2014]数数 (AC自动机+数位DP)
  6. 著名风投Greylock扩展基金局限 投资科技行业
  7. 视觉(5)A Fast Area-Based Stereo Matching Algorithm
  8. commons dbcp.jar有什么用
  9. Jquery+asp.net实现Ajax方式文件下载实例代码
  10. 安卓逆向系列教程 4.1 字符串资源