揭秘eBay四大系统 从行为数据中寻找价值
喜欢海淘的朋友应该对eBay并不陌生,如果你还不了解,可以把eBay+PayPal理解为淘宝+支付宝的组合,当然eBay不仅有C2C还有B2C的模式。虽然介绍了背景,但今天要说的并不是电子商务的发展,而是大数据在电商内如何发挥价值。
因为不论国外还是国内的电子商务企业,他们的相同点都是以业务为导向。eBay的做法是用数据驱动商业,其上所有的数据产品都是针对业务而生,数据部门需要对不断变化的用户需求找到解决之法,也就是从客户的行为数据中来寻找价值。
行为数据用混合的手段来处理
数据是eBay发展的基础和价值所在,所以eBay数据服务和解决方案团队从eBay成立的第一天就已经存在,从数据仓库到数据分析再到数据服务,部门的名字一直随着发展在不断变化。但万变不离其宗,数据服务和解决方案团队就是一个针对数据展开想象的部门。
eBay数据服务和解决方案团队分布在美国西雅图、圣何塞以及中国上海,而中国团队全职和外包人员总共将近有100人,其中有不同的职位和分工,包括数据科学家、数据工程师、商业需求分析师、产品经理四大类。两个区域的团队互相协作,共同开发核心数据的同时也支持不同的业务部门。
揭秘eBay四大系统 从行为数据中寻找价值
eBay中国数据服务和解决方案团队主管李炜
eBay目前整体有四大系统,其中三个为生产系统,一个为测试开发系统。生产系统包括:第一,保存交易型数据和用户数据的企业及数据仓库(Enterprise Data Warehouse);第二,Teradata为eBay特别定制的分析系统,主要进行非结构化的用户行为数据处理;第三,专门为数据分析师使用,方便快速找到想要的数据。eBay中国数据服务和解决方案团队主管李炜指出,前两个系统主要为生产环境做批处理,最后一个系统是帮助数据科学家进行测试和制作分析报告。
由于eBay电子商务的性质,其用户行为数据占80%以上,而通过买家和卖家的行为数据eBay可以做很多个性化的应用。买家更喜欢买哪些种类下的产品,有哪些购物习惯、什么时间购买,这些数据可以帮助卖家了解哪些是自己最大的客户群,以及基于机器学习对未来的热点市场进行预测。
“eBay的行为数据都是非结构化数据,这对于关系型数据库的压力非常大。”李炜谈到。因此eBay则使用了混合方案,使用Hadoop来应对海量非结构化数据,将原始数据首先加载到Hadoop上,完成行级结构化处理,在将这些预处理好的数据送到不同的系统,之后处理已经模式化的数据和半结构化数据。
eBay拥有庞大的Hadoop节点和Teradata节点,这也带来了三大挑战:
第一、不同系统间的数据搬移,eBay每天产生的数据量是巨大的,这些数据要在多个平台上搬移,在搬移的过程中要保证不同系统中数据的同步和数据质量。
第二、不同系统的管理,随着eBay系统平台的越来越多样化,对于Teradata和Hadoop等系统的管理,以及搬移数据的管理都需要不断增强。
第三、技术能力提升,不同平台有不同的技术,这就需要员工具备综合技术能力。
只要有业务需求就有数据产品
对于eBay来讲数据平台要具备高可靠性、高可用性、易用性。eBay与Teradata的合作已有20年之久,eBay也是目前Teradata最大的客户之一。李炜回顾了Teradata系统在eBay上这20年中经历了多次演变,到目前为止eBay的核心数据、交易型企业级数据和用户行为数据都在Teradata上进行存储管理和应用。
以数据驱动商业是eBay的文化,大数据平台最终是为了产生价值,现在除了传统的数据整合,eBay在各个业务环境中都有着不同的数据产品。
eBay有一款针对卖家的线上免费工具Seller Hub,可以为每一位卖家进行深入的分析,哪些商品更畅销,产品如何标价才能具备竞争优势等。这中间会使用到数据模型,李炜强调模型不仅仅从eBay网站中的所有类目中调取价格,而且还会比对相似产品的关联价格,最终为卖家提供指导价格。
结合了自身数据和第三方数据也让eBay可以完善网站上不能捕获的一些数据来绘制用户画像,像性别、职业、收入等。包括对用户画像进行分级,哪些是潜力卖家,哪些是高风险买家,从而更精准地进行市场推广。
刚刚更多说的是eBay如何用数据提供一些产品,在内部eBay同样用数据在优化自身网站,在对页面的设计、新功能的设计上都会提供相应的建议。
2016年,eBay还将继续发展B2C和C2C市场,但是eBay有B2C、C2C、二手货多种卖家的存在,如何管理各个类目中的商品成为一个非常大的挑战,eBay要做到把大部分的类目最终关联到结构化的产品系列中,实现精细化的管理。
用户的需求是多样化的,eBay也会有越来越多的需求,未来与Teradata的合作上,不仅仅是硬件一体机层面,在美国eBay已经开始使用了Teradata提供的云服务,并且已经落地了一些具体的应用。
本文转自d1net(转载)
揭秘eBay四大系统 从行为数据中寻找价值相关推荐
- 如何才能在大数据中获取价值
从数据中获取价值都是一个挑战,不管你所在的行业和企业规模如何.然而,在早期阶段,这一挑战与可用数据量没多大关系.如果对数据处理过程和数据值提取的结构设计不合理,那么至少按照现在的标准,企业有数据和没数 ...
- 长文综述:从大数据中寻找复杂系统的核心变量
文章来源:[集智俱乐部] 原文链接: https://mp.weixin.qq.com/s/IIliI5plz2UBUMAzVpxClw 导语 尽管大数据的收集越来越容易,但随着从微观到宏观的尺度(s ...
- 海量数据寻找最频繁的数据_在数据中寻找什么
海量数据寻找最频繁的数据 Some activities are instinctive. A baby doesn't need to be taught how to suckle. Most p ...
- Google大佬手把手教你从数据中挖掘价值:好产品是怎样炼成的
导读:设计师最关注的可能就是提供良好的用户体验.良好的业务指标应时时把用户考虑在内.当希望借助数据更好地了解用户时,面临的第一个问题是选择哪些用户进行数据收集. 通过高效的实验方法收集用户数据,将在用 ...
- 算法分析赛:从数据中挖掘价值,72万奖金,DCIC 2020 大数据赛道来了!
01 DCIC 2020:数字中国创新大赛 DCIC 是国内赛事中少有的开放政府真实数据的经典赛事,除了高知名度,高影响力,高奖金,对能力履历,学术研究和企业技术应用都提供了很好的机会.作为数字中国 ...
- 大数据中数据挖掘的基本步骤
数据挖掘基本步骤,数据挖掘过程定义问题.建立数据挖掘库.分析数据.准备数据.建立模型.评价模型和实施.挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,作出正确的决策. 数据挖掘是什么 数据挖掘指从 ...
- Arduino 从串口接收到的数据中提取整型数据(parseInt)
Arduino 从串口接收到的数据中提取整型数据(parseInt) 函数说明 parseInt函数可用于从设备接收到的数据中寻找整数数值. 该函数属于Stream类.该函数可被Stream类的子类所 ...
- 谷歌深度学习四大教训:应用、系统、数据及原理(附数据集列表)
谷歌深度学习四大教训:应用.系统.数据及原理(附数据集列表) 新智元mp 2016-10-28 19:22:55 阅读(809) 评论(0) 新智元原创 参考来源:airsassociation ...
- “冷热通道气流遏制系统”在数据中心机房中的应用
前言: 对于采用冷热通道气流遏制系统与未采用气流遏制措施的传统数据中心相比,气流遏制解决方案能够消除热点,提高节能效果,对已有数据中心来说,最佳气流遏制解决方案取决于数据中心的约束条件,下面本文讲解& ...
最新文章
- 怎么主动发起话题_约会的时候,多聊这4个话题,女人才会失去抵抗力
- .NET Framework 4.7发布,支持Windows 10创作者更新
- Elasticsearch –使用模式替换过滤器和自定义分析器忽略查询中的特殊字符
- python使用全局变量的坑,要使用global
- org.apache.http.NoHttpResponseException
- 想了解 spring-cloud-kubernetes,那就先来实战一把官方demo
- 学习nodejs之hello world
- 【Android架构GPS篇】之定位数据如何从GPS芯片到应用层
- 银行客户交易行为预测:LightGBM模型
- 中国法律年鉴Excel版本(1990-2021年)
- 世界坐标系和相机坐标系,图像坐标系的关系
- 技术债务-坏味道、Bug、漏洞
- c语言void delay是什么意思,delay什么意思
- Lens Shading成因及相关
- 企查查访问超频怎么办_怎样删除企查查的不良信息
- opengl 画椭圆_如何用彩铅画一朵牡丹?彩铅牡丹花的画法步骤,彩铅花卉画入门教程...
- 资料搜集-JAVA系统的梳理知识3-面试篇
- 大数据风控系统主要功能分析
- MATLAB激活了还需要激活
- WPF入门0:WPF的基础知识