在2017在线峰会——票选最美云上大数据暨大数据技术峰会上,来自小红唇的王洋分享了数加平台上小红唇的大数据实践。他对数据仓储解决方案和搜索引擎进行了详细介绍。通过算法平台应用的基于视频元信息的回归、近义词、业务总线三个案例具体介绍了数加平台的大数据应用实践。

以下内容根据直播视频整理而成。

小红唇App

小红唇App是国内最大的一款针对15-25岁年轻女性的垂直视频分享社区和社交化电商平台。其为用户提供了丰富的平台内容、活跃的社区生态和优质的产品选择。用一句话概括小红唇业务模式为短视频美妆社区电商。

数据仓库

小红唇App的数据来源主要为两个方面:业务服务器产生的API日志,代表着用户的各种行为数据;服务器产生的各种交易数据,比如用户发的帖子、买的东西。用户行为日志是通过阿里云的datahub组件把API日志采集到MaxCompute平台上。业务数据是通过阿里云提供的DATAX工具载入到MaxCompute平台上。目前,业务数据库已经完全迁移到了阿里的RDS平台,只需要在数加的IDE里做一些简单的配置即可将数据完整的迁移过来。当所有数据都搬到MaxCompute平台上之后,在其上做的数据开发更加轻松。在其上,可以用类SQL的语句编写数据清洗和转换的执行任务,平台同时提供管理器对任务进行调度和管理。在数仓之上,构建了很多应用,最直接的就是QUICK BI。社区内容运营和商品运营都是依赖于实际的运营数据来做进一步的决策和运营商的策略调整,QUICK BI对运营的指导非常大。阿里云的QUICK BI不需要开发可视化的前端,只需要在数加的data IDE里面做相应数据任务的编排就可以很容易的通过QUICK BI产品展示出来。并且,在QUICK BI可视化的界面上不仅有各种图表的展现还提供了一定功能的多维数据分析,极大提高了运营效率。

推荐引擎

推荐引擎的整体架构如上图所示。虚线框以内是推荐引擎产品本身的内容。我们需要做的仅仅是把我们的数据按照推荐引擎需要的格式准备好,在MaxCompute里面把对应的表都建好。主要应用场景是短视频和图片的推荐,推荐引擎打理好一切之后,得到推荐结果以API形式供业务服务器调用。除了便捷性,推荐引擎还提供了非常强的灵活性。主要做了首页推荐和详情页推荐,首页推荐主要是用基于协同过滤的算法来计算出结果,详情页推荐对阿里云的模板进行了修改引入了基于TFIDF算法的计算节点来加强了相关性的推荐。同时,推荐引擎还支持A/B TEST测试体系,对模板算法和参数的细微调整都可以定量化的分析和计算出来。推荐引擎的另外一个优势是可以和流计算相结合,把用户的数据实时导入计算引擎中,实时对推荐结果进行修正。

算法平台应用

基于视频元信息的回归

作为一个UGC的平台,用户上传内容的质量是参差不齐的,为了保证平台内容的质量。编辑进行了很多精选和挑选的工作。如何提升编辑的筛选效率?为此,选择了阿里云的机器学习平台。通过视频的元信息(时长,帧率,码率,描述内容,亮度,对比度,分辨率,锐度)的抽取,形成了特征矩阵,随机选取了已有视频数据;以是否经过编辑精选做了有监督的逻辑回归训练,训练出模型;对新的视频应用这个模型给出预判评估,作为视频编辑的参考, 及搜索推荐的影响因子。

具体的过程如上图所示。我们需要将自己的视频信息进行量化,通过拖拽、拼接构建起训练的模型。最左边这张图应用了逻辑回归、线性回归、随机森林三种模型进行训练,目前选用的是逻辑回归的模型。在算法平台训练完模型之后会非常容易的导入到Date IDE中,准备好的新视频数据就会把模型节点加进去,得到对应的预测打分。最右边的图是把评分结果通过QUICK BI展示。整个过程没有太多的工作量,只需要在平台上做一些配置就可以完成整个视频元信息的回归和训练。

近义词

近义词主要是为了优化搜索的体验,具体是把用户发布的内容、视频的名称、描述、用户的标签、评论等语料信息通过阿里云word2vec算发获取词向量,通过余弦相似度计算获取近义词,通过人工筛选、录入到搜索引擎的同义词库中提升搜索体验。

最上层是用户输入的元数据,通过几个步骤,以及K-means聚类算法做了一些分析。

业务总线

最开始使用流计算只是为了提升一些应用场景(搜索热词统计、实时热度统计)的响应速度。但是,通过流计算已经截取了所有的业务事件,那么是否可以通过流计算将业务事件实时触发出来支撑类似于发送优惠券、推送消息等业务?实践证明了其可行性。目前,通过流计算这套业务总线体系的时延控制在了秒级。

数加的“降维打击”

小红唇App拥抱数加已有半年光景,对数加的体验非常好,其感受主要为以下四点:不需要像传统大数据业务一样构建一个非常复杂的Hadoop栈,并且对其进行运维,节省了金钱和时间成本;MaxCompute的整个生态系统设计的比较完善,无需专职数据团队,降低了人员成本;得益于数加的生态,可以在21天内搭建推荐系统;借助流计算非侵入实现业务总线,满足了绝大部分场景。

大数据打造你的变美频道——数加平台上小红唇的大数据实践相关推荐

  1. 数加平台——阿里大数据OS实践

    在云栖计算之旅第5期--大数据与人工智能大会上,阿里云大数据事业部数加平台技术负责人陈廷梁从数加定义.起源.愿景.价值.架构.规划六个方面分享了<数加平台--阿里大数据OS实践>.其中,他 ...

  2. 从数据来源、数据生态、数据技术、数加平台等方面,漫谈阿里大数据

    目前人人都在谈大数据,谈DT时代,但是,大数据是什么,每个人都有自己的一个看法,好比盲人摸象,每个都认为自己摸到是真正的大象.我也担心我所看到的,只是大数据的冰山一角,毕竟,将引领整个人类下一次变革的 ...

  3. 美甲帮:数加平台打造大数据架构

    公司简介 美甲帮是牧云网络旗下一款专注美甲行业的社区型垂直电商APP,其核心业务包括美甲资讯.美甲行业认证.培训教学.商城.招聘等板块,目前已汇聚全国80%的美甲师,覆盖国内90%的美甲店,数以百万计 ...

  4. 全民大数据时代已来 阿里数加平台详解

    文章讲的是全民大数据时代已来 阿里数加平台详解,业界流行一种说法,云计算与大数据就是一枚硬币的两面,相生相惜,不可分割.在当下互联网时代,数据的价值越来越受到社会的认可,并在今天,已然成为一种普惠资源 ...

  5. 求出千位数上的数加百位数上的数等于十位数上的数加个位数上的数的个数cnt,再把所有满足条件的四位数依次存入数组b中,然后对数组b中的四位数按从大到小的顺序进行排序。

    已知数据文件IN13.DAT中存有300个四位数,并已调用读函数readDat()把这些数存入数组a中,请编制一个函数jsValue(),其功能是:求出千位数上的数加百位数上的数等于十位数上的数加个位 ...

  6. android http 网关,安卓平台上实现基于HTTP协议数据网关的方法

    摘要:文章介绍了一种在安卓平台上实现基于HTTP协议数据网关的方法,并详细阐述了数据网关与终端网络设备之间数据传输的实现过程. 关键词:安卓平台: 服务器: 应用开发: Abstract:This p ...

  7. 网鱼网咖-利用数加快速搭建大数据平台,极致洞察,为客户带来从所未有的体验。...

    免费开通大数据服务:https://www.aliyun.com/product/odps "令人惊喜的是,利用阿里云的数加平台,我们差不多一个多月就搭建好了大数据平台,并且可以通过图形化的 ...

  8. 网鱼网咖-利用数加快速搭建大数据平台,极致洞察,为客户带来从所未有的体验。

    免费开通大数据服务:https://www.aliyun.com/product/odps "令人惊喜的是,利用阿里云的数加平台,我们差不多一个多月就搭建好了大数据平台,并且可以通过图形化的 ...

  9. C语言/C++程序员大神打造纯C的电子时钟(加图形库+源码)

    C语言/C++程序员大神打造纯C的电子时钟,每天看时间再也不麻烦了 C和C++的区别: C是一个结构化语言,它的重点在于算法和数据结构.C程序的设计首要考虑的是如何通过一个过程,对输入(或环境条件)进 ...

最新文章

  1. iMeta期刊投审稿系统ScholarOne正式上线
  2. react-native-sound的使用
  3. windows下安装PyTorch0.4.0
  4. oracle创建一个表同已存在表结构一样
  5. snmp协议_SNMP开发和使用
  6. jquery遍历节点
  7. 窗口的新建移动和改变大小
  8. linux下巧用tail命令 创建自解压tar文件
  9. FlowNet到FlowNet2.0:基于卷积神经网络的光流预测算法
  10. Smobiler实现美观登录界面——C# 或.NET Smobiler实例开发手机app(二)
  11. PMP课程笔记:第4章 项目整合管理
  12. vuex的commit和dispatch
  13. FSA确定性识别算法
  14. Android常用开源项目
  15. 超详细!使用HTML、CSS、JavaScript实现倒计时。附加功能——点击页面出现小心心
  16. bluerov与单片机通信开发过程与bug记录
  17. 连接Basler相机
  18. 大学生交友平台——结构化需求分析与建模
  19. TortoiseGit 安装和使用教程
  20. C#生成putty格式的ppk文件(支持passphrase)

热门文章

  1. 解决WORDPRESS评论时头像不显示的问题
  2. Linux中输入输出重定向和管道
  3. struct的初始化
  4. [计算机组成原理] Booth算法 —— 补码一位乘法
  5. salesforce零基础学习(八十九)使用 input type=file 以及RemoteAction方式上传附件
  6. 201571030322/201571030319《小学生四则运算软件需求说明结对项目报告》
  7. 穷举 迭代 while
  8. IE edge是怎么了??
  9. postgres 错误duplicate key value violates unique constraint 解决方案
  10. Qt 读写XML文件