原文链接:https://mp.weixin.qq.com/s/95Zklj8ovheQV3Gnc-2h-Q

亮点:

“这里以性别预测为例,一方面,小米有大量的帐号/手环/支付/VIP数据,这些数据都有用户的性别,可以作为训练样本。另一方面,小米有大量的用户行为数据,包含APP/浏览器/购物等数据,利用这些数据作为特征,可以训练性别模型。”

App2Vec, Action2Vec。。。用户2Vec, 景点2Vec,。。。

Action2Vec的提出很不错,转化成一个序列预测问题了

“结合小米大量的行为数据和app2vec的技术,我们正在尝试把所有的action都转换成向量的形式,再借助LSTM-Attention技术,同时融合场景信息(如当前正在餐馆就餐)和个人标签(如用户兴趣)来预测用户下一个行为。”

用在旅游上,也可以结合时间季节等上下文和用户原有的属性和画像,用之前在App上的历史记录行为序列,来预测下面的行为或者想去的景点和路线

扩展:结合知识图谱,具有更强的先验知识来做;

【导读】2017年 11月4日,大数据系统与应用研讨会在中科院计算所举行。会议邀请了中科院计算所程学旗老师和其他来自联想、京东、美团点评、小米等一线互联网公司大数据领域的专家,通过主题演讲,分享并深度探讨了大数据技术在业界一线的最佳实践和创新应用。

小米大数据总监司马云瑞为大会带来了题为《小米用户画像的演进及应用》的分享报告,循序渐进地分享了小米用户画像系统的建设和应用。小米公司经过7年的发展,积累了海量的日志和用户行为数据。基于全生态、多维度的数据资产,构建了丰富的用户画像体系,在业务运营、广告、互联网金融、新零售等各个领域发挥了重要作用。此次报告内容由小米数据产品小糖,小米攻城狮小秋整理出品。 此外,请查看本文末尾,可下载最新小米用户画像 slide。

什么是用户画像?——

简而言之,用户画像是根据用户社会属性、生活习惯和消费行为等信息而抽象出的一个标签化的用户模型。构建用户画像的核心工作即是给用户贴“标签”,而标签是通过对用户信息分析而来的高度精炼的特征标识。

用户画像(UserProfile),完美地抽象出一个用户的信息全貌,可以看作企业应用大数据的根基。

如果你经常购买一些玩偶玩具,那么电商网站即可根据玩具购买的情况替你打上标签“有孩子”,甚至还可以判断出你孩子大概的年龄,贴上“有5-10岁的孩子”这样更为具体的标签,而这些所有给你贴的标签统在一次,就成了你的用户画像,因此,也可以说用户画像就是判断一个人是什么样的人。

以下是司马云瑞精彩的报告实录。

小米用户画像的演进及应用

小米大数据团队在公司内部主要承担三项职能:

  • 一是数据平台,基于公司海量数据构建数据仓库,提供OLAP(Online Analytical Processing),BI(Business Intelligence)等平台能力,支持业务部门数据需求;

  • 二是数据建设,其中最重要的是用户画像的建设,帮助多维度的描绘用户,实现精细化运营;

  • 三是数据驱动业务增长,也即数据应用,通过数据发现业务痛点,解决行业难题,颠覆行业模式。

司马云瑞主要分享了用户画像,及其如何应用,驱动业务增长,产生价值。

数据建设,其中最重要的是用户画像的建设

首先是小米的数据来源。

小米不仅是一家为人熟知的手机公司,小米还拥有丰富的智能硬件产品,小米电视、小米路由及众多生态链产品。除了在硬件上的广布局,小米还具备成熟的互联网业务,如云服务、互娱、小米金融、商业广告等。同时小米自带电商属性,有小米商城、全网电商、小米之家等线上线下渠道。

因此,小米有着琳琅满目的产品矩阵,小米的用户数据来自全生态,具备多样性。

小米生态链有丰富的产品线,如空气净化器,净水器,小米手环等,还有大热的“小爱同学”,一款改变中国智能音箱格局的产品。

该页右边展示了2016年4月小米内部云的数据统计情况,如每天新增850亿条的数据记录,2.3万个计算作业,当时数据规模为10PB等, 左侧由于隐私问题暂时保密,但可预见照片、视频需要的存储量是巨大的。

可以看到,小米日活过千万的APP就有21个,浏览器的日均搜索量超过1亿次,小米电视、语音助手等每日语音输出高达300万次,拥有这些丰富的全生态用户数据,小米在自然语言处理、语音模型等方面具有天然优势,这些数据的优势,也是小米AI的优势。

用户画像1.0——基于统计的用户标签

据司马云瑞介绍,小米大数据已经对接、服务了64个公司内部的业务组,主要通过两种方式:

1、建设公司基础、重要的数据点,构建数据工场,收拢数据,并在此基础上构建用户画像。小米的用户画像包含人口属性、兴趣标签、时空大数据等,业务可以直接使用;

2、构建数据应用团队,与业务方一起用数据解决业务难题,例如帮助新零售解决智能选址、供应链优化的问题,帮金融解决风控、反欺诈、征信问题,帮公司内部各个业务解决运营问题等。

小米大数据团队的使命是:“融汇全景数据,赋能核心业务”,从数据的收集,处理,画像的构建,到帮助业务提高,都是在践行这一口号。这样避免了数据孤岛,也实现了业务数据的互联互通。

这是小米用户画像的雏形,包含基础用户属性,如年龄性别、学历职业、地域语言、账号真实性、米粉指数以及兴趣属性等等。利用多维度数据的优势来描绘用户的属性,比如通过用户在多看阅读的历史记录,可以判断用户的阅读兴趣。

据介绍,用户画像1.0主要基于两项基本的技术:预测和统计规则。

某些事实属性小米有Label,于是直接采用机器学习的方法,结合用户的行为数据预测,例如性别年龄。

此外,大部分属性标签则基于统计规则生成,例如用户喜欢打游戏,或者经常飞行出差,小米大数据团队会通过一些规则统计用户的行为,并为这些用户打上竞技游戏、商务差旅等标签。

这里是用户性别属性的生成流程,是有监督学习。

这里以性别预测为例,一方面,小米有大量的帐号/手环/支付/VIP数据,这些数据都有用户的性别,可以作为训练样本。另一方面,小米有大量的用户行为数据,包含APP/浏览器/购物等数据,利用这些数据作为特征,可以训练性别模型。

针对不同的需求,例如追求准确率或者召回率,团队生成了不同的数据版本。模型本身也经过了多轮迭代,从最初的逻辑回归,到XGBoost,到现在的DNN.还以性别预测为例,随着数据积累的越来越多,预测效果也越来越好。而且随着数据的增多,一些DNN模型也得以利用,这也使得预测效果越来越好。

用户画像还可以直接为业务运营提供分析能力。

这里是梁振伦的粉丝群体与大盘用户相比,差异化使用的APP云图。

小米从诞生之日起就一直在跟黄牛斗智斗勇,我们基于用户的行为数据,帮助小米网预判用户是否可信,最终大幅降低黄牛比例。

小米大数据还帮助金融团队建立风险模型,预判信贷用户的违约风险,当前小米信贷业务的逾期率显著低于业界风险水平。

具体做法是从用户的历史行为数据和关系数据中,挖掘用户标签,用户社交属性,作为特征加入到模型中去。

用户画像2.0——基于行为的事实标签

服务业务的过程中,数据团队逐渐发现,画像1.0并不能解决所有的问题。

通用的兴趣标签不能满足精细化运营的需要,业务需要更精准的定制画像。

用户画像2.0旨在通过四种方法解决标签不够精细、定制化的问题:

  1. 支持直接基于用户行为数据,复杂组合逻辑的人群提取,方便业务同学自助灵活创建运营客群;

  2. 支持基于路径分析和序列挖掘的画像分析,帮助业务深入洞察用户;

  3. 定义统一的数据格式,支持业务资助扩充和接入自建的更精细的画像;

  4. 升级基于算法的智能人群拓展能力,集成业务画像数据生成特征,满足个性化的人群拓展需求。

基于事实行为产生的标签效果显著,帮助部分业务实现了230%到431%的ROI提升。

基于用户的行为数据,数据团队结合业务的实际需求,构建了百万标签库、路径分析、意图预测等能力。

路径分析使用频繁序列挖掘/基于统计的监督序列挖掘等技术对用户做分类;意图预测基于用户的历史行为和当前的环境信息,预测用户下一个可能的行为。

画像2.0还支持智能扩展人群,实现了标签定向(冷启动)到反馈定向(收集用户反馈数据迭代优化模型)的闭环,在部分业务实现了200%~300%的CTR提升。

用户画像2.1——用户画像与业务深度结合的外延探索

司马云瑞还介绍了用户画像与业务深度结合的外延探索。

小米在新零售的布局做了很多工作,从小米网的运营效率,到线下的小米之家,画像从数据应用上提供了许多支持,新零售之于大数据,司马云瑞认为可以总结成两句话:“线上线下数据融合,追求极致效率”,不管是风控,运营,还是供应链效率,都是新零售追求的目标。

除了线上的数据,小米还有许多线下数据,例如出库,销售,POI点等,这些数据的汇聚提供了一个很大的想象空间,例如滞销分析、竞品动态、区域画像。

举个例子,通过这个平台,用户可以了解到北京空气净化器卖得比较好,甚至更细致的,某个村子的小米用户画像特点。

基于用户的行为,小米大数据还在探索一款手机虚拟助手,基于场景或者规则预知用户的下一个行为,从而为用户提供非常贴心的服务。例如用户可以设置到家的时候,如果空气比较差,就打开空气净化器。

使用的是业内前沿的APP2VEC来做的,这样做有几个好处,特征维度从50万降到了200维,同时从实验结果看,APP2VEC可以替代大量的人工特征工程成本。

作为行为预测的一个案例,我们首先做了app打开预测,即预测用户下一个将要打开的app。

首先基于所有用户打开app的序列数据,在云端训练一个模型预测下一个打开的app,将模型下发到手机客户端,客户端基于云端的模型和自己的app使用序列finetune用户自己的模型,这样可以更好的预测用户下一个将要打开哪个app。

此外,用户的行为序列可以预测用户接下来要打开的5个应用,基于这个优化手机使用体验,以及实现更多场景的行为预测。

结合小米大量的行为数据和app2vec的技术,我们正在尝试把所有的action都转换成向量的形式,再借助LSTM-Attention技术,同时融合场景信息(如当前正在餐馆就餐)和个人标签(如用户兴趣)来预测用户下一个行为。

最后,司马云瑞老师组里面招聘人手,机会难得,感兴趣的人可以联系^^

特别提示-此次报告slide下载:

请关注专知公众号(扫一扫最下面专知二维码,或者点击上方蓝色专知),

  • 后台回复“UP”或者“用户画像” 就可以获取司马云瑞此次报告pdf下载链接~~

欢迎转发到你的微信群和朋友圈,分享专业AI知识!

请登录专知,获取更多用户画像知识资料,请PC登录www.zhuanzhi.ai或者点击阅读原文,注册登录,顶端搜索“用户画像” 主题,查看获得对应主题专知荟萃全集知识等资料!如下图所示~

【业界实战】小米大数据总监司马云瑞详解小米用户画像的演进及应用解读相关推荐

  1. hadoop大数据平台架构之DKhadoop详解

    hadoop大数据平台架构之DKhadoop详解 大数据的时代已经来了,信息的爆炸式增长使得越来越多的行业面临这大量数据需要存储和分析的挑战.Hadoop作为一个开源的分布式并行处理平台,以其高拓展. ...

  2. 大数据技术Hbase 和 Hive 详解

    目录 两者的特点 各自的限制 应用场景 大数据技术Hbase 和 Hive 详解, 今天给大家介绍一下关于零基础学习大数据视频教程之HBASE 和 HIVE 是多么重要的技术,那么两者有什么区别呢 ? ...

  3. 50例大数据术语英文翻译及详解

    一.大数据 英文:big data,mega data 大数据,或称巨量资料,指的是需要新处理模式才能具有更强的决策力.洞察发现力和流程优化能力的海量.高增长率和多样化的信息资产. 二.大数据的4V: ...

  4. 大数据开发:Spark入门详解

    众所周知,Spark 它是专门为大规模数据处理而设计的快速通用计算引擎,因此Spark它在数据的挖掘等领域便有着非常广泛的应用,而从现阶段来讲的话它也已经形成了一个高速发展并且应用相当广泛的生态系统了 ...

  5. 大数据术语英文翻译及详解

    版权声明:本文为博主原创文章,未经博主允许不得转载 https://blog.csdn.net/tomy2426214836/article/details/87908644 一.大数据 英文:big ...

  6. 【大数据OLAP引擎】图文详解 Apache Doris 架构

    深入了解Apache Doris 一.Apache Doris介绍 Apache Doris 是一个基于 MPP 架构的高性能.实时的分析型数据库,以极速易用的特点被人们所熟知,仅需亚秒级响应时间即可 ...

  7. 【大数据算法】:apriori算法详解,非常清晰

    如果看懂了apriori算法的直接看下面的过程, 从第k-1层推到第k层的时候的过程就是扩大-连接-剪支的过程,明白了这个了就好写了 1. 扫描数据库,生成候选1项集和频繁1项集. 2. 从2项集开始 ...

  8. 小米大数据:借助Apache Kylin打造高效、易用的一站式OLAP解决方案

    如今的小米不仅是一家手机公司,更是一家大数据与人工智能公司.随着小米公司各项业务的快速发展,数据中的商业价值也愈发突显.而与此同时,各业务团队在数据查询.分析等方面的压力同样正在剧增.因此,为帮助公司 ...

  9. 视频教程-大数据分析师实战课-大数据

    大数据分析师实战课 任老师,Cloudera管理/开发/分析认证讲师,华为高级特聘讲师,新华三大学高级特聘讲师,中国大数据技术与应用联盟高级讲师,全国高校大数据联盟特聘讲师,中国移动高级讲师,前IBM ...

最新文章

  1. Ubuntu 14.04 64位上安装wps office软件
  2. SqlHelper数据库访问类
  3. 好程序员应该拥有的7个特质
  4. Spring和JSF集成:转换器
  5. Linux应急响应入门--入侵排查(全面)
  6. Apache的Access.log分析总结
  7. Downloader Middlewares
  8. Golang笔记——go使用Redis
  9. Checkstyle的配置集
  10. 反卷积可视化工具--deconv-deep-vis-toolbox
  11. java txt 二维数组_java 将一个二维数组存到txt文件里,然后再读取
  12. 希尔伯特(Hilbert)空间
  13. Android studio引入XUI
  14. 苹果电脑怎么自定义音频输出设备
  15. 过年不让放炮,我用Python实现了1000响大地红的特效
  16. 有意思的互联网创业公司(Timehop/Redbeacon )
  17. PCB图纸太小元件放不下怎么办
  18. html自动验证邮件地址格式,JavaScript表单验证和邮箱格式验证的方法
  19. Android StatusBar 黑底白字
  20. mysql学习笔记(13)之mycat切分规则与es基础

热门文章

  1. HTML5期末大作业:节日网站设计——中国传统节日-春节(8个页面) HTML+CSS+JavaScript 中国传统节日春节网页HTML代码 学生网页课程设计期末作业下载 春节大学生网页设计制作成
  2. .NET/C#程序员技能表
  3. 给HTML页面添加本地动态时间(YYYY-MM-DD hh:mm:ss 星期x)
  4. LeetCode:912. 排序数组
  5. 编程计算并输出1到n之间的所有数的平方与立方。其中,n值由用户从键盘输入。
  6. 【javascript】元旦倒计时代码
  7. 全球顶尖技术会议QCon上海2013开幕在即
  8. Wi-Fi6的理论速率高达9.6Gbps,比5G还快,你认为可以取代5G网络吗
  9. es where_ES是王者荣耀战队?PDD怒斥喷子声明他才是ES战队老板
  10. Python3 复制和深浅copy