极客大学架构师训练营 大数据架构、Spark、Flink、机器学习、PageRank算法、神经网络 第13次作业
1. 你所在的行业,常用的数据分析指标有哪些?请简述。
笔者曾经任职于阿里巴巴资深无线开发,所以就以电商来讲讲把。
数据大屏
互联网运营常用数据指标
新增用户数
新增用户数是网站增长性的关键指标,指新增加的访问网站的用户数(或者新下载 App 的用户数),对于一个处于爆发期的网站,新增用户数在短期内出现倍增的走势,是网站的战略机遇期,很多大型网站都经历过一个甚至多个短期内用户暴增的阶段。新增用户数有日新增用户数、周新增用户数、月新增用户等几种统计口径。
用户留存率
新增的用户并一定总是对网站(App)满意,在使用网站(App)后感到不满意,可能会注销账号(卸载App),这些辛苦获取来的用户就流失掉了。网站把经过一段时间依然没有流失的用户称作留存用户,留存用户数比当期新增用户数就是用户留存率。
用户留存率 = 留存用户数 / 当前新增用户数
用户留存有时间窗口,即和当期数据比,3天前新增用户留存的,称作3日留存;相应的,还有 5日 留存、7日留存等。新增用户通过可以通过广告、促销、病毒营销等手段获取,但是要让用户留下来,就必须要使产品有实打实的价值。用户留存率是反映用户体验和产品价值的一个重要指标,一般说来,3日留存率能做到 40% 以上就算不错了。和用户留存率对应的是用户流失率。
用户流失率 = 1 - 用户留存率
活跃用户数
用户下载注册,但是很少打开产品,表示产品缺乏粘性和吸引力。活跃用户数表示打开使用产品的用户数,根据统计口径不同,有日活跃用户数、月活跃用户数等。提升活跃是网站运营的重要目标,各类 App 常用推送优惠促销消息给用户的手段促使用户打开产品。
PV
打开产品就算活跃,打开以后是否频繁操作,就用 PV 这个指标衡量,用户每次点击,每个页面跳转,被称为一个 PV(Page View)。PV 是网页访问统计的重要指标,在移动 App 上,需要进行一些变通来进行统计。
GMV
GMV 即成交总金额( Gross Merchandise Volume),是电商网站统计营业额(流水)、反映网站营收能力的重要指标。和 GMV 配合使用的还有订单量(用户下单总量)、客单价(单个订单的平均价格)等。
转化率
转化率是指在电商网站产生购买行为的用户与访问用户之比。
转化率 = 有购买行为的用户数 / 总访问用户数
用户从进入网站(App)到最后购买成功,可能需要经过复杂的访问路径,每个环节都可能会离开:进入首页想了想没什么要买的,然后离开;搜索结果看了看不想买,然后离开;进入商品详情页面,看看评价、看看图片、看看价格、然后离开;放入购物车后有想了想自己的钱包,然后离开;支付的时候发现不支持自己喜欢的支付方式,然后离开… 一个用户从进入网站到支付,完成一笔真正的消费,中间会有很大概率流失,网站必须要想尽各种办法:个性化推荐、打折促销、免运费、送红包、分期支付,以留住用户,提高转化率。
2. Google 搜索引擎是如何对搜索结果进行排序的?(请用自己的语言描述 PageRank 算法。)
网页排名算法 PageRank
PageRank, 网页排名,又称网页级别,Google 左侧排名或佩奇排名,是一种由搜索引擎根据网页之间相互的超链接计算的技术,而作为网页排名的要素之一,以 Google 公司创办人 拉里佩·奇(Larry Page)之姓来命名。
PageRank 让链接来 [投票]
PageRank 通过网络浩瀚的超链接关系来确定一个页面的等级。Google 把从 A 页面到 B 页面的链接解释为 A 页面给 B 页面投票,Google 根据投票来源(甚至来源的来源,即链接到 A 页面的的页面)和投票目标的等级来决定新的等级。简单的说,一个高等级的页面使其它低等级页面的等级提升。
一个页面的 [得票数] 由所有链向它的页面的重要性来决定,到一个页面的超链接相当于该页投一票。一个页面的 PageRank 是由所有链向它的页面([链入页面])的重要性经过递归算法得到的。一个有较多链入的页面会有较高的等级,相反如果一个页面没有任何链入页面,那么它没有等级。
PageRank 算法
假设一个由4个页面组成的小团体:A, B, C 和 D。如果所有页面都链向A,那么 A 的PR(PageRank)值将是 B,C 及 D的 PageRank 总和。
继续假设 B 也有链接到 C,并且 D 也有链接到包括 A 的3个页面。一个页面不能投票 2 次。所有 B 给每个页面半票。以同样的逻辑,D 投出的票只有三分之一算到了 A 的PageRank 上。
换句话说,根据链出总数平分一个页面的 PR 值。
互联网中一个网页只有对自己的出链,或者几个网页的出链形成一个循环圈。那么在不断地迭代过程中,这一个或几个网页的PR值将只增不减,显然不合理。如下图中C网页就是刚刚说的只有对自己的出链的网页:
为了解决这个问题。我们想象一个随机浏览网页的人,假定他有一个确定的概率会输入网址直接跳转到一个随机的网页,并且跳转到每个网页的概率是一样的,于是则此图中A的PR值可表示为:
PageRank 计算公式
P1,P2…Pn 是被研究的页面,M(pi)是链如 Pi 页面的集合,L(pj)是Pj 链出页面的数量,而N是所有页面的数量。
PageRank 值是一个特殊矩阵中的特征向量。这个特征向量为:
d = 0.85
极客大学架构师训练营 大数据架构、Spark、Flink、机器学习、PageRank算法、神经网络 第13次作业相关推荐
- Java架构师,大数据架构师,高并发设计模式,机器学习知识点分享
第一章:java精品课程目录大全 1.亿级流量电商详情页系统的大型高并发与高可用缓存架构实战 1课程介绍以及高并发高可用复杂系统中的缓存架构有哪些东西?32分钟 2基于大型电商网站中的商品详情页系统贯 ...
- java架构师和大数据架构师有哪些不同
Java是我们熟悉的编程语言,大数据是当今科学技术的明星技术.Java和Java大数据架构的内容是否相同??两者有什么不同呢?今天小编就从Java和大数据架构的以下方面谈谈两者的区别. Java架构方 ...
- 极客大学产品经理训练营:业务架构与概念模型 第10课总结
讲师:邱岳 1. 什么是状态图 系统中的概念或对象随着一些事件的发生,改变了状态,通常这个状态比较多.比较复杂时,我们需要用状态图来表示他们的边界,以及触发状态转换的活动. 2. 动手画 – 员工状态 ...
- 20200814极客时间从零学习大数据
极客时间从零学习大数据: Yarn将MapReduce执行引擎和资源调度分离开来, yarn是大数据平台上最主流的资源调度系统 MapReduce,Spark 这类计算框架处理的业务场景都背称作批处理 ...
- java 用户日志_2020年阿里巴巴最全Java、架构师、大数据、算法PPT技术栈图册
我只截图不说话,PPT大全,氛围研发篇.算法篇.大数据.Java后端架构!除了大家熟悉的交易.支付场景外,支撑起阿里双十一交易1682亿元的"超级工程"其实包括以下但不限于客服.搜 ...
- .NET 云原生架构师训练营(系统架构)--学习笔记
▲ 点击上方"DotNet NB"关注公众号 回复"1"获取开发者路线图 学习分享 丨作者 / 郑 子 铭 这是DotNet NB 公众号的第176篇原创文章 ...
- 极客大学产品经理训练营 极客时间购买课程-大作业
1. 标题作者修改历史 标题:[极客时间]购买课程 作者 历史 时间 易筋 创建 2021-01-09 易筋 添加购买流程图6 2021-03-02 易筋 添加购买时序图7 2021-03-16 2. ...
- 【送书福利-第四期】从程序员到架构师:大数据量、缓存、高并发、微服务、多团队协同等核心场景实战书籍
大家好,我是洲洲,欢迎关注,一个爱听周杰伦的程序员.关注公众号[程序员洲洲]即可获得10G学习资料.面试笔记.大厂独家学习体系路线等-还可以加入技术交流群欢迎大家在CSDN后台私信我! 送书福利-第四 ...
- 极客大学产品经理训练营:数据分析与商业分析,商业分析到业务分析 第18课总结
讲师:邱岳 1. 产品经理眼中的利润.成本.收入 利润 = 收入 - 成本 奶茶利润率极高,达到60%左右.但是奶茶盈利比较难. 所有买水的产品利润率都极高,比如可口可乐,咖啡,奶茶等. 案例:有个面 ...
- 极客时间《从零开始学大数据》学习总结
2019-05-22 关键字:无 花了一周多的时间学习了李智慧老师在极客时间上开设的<从零开始学习大数据>课程后感触良多,特意花了一天的时间写了一份总结,算是为我的这份课程的学习告个别. ...
最新文章
- 8 场 5 胜,微服务 VS 单体架构
- runat=server 所代表及隐含的意义
- JAVA并发-从缓存一致性说volatile 讲的很好
- iOS之深入解析CocoaPods的插件机制和如何加载插件整合开发工具
- Leetcode--174. 地下城游戏
- 淘宝面试-Strcpy与memcpy两函数的经典实现
- pandas表字段为空用其余表替换
- unity 创建NGUI字体
- svn里的branch、trunk、tag的用处
- 求最短路径算法之SPFA算法
- 连接mysql集群_mysql集群
- 逻辑库、物理库、分库分表(TDDL)
- Ubuntu下搜狗輸入法不能输入汉字
- 各类文件头及其十六进制标识
- 为ppt添加页码进度条
- java中最基本的数据类型,java中的基本数据类型
- Python之基本数据类型
- idc数据中心托管服务器需要注意的事项有哪些
- TeamViewer:“未就绪,请检查您的网络连接“
- C++课程设计之密码加密
热门文章
- docker java镜像_Docker容器引擎与架构
- c语言迷宫算法坐标怎么定义,[原创]递归随机迷宫生成算法详解
- 单片机r6/r7c语言怎么用,第5章MCU混合编程与C语言和汇编语言
- SOA概念的三个比喻
- 盒型详解及不同浏览器兼容
- flask使用pymysql连接MySQL,生成xls文件并下载到本地
- Centos网络管理(五)-Bonding、网络组和网桥
- struts2 传递json对象时的延迟加载异常处理方法
- [Linux]如何读取Kernel cmdline
- apache log分析