1. 你所在的行业,常用的数据分析指标有哪些?请简述。

笔者曾经任职于阿里巴巴资深无线开发,所以就以电商来讲讲把。

数据大屏

互联网运营常用数据指标

新增用户数

新增用户数是网站增长性的关键指标,指新增加的访问网站的用户数(或者新下载 App 的用户数),对于一个处于爆发期的网站,新增用户数在短期内出现倍增的走势,是网站的战略机遇期,很多大型网站都经历过一个甚至多个短期内用户暴增的阶段。新增用户数有日新增用户数、周新增用户数、月新增用户等几种统计口径。

用户留存率

新增的用户并一定总是对网站(App)满意,在使用网站(App)后感到不满意,可能会注销账号(卸载App),这些辛苦获取来的用户就流失掉了。网站把经过一段时间依然没有流失的用户称作留存用户,留存用户数比当期新增用户数就是用户留存率。

用户留存率 = 留存用户数 / 当前新增用户数

用户留存有时间窗口,即和当期数据比,3天前新增用户留存的,称作3日留存;相应的,还有 5日 留存、7日留存等。新增用户通过可以通过广告、促销、病毒营销等手段获取,但是要让用户留下来,就必须要使产品有实打实的价值。用户留存率是反映用户体验和产品价值的一个重要指标,一般说来,3日留存率能做到 40% 以上就算不错了。和用户留存率对应的是用户流失率。

用户流失率 = 1 - 用户留存率

活跃用户数

用户下载注册,但是很少打开产品,表示产品缺乏粘性和吸引力。活跃用户数表示打开使用产品的用户数,根据统计口径不同,有日活跃用户数、月活跃用户数等。提升活跃是网站运营的重要目标,各类 App 常用推送优惠促销消息给用户的手段促使用户打开产品。

PV

打开产品就算活跃,打开以后是否频繁操作,就用 PV 这个指标衡量,用户每次点击,每个页面跳转,被称为一个 PV(Page View)。PV 是网页访问统计的重要指标,在移动 App 上,需要进行一些变通来进行统计。

GMV

GMV 即成交总金额( Gross Merchandise Volume),是电商网站统计营业额(流水)、反映网站营收能力的重要指标。和 GMV 配合使用的还有订单量(用户下单总量)、客单价(单个订单的平均价格)等。

转化率

转化率是指在电商网站产生购买行为的用户与访问用户之比。

转化率 = 有购买行为的用户数 / 总访问用户数

用户从进入网站(App)到最后购买成功,可能需要经过复杂的访问路径,每个环节都可能会离开:进入首页想了想没什么要买的,然后离开;搜索结果看了看不想买,然后离开;进入商品详情页面,看看评价、看看图片、看看价格、然后离开;放入购物车后有想了想自己的钱包,然后离开;支付的时候发现不支持自己喜欢的支付方式,然后离开… 一个用户从进入网站到支付,完成一笔真正的消费,中间会有很大概率流失,网站必须要想尽各种办法:个性化推荐、打折促销、免运费、送红包、分期支付,以留住用户,提高转化率。

2. Google 搜索引擎是如何对搜索结果进行排序的?(请用自己的语言描述 PageRank 算法。)

网页排名算法 PageRank

PageRank, 网页排名,又称网页级别,Google 左侧排名或佩奇排名,是一种由搜索引擎根据网页之间相互的超链接计算的技术,而作为网页排名的要素之一,以 Google 公司创办人 拉里佩·奇(Larry Page)之姓来命名。

PageRank 让链接来 [投票]

PageRank 通过网络浩瀚的超链接关系来确定一个页面的等级。Google 把从 A 页面到 B 页面的链接解释为 A 页面给 B 页面投票,Google 根据投票来源(甚至来源的来源,即链接到 A 页面的的页面)和投票目标的等级来决定新的等级。简单的说,一个高等级的页面使其它低等级页面的等级提升。

一个页面的 [得票数] 由所有链向它的页面的重要性来决定,到一个页面的超链接相当于该页投一票。一个页面的 PageRank 是由所有链向它的页面([链入页面])的重要性经过递归算法得到的。一个有较多链入的页面会有较高的等级,相反如果一个页面没有任何链入页面,那么它没有等级。

PageRank 算法

假设一个由4个页面组成的小团体:A, B, C 和 D。如果所有页面都链向A,那么 A 的PR(PageRank)值将是 B,C 及 D的 PageRank 总和。

继续假设 B 也有链接到 C,并且 D 也有链接到包括 A 的3个页面。一个页面不能投票 2 次。所有 B 给每个页面半票。以同样的逻辑,D 投出的票只有三分之一算到了 A 的PageRank 上。

换句话说,根据链出总数平分一个页面的 PR 值。

互联网中一个网页只有对自己的出链,或者几个网页的出链形成一个循环圈。那么在不断地迭代过程中,这一个或几个网页的PR值将只增不减,显然不合理。如下图中C网页就是刚刚说的只有对自己的出链的网页:

为了解决这个问题。我们想象一个随机浏览网页的人,假定他有一个确定的概率会输入网址直接跳转到一个随机的网页,并且跳转到每个网页的概率是一样的,于是则此图中A的PR值可表示为:

PageRank 计算公式


P1,P2…Pn 是被研究的页面,M(pi)是链如 Pi 页面的集合,L(pj)是Pj 链出页面的数量,而N是所有页面的数量。
PageRank 值是一个特殊矩阵中的特征向量。这个特征向量为:

d = 0.85

极客大学架构师训练营 大数据架构、Spark、Flink、机器学习、PageRank算法、神经网络 第13次作业相关推荐

  1. Java架构师,大数据架构师,高并发设计模式,机器学习知识点分享

    第一章:java精品课程目录大全 1.亿级流量电商详情页系统的大型高并发与高可用缓存架构实战 1课程介绍以及高并发高可用复杂系统中的缓存架构有哪些东西?32分钟 2基于大型电商网站中的商品详情页系统贯 ...

  2. java架构师和大数据架构师有哪些不同

    Java是我们熟悉的编程语言,大数据是当今科学技术的明星技术.Java和Java大数据架构的内容是否相同??两者有什么不同呢?今天小编就从Java和大数据架构的以下方面谈谈两者的区别. Java架构方 ...

  3. 极客大学产品经理训练营:业务架构与概念模型 第10课总结

    讲师:邱岳 1. 什么是状态图 系统中的概念或对象随着一些事件的发生,改变了状态,通常这个状态比较多.比较复杂时,我们需要用状态图来表示他们的边界,以及触发状态转换的活动. 2. 动手画 – 员工状态 ...

  4. 20200814极客时间从零学习大数据

    极客时间从零学习大数据: Yarn将MapReduce执行引擎和资源调度分离开来, yarn是大数据平台上最主流的资源调度系统 MapReduce,Spark 这类计算框架处理的业务场景都背称作批处理 ...

  5. java 用户日志_2020年阿里巴巴最全Java、架构师、大数据、算法PPT技术栈图册

    我只截图不说话,PPT大全,氛围研发篇.算法篇.大数据.Java后端架构!除了大家熟悉的交易.支付场景外,支撑起阿里双十一交易1682亿元的"超级工程"其实包括以下但不限于客服.搜 ...

  6. .NET 云原生架构师训练营(系统架构)--学习笔记

    ▲ 点击上方"DotNet NB"关注公众号 回复"1"获取开发者路线图 学习分享 丨作者 / 郑 子 铭 这是DotNet NB 公众号的第176篇原创文章 ...

  7. 极客大学产品经理训练营 极客时间购买课程-大作业

    1. 标题作者修改历史 标题:[极客时间]购买课程 作者 历史 时间 易筋 创建 2021-01-09 易筋 添加购买流程图6 2021-03-02 易筋 添加购买时序图7 2021-03-16 2. ...

  8. 【送书福利-第四期】从程序员到架构师:大数据量、缓存、高并发、微服务、多团队协同等核心场景实战书籍

    大家好,我是洲洲,欢迎关注,一个爱听周杰伦的程序员.关注公众号[程序员洲洲]即可获得10G学习资料.面试笔记.大厂独家学习体系路线等-还可以加入技术交流群欢迎大家在CSDN后台私信我! 送书福利-第四 ...

  9. 极客大学产品经理训练营:数据分析与商业分析,商业分析到业务分析 第18课总结

    讲师:邱岳 1. 产品经理眼中的利润.成本.收入 利润 = 收入 - 成本 奶茶利润率极高,达到60%左右.但是奶茶盈利比较难. 所有买水的产品利润率都极高,比如可口可乐,咖啡,奶茶等. 案例:有个面 ...

  10. 极客时间《从零开始学大数据》学习总结

    2019-05-22 关键字:无 花了一周多的时间学习了李智慧老师在极客时间上开设的<从零开始学习大数据>课程后感触良多,特意花了一天的时间写了一份总结,算是为我的这份课程的学习告个别. ...

最新文章

  1. 8 场 5 胜,微服务 VS 单体架构
  2. runat=server 所代表及隐含的意义
  3. JAVA并发-从缓存一致性说volatile 讲的很好
  4. iOS之深入解析CocoaPods的插件机制和如何加载插件整合开发工具
  5. Leetcode--174. 地下城游戏
  6. 淘宝面试-Strcpy与memcpy两函数的经典实现
  7. pandas表字段为空用其余表替换
  8. unity 创建NGUI字体
  9. svn里的branch、trunk、tag的用处
  10. 求最短路径算法之SPFA算法
  11. 连接mysql集群_mysql集群
  12. 逻辑库、物理库、分库分表(TDDL)
  13. Ubuntu下搜狗輸入法不能输入汉字
  14. 各类文件头及其十六进制标识
  15. 为ppt添加页码进度条
  16. java中最基本的数据类型,java中的基本数据类型
  17. Python之基本数据类型
  18. idc数据中心托管服务器需要注意的事项有哪些
  19. TeamViewer:“未就绪,请检查您的网络连接“
  20. C++课程设计之密码加密

热门文章

  1. docker java镜像_Docker容器引擎与架构
  2. c语言迷宫算法坐标怎么定义,[原创]递归随机迷宫生成算法详解
  3. 单片机r6/r7c语言怎么用,第5章MCU混合编程与C语言和汇编语言
  4. SOA概念的三个比喻
  5. 盒型详解及不同浏览器兼容
  6. flask使用pymysql连接MySQL,生成xls文件并下载到本地
  7. Centos网络管理(五)-Bonding、网络组和网桥
  8. struts2 传递json对象时的延迟加载异常处理方法
  9. [Linux]如何读取Kernel cmdline
  10. apache log分析