欢迎访问我的个人博客: sky的技术小屋

为了准备面试,对阿里公司、技术做了大致了解,分析了下数据分析师在阿里的用武之地。

UED

如何在互联网的大数据时代,将用研传统研究方法(问卷、访谈、测试等)与数据挖掘、分析方法结合,将对用户的洞察、研究与大数据结合,从而让我们更精准的了解用户、认识用户,甚至预测用户的行为和偏好,这既是我们的挑战,也是用研这个新兴行业的发展方向和机会。

共享业务平台

推荐系统

我们有着海量的商品、店铺以及用户数据,在这样大数据的环境下,信息过载成为严重制约网站发展的因素,个性化推荐系统应运而生。无论是在为买家选品提供个性化信息服务,还是为卖家做精细化店铺运营提供决策支持,以及网站自身的日常运营,推荐系统在其中都承担了非常重要的作用。

大数据

集团自主研发的单一离线计算集群已经达到5000台服务器的规模,单一集群有效存储空间为96PB、CPU总核数为115488个,达到世界领先水平,并已投入生产环境持续稳定运行。同时,实现了跨IDC多个离线计算集群间的大规模数据复制与访问,并对用户完全透明。

数据平台具备完整数据处理能力:

1)        多个数千台服务器组成的大型离线计算集群处理数百PB包括交易、支付、搜索、广告等多样的商业数据;

2)        流式计算集群和支持任意维度分析的即时计算集群给在线系统提供高并发实时计算和查询服务;

3)        分布式关系数据库为每天数千万笔在线交易提供高并发、高可靠事务支撑。

算法平台

算法平台为大数据统计分析、机器学习、和商业模型提供各种算法和分析工具,支持金融与信用、广告和推荐、商业智能、以及数据质量监控等业务场景,在5000台集群上提供MPI、BSP、MapReduce等多种计算模型,实现了大规模基础统计、分类、聚类、矩阵分解、图算法、评分卡、等一系列算法。

主要研发方向:

1)        加速推动搜索、广告、推荐、和社交网络应用模式的融合,开发以人群和兴趣为核心的新一代精准营销算法(适合算法建模、搜索和广告相关专业)。

2)        不断发展和改进机器学习算法的规模和性能,在大规模机器学习算法上不断创新,例如:Boosting、DeepLearning、随机算法、等(适合机器学习和数学专业)。

3)        基于最新的大数据基础统计理论进展,研发大数据传输和处理中的数据特征和数据质量分析与监控方法(适合数学和数理统计专业)。

4)        不断改进MPI和BSP等基本计算模型的规模和性能,并开发更简洁的分布式算法编程模型(适合分布式系统和编程语言专业)。

在线推广技术

算法技术

为了给买家提供最合适、最需要的商品,为卖家提供高转化率、高ROI的推广投放效果,为整个淘宝推广平台提升RPM,在用户意图分析、用户意图和推广的匹配、个性化推荐算法、推广CTR和转化率ROI提升、以及自然语言处理和机器学习基础算法的研究等方面都进行了大量的投入和深入的研究:

1)        优化搜索推广、搜索匹配等环节;挖掘和建立用户基本属性数据库;

2)        建立了针对海量数据和特征的统一机器学习平台,配合大规模机器学习算法平台,自动化的评测平台,为快速的算法试验及新业务模型的快速生成提供强大支持;

3)        基于用户行为数据,利用潜在语义分析算法(Topic Modeling)等技术,自动分析用户行为背后的动机和偏好;将Online learning和Deep learning等技术应用于推广匹配和点击率预估应用;

4)        优化了NLP基础算法、业内性能一流的eTREC推荐算法包,在分钟级别完成上亿用户和上亿商品的日志数据处理。

引擎技术

在淘宝巨大的流量和海量商品的基础上,推广引擎提供了稳定、可靠、高性能的商品精准推荐服务。解决了在10+亿推广词、几千万商品中,准确识别数十亿次网站访问的意图,精准、快速选取符合购物者需要的商品进行推荐,并帮助淘宝平台的销售商进行营销活动。

具有自主知识产权的分布式推广检索系统和在线推广ranking系统,能够提供几十亿推广索引、检索能力,为上百亿次查询提供推广;

1)        分布式大数据量处理系统、数据的实时计算系统、推广实时更新系统;

2)        基于RTB的推广交换系统Tanx,支持几十亿推广和20几家DSP的推广交换;

3)        实现了10多亿推广词和几千万商品的检索。latency在40ms的数量级进行推广商品推荐。目前支持流量峰值过百亿。

最后说下阿里的价值观:

阿里巴巴价值观

我们坚持“客户第一、员工第二、股东第三”。

阿里巴巴集团有六个核心价值观,是我们企业文化的基石和公司DNA的重要部分。该六个核心价值观为:

客户第一:客户是衣食父母

团队合作:共享共担,平凡人做非凡事

拥抱变化:迎接变化,勇于创新

诚信:诚实正直,言行坦荡

激情:乐观向上,永不言弃

敬业:专业执着,精益求精

阿里数据分析师面试准备二:对阿里数据分析师岗位的理解相关推荐

  1. oracle中join另一个表后会查询不出一些数据_面试必备 | 8个Hive数据仓工具面试题锦集!...

    是新朋友吗?记得先点蓝字关注我哦- 今日课程菜单 Java全栈开发 | Web前端+H5 大数据开发 | 数据分析  人工智能+Python | 人工智能+物联网 进入数据时代,大数据技术成为互联网发 ...

  2. 阿里最全面试116题:阿里天猫、蚂蚁金服、阿里巴巴面试题含答案

    [阿里天猫.蚂蚁.钉钉面试题目] 不会做别着急:文末有答案以及视频讲解,架构师资料 1. junit用法,before,beforeClass,after, afterClass的执行顺序 2. 分布 ...

  3. 阿里最全面试100题:阿里天猫、蚂蚁金服、阿里巴巴面试题含答案

    [阿里天猫.蚂蚁.钉钉面试题目] 1.微信红包怎么实现. 2.海量数据分析. 3.测试职位问的线程安全和非线程安全. 4.HTTP2.0.thrift. 5.面试电话沟通可能先让自我介绍. 6.分布式 ...

  4. 阿里最全面试116题:阿里天猫、蚂蚁金服、阿里巴巴面试题含答案...

    [阿里天猫.蚂蚁.钉钉面试题目] 不会做别着急:文末有答案以及视频讲解,架构师资料 1. junit用法,before,beforeClass,after, afterClass的执行顺序 2. 分布 ...

  5. 阿里、字节面试必撸,阿里大能总结 410 页 Java 并发编程手册全彩版,附录高并发面试真题及答案详解

    虽然说并发编程的第一原则是不要写并发程序.但是,随着硬件的驱动和国内互联网行业的飞速发展,对软件系统的并发量要求越来越高,传统的中间件和数据库已经成为性能的瓶颈.并发编程已经成为绕不开的话题,也慢慢成 ...

  6. 【大数据科普系列之二】大数据运维工程师

    大数据系列岗位要求,大数据运维可能是"技术含量最高"的职位之一,这里说的大数据运维主要是指hadoop生态体系方面的运维,在一些小公司或者传统行业的大公司也会使用oracle.db ...

  7. python大数据运维工程师_【大数据科普系列之二】大数据运维工程师

    大数据系列岗位要求,大数据运维可能是"技术含量最高"的职位之一,这里说的大数据运维主要是指hadoop生态体系方面的运维,在一些小公司或者传统行业的大公司也会使用oracle.db ...

  8. [ Android 五种数据存储方式之二 ] —— 文件存储数据

    关于文件存储,Activity提供了openFileOutput()方法可以用于把数据输出到文件中,具体的实现过程与在J2SE环境中保存数据到文件中是一样的. 文件可用来存放大量数据,如文本.图片.音 ...

  9. 【译Py】数据科学面试终极指南(二)

    欢迎来我的简书:呆鸟的译Py胡言 聘用数据科学家的行业   各行业对数据科学的要求不一样.每个行业都有专业知识,数据类型也因此不同,比如学校与银行关注的指标就不一样.   假如求职者恰巧对要面试的行业 ...

最新文章

  1. mysql 集群 增加服务器_MYSQL集群服务配置
  2. 谷歌翻译大型翻车现场:请服用“反坦克导弹”来缓解疼痛,UCLA:医生们要注意了...
  3. JDBC在getConnection之前为什么要调用Class.forName
  4. GNU make manual 翻译( 一百八十三)
  5. 数据挖掘导论读书笔记3--分类
  6. 手把手教你实现一个 AdaBoost
  7. python二级考试答案分值_2018全国计算机二级考试内容 科目分值设置
  8. 前后台页面跳转方式搜集
  9. hdu-5834 Magic boy Bi Luo with his excited tree(树形dp)
  10. soapUI-JDBC Request
  11. Ubuntu 删除dash 中无效的图标
  12. iOS音频的后台播放总结(后台网络请求歌曲,Remote控制,锁屏封面,各种打断)...
  13. 数据降维降维(二)----Laplacian Eigenmaps
  14. Eclipse 中 去掉控制台最大行数限制
  15. Streams AQ: qmn coordinator waiting for slave to start等待事件
  16. 软件工程案例学习-网上购书系统
  17. java 视频提取音频 | Java工具类
  18. 不禁网页的浏览器_什么浏览器不屏蔽网站
  19. 从Otherside土地稀缺体系聊起, Yuga Labs到底在布局什么?
  20. Javascript深入浅出之闭包

热门文章

  1. 最近一直在被螺旋槽成型铣刀的计算折磨着
  2. 【征集反馈】工作中让你印象最深刻、最想吐槽的一件事是什么?
  3. Tensorboard无法显示图片
  4. C++:重定义:符号重定义:变量重定义(二):解决变量重定义(const static)
  5. Java简单的对外接口验签
  6. 2020-10-23
  7. 《斯坦福高效睡眠法》读书笔记思维导图版,成年人的睡眠解决法
  8. 每日一题 极限值为5201314
  9. 基于STM32设计的健康检测设备(测温心率计步)
  10. 为什么pdf文件在一个计算机上能打开,拷贝到别的计算机上就打不开,显示文件已损坏?,pdf文件在电脑上打不开怎么办...