目录

各区域热门商品统计

作业提交

大数据方向的职业发展规划

用户行为分析意义


本篇文章记录各区域热门商品统计-模块介绍。

各区域热门商品统计

需求:根据用户指定的日期范围,统计各个区域下的最热门的top3商品

  1. 区域信息在哪里,各个城市的信息,城市是不怎么变化的,没有必要存储在hive里?MySQL,Hive和MySQL异构数据源使用,技术点
  2. hive用户行为数据,和mysql城市信息,join,关联之后是RDD?RDD转换Dataset,注册临时表,技术点
  3. 各个区域下各个商品的点击量,保留每个区域的城市列表数据?自定义UDAF函数,group_concat_distinct()
  4. product_id,join hive表中的商品信息,商品信息在哪里?Hive。商品的经营类型是什么?自定义UDF函数,get_json_object(),if()
  5. 获取每个区域的点击量top3商品?开窗函数;给每个区域打上级别的标识,西北大区,经济落后,区域上的划分,C类区域;北京、上海,发达,标记A类
  6. Spark SQL的数据倾斜解决方案?双重group by、随机key以及扩容表(自定义UDF函数,random_key())、内置reduce join转换为map join、shuffle并行度

作业提交

大数据方向的职业发展规划

大数据ETL开发工程师:Hadoop基础知识,Hive精通,SQL和ETL(数据的抽取、转换和导入),原始的大日志->数据仓库(多个表);java基础、python、shell脚本基础(大数据金字塔的最底端,职业瓶颈非常有限)

钻研Hadoop、学习Spark课程、自学Storm、精通java编程

转型

大数据开发工程师:Hadoop(HDFS、YARN,MapReduce过时),Spark,(Storm),J2SE(Java基础编程),Python、Shell,Hive(SQL),HBase,MySQL;负责写纯的MapReduce、Spark、Storm、Hive,程序,Eclipse建立工程,写完打成jar包,配置到公司的调度平台定期运行;要不就是部署到线上机器,等着J2EE平台来调用。

职业发展前景、薪资,肯定是比第一种要高一些的(至少高30%)

平行

J2EE开发工程师:纯J2EE

学习Hadoop视频、学习Spark视频、学习Storm视频,还没有达到精通

转型

数据平台J2EE开发工程师:2年、3年、5年的Java开发经验,慢慢往大数据方向来转,懂一点儿大数据的基础知识,Hadoop、Spark、Storm、HBase至少知道是怎么回事,能写一点简单的程序;J2EE精通;(前端)、J2EE,Web系统(界面),提交计算任务(指定参数)、通过界面查看漂亮的报表和表格。

大数据开发工程师+数据平台J2EE开发工程师

大数据平台高级开发工程师:精通Hadoop、Spark、Storm(源码级别的),Kafka、Flume、ZooKeeper;J2EE技术,精通,开源框架(Spring MVC、Spring、MyBatis),MySQL性能调优,Java虚拟机(JVM)调优,前端技术(JS熟练、JS框架,jQuery 、Bootstrap);
高并发系统架构(NoSQL、Redis、Memcached、Nginx、负载均衡、分布式)

大数据平台高级架构师

针对各种类型的大数据业务系统,都可以进行独立的规划、把控、技术选型、从底层大数据到上层J2EE的架构搭建、核心模块的编写、开发出来的大数据系统,面向百万级、千万级的用户,还可以实现高并发的系统架构

linux运维工程师

转型

大数据运维工程师:精通linux,hadoop、spark、storm、hbase(源码级别)集群的搭建与运维,集群的升级、二次开发(修改源码)、故障解决和排查,会一些编程语言,和脚本语言

R、SAS传统的分析师

转型

数据分析师:R、Spark R、分析算法、分析模型的建模

高端

大数据数据挖掘与机器学习工程师:编程语言、脚本语言、精通Hadoop、Spark、Storm,精通各种机器学习与数据挖掘的算法

大数据,真正要发挥出来他的价值,比如,直接去推动线上的业务,给公司赚取更多的利润,其实就是就要靠这种工程师,和高端的技术

大数据金字塔的顶端

知名大学(北大、清华、中科大)的至少硕士,就是这个研究方向的;博士;直接可以做这个金字塔顶端的大数据的工作

从上面说的那个系列,一步一步往上走,走到大数据平台高级架构师级别;然后再钻研数据挖掘、机器学习相关的算法和技术(Spark MLlib,机器学习,GraphX,图计算,Hadoop Mahout);走到大数据金字塔的最顶端。

用技术去改变世界,用技术去改变人们的生活,用技术去直接为企业创造价值和利润

用户行为分析意义

用户行为分析,很重要,大数据平台高级架构师;从Hadoop、Spark、实时计算、J2EE、前端,前面把控和规划,带领团队来实现和开发

(大数据最底端,简单的SQL、报表、ETL、取一些数据)

平台,意义在哪里?辅助公司内部的产品经理,更好的规划和设计产品;高管,能够对用户行为心理有数;分析师,提高他们的工作效率(自己要去做);给公司内部的人员带来了一些方便、效率上的提升、数据的支持;他们再做对应的一些事情,产品规划、战略调整、分析策略,对公司的利润有间接的支持和提升

大数据数据挖掘与机器学习工程师

算法,预测明年可能热卖的商品有哪些,公司重点去铺开和发展这些商品;预测公司选择哪些形象代言人可以给公司带来最好的形象,以及用户的增长率;

公司,可以直接根据这些人计算出来的一些数据、方案等,去调整公司的战略,是直接对公司的利润的提升、市场占有率的增加是有帮助的

99.Spark大型电商项目-各区域热门商品统计-模块介绍相关推荐

  1. 112.Spark大型电商项目-广告点击流量实时统计-需求分析、技术方案设计以及数据设计

    目录 需求分析 技术方案设计 数据表设计 ad_user_click_count //用户点击广告表 ad_blacklist //用户黑名单 ad_stat  //广告状态表 ad_province ...

  2. 50.Spark大型电商项目-用户访问session分析-top10热门品类之本地测试

    本篇文章记录用户访问session分析-top10热门品类之本地测试. 在测试的过程中,到很多问题. 问题一:二次排序需要序列化,否则会在程序运行的时候报错. public class Categor ...

  3. 114.Spark大型电商项目-广告点击流量实时统计-使用高性能方式将实时计算结果写入MySQL中

    目录 误区 Spark Streaming foreachRDD的正确使用方式 对于这种实时计算程序的mysql插入,有两种pattern(模式) 代码 AdUserClickCount.java I ...

  4. 43.Spark大型电商项目-用户访问session分析-top10热门品类之需求回顾以及实现思路分析

    目录 需求回顾 top10热门品类 二次排序 实现思路分析 本篇文章将记录用户访问session分析-top10热门品类之需求回顾以及实现思路分析. 需求回顾 top10热门品类 计算出来通过筛选条件 ...

  5. 完整电商项目--(八)商品订单模块(1):订单结算与 mysql事务

    文章目录 订单结算页面 重点:提交订单 创建订单数据表 注意事项: 订单表介绍 提交订单数据: 保存订单中的数据处理操作(业务逻辑复杂,代码不难,前面都写过) 首先是数据验证和加载 接着是具体得 业务 ...

  6. 大型电商项目3.0实战+支付宝、微信支付项目实战

    须知:视频来源网络,侵权请联系删除! 大型电商项目3.0实战 获取方式 扫描下面二维码回复:A110 支付宝.微信支付项目实战 获取方式 扫描下面二维码回复:A106

  7. Django电商项目(六)商品详情页、列表页分页、商品搜索

    Django电商项目 商品详情页 商品列表页 商品搜索 全文检索 安装和配置 索引文件生成 全文检索的使用 改变分词方式 商品详情页 新建detail.html {% extends 'base_de ...

  8. 1. Python_Django项目之大型电商项目介绍

    1.开发项目目的 联系已掌握的知识点 发现新的知识点 掌握开发技巧 掌握项目结构 增加项目经验 2.所用技术 语言:Python3(Django4) 数据库:MySQL web服务器:Nginx+uw ...

  9. 5.大型电商项目之创建前端展示模板并调用

    1. templates前端模板的使用 1.1 templates前端模板的创建 首先,我们页面很多地方是相似的,这里就创建一个基础模板,不同的地方,对模板内容的block进行修改即可:对于相同的地方 ...

最新文章

  1. 《虚拟机深入应用实践》已经出版
  2. SQLite相关知识
  3. C# DES加密类,16位的加密。
  4. 做机器人,必过的一道坎!
  5. php tea 算法 源码,PHP教程:TEA算法实现
  6. Python 35个内置函数,你都ok吗?
  7. SSH连接慢与反向解析(转)
  8. Java中的反射和Java中的访问修饰符
  9. 初入前端框架bootstrap--Web前端
  10. vimium插件_chrome插件神奇的vimium人性化设置
  11. 专访世纪互联:公共云才是真正云计算
  12. CentOS 6.3 上网慢问题
  13. 如何做个bat文件改变系统时间格式_老板发来一份表格名单,100个人按姓名建文件夹,同事五秒就完成...
  14. 一把数学上完美的尺子(哥隆尺)
  15. LSTM matlab实现
  16. 计算机测试英语词汇,英语听说测试-计算机专业英语词汇.pdf
  17. payjs插件php,基于payjs的discuz支付插件制作
  18. 新项目中用 C# or Java
  19. MT9630/9632 遥控器配置
  20. 单片机c语言什么是ea,单片机ie是什么?怎么用?

热门文章

  1. 用微信小程序开店之九——小程序组件5:“表单”(3)
  2. 为什么电脑只有C盘,没有A/B盘?答案竟如此随意……
  3. 怎么修改Mac密码?新鲜出炉的修改MAC电脑密码教程
  4. 广州大学 计算机网络实验 2020版 配置网络路由
  5. zookeeper使用(三):项目中zookeeper的配置 和 zookeeper C API的使用
  6. 双十一LoanMarket压力测试报告
  7. 实物溯源再添新彩|众享比特获评2020年度中国食品追溯优秀供应商
  8. 捕食搜索算法(PS)-求解TSP问题
  9. FFmpeg的H.264解码器源代码简单分析:宏块解码(Decode)部分-帧间宏块(Inter)...
  10. Linux系列——文件名多一个空格怎么去掉?