99.Spark大型电商项目-各区域热门商品统计-模块介绍
目录
各区域热门商品统计
作业提交
大数据方向的职业发展规划
用户行为分析意义
本篇文章记录各区域热门商品统计-模块介绍。
各区域热门商品统计
需求:根据用户指定的日期范围,统计各个区域下的最热门的top3商品
- 区域信息在哪里,各个城市的信息,城市是不怎么变化的,没有必要存储在hive里?MySQL,Hive和MySQL异构数据源使用,技术点
- hive用户行为数据,和mysql城市信息,join,关联之后是RDD?RDD转换Dataset,注册临时表,技术点
- 各个区域下各个商品的点击量,保留每个区域的城市列表数据?自定义UDAF函数,group_concat_distinct()
- product_id,join hive表中的商品信息,商品信息在哪里?Hive。商品的经营类型是什么?自定义UDF函数,get_json_object(),if()
- 获取每个区域的点击量top3商品?开窗函数;给每个区域打上级别的标识,西北大区,经济落后,区域上的划分,C类区域;北京、上海,发达,标记A类
- Spark SQL的数据倾斜解决方案?双重group by、随机key以及扩容表(自定义UDF函数,random_key())、内置reduce join转换为map join、shuffle并行度
作业提交
大数据方向的职业发展规划
大数据ETL开发工程师:Hadoop基础知识,Hive精通,SQL和ETL(数据的抽取、转换和导入),原始的大日志->数据仓库(多个表);java基础、python、shell脚本基础(大数据金字塔的最底端,职业瓶颈非常有限)
钻研Hadoop、学习Spark课程、自学Storm、精通java编程
转型
大数据开发工程师:Hadoop(HDFS、YARN,MapReduce过时),Spark,(Storm),J2SE(Java基础编程),Python、Shell,Hive(SQL),HBase,MySQL;负责写纯的MapReduce、Spark、Storm、Hive,程序,Eclipse建立工程,写完打成jar包,配置到公司的调度平台定期运行;要不就是部署到线上机器,等着J2EE平台来调用。
职业发展前景、薪资,肯定是比第一种要高一些的(至少高30%)
平行
J2EE开发工程师:纯J2EE
学习Hadoop视频、学习Spark视频、学习Storm视频,还没有达到精通
转型
数据平台J2EE开发工程师:2年、3年、5年的Java开发经验,慢慢往大数据方向来转,懂一点儿大数据的基础知识,Hadoop、Spark、Storm、HBase至少知道是怎么回事,能写一点简单的程序;J2EE精通;(前端)、J2EE,Web系统(界面),提交计算任务(指定参数)、通过界面查看漂亮的报表和表格。
大数据开发工程师+数据平台J2EE开发工程师
大数据平台高级开发工程师:精通Hadoop、Spark、Storm(源码级别的),Kafka、Flume、ZooKeeper;J2EE技术,精通,开源框架(Spring MVC、Spring、MyBatis),MySQL性能调优,Java虚拟机(JVM)调优,前端技术(JS熟练、JS框架,jQuery 、Bootstrap);
高并发系统架构(NoSQL、Redis、Memcached、Nginx、负载均衡、分布式)
大数据平台高级架构师
针对各种类型的大数据业务系统,都可以进行独立的规划、把控、技术选型、从底层大数据到上层J2EE的架构搭建、核心模块的编写、开发出来的大数据系统,面向百万级、千万级的用户,还可以实现高并发的系统架构
linux运维工程师
转型
大数据运维工程师:精通linux,hadoop、spark、storm、hbase(源码级别)集群的搭建与运维,集群的升级、二次开发(修改源码)、故障解决和排查,会一些编程语言,和脚本语言
R、SAS传统的分析师
转型
数据分析师:R、Spark R、分析算法、分析模型的建模
高端
大数据数据挖掘与机器学习工程师:编程语言、脚本语言、精通Hadoop、Spark、Storm,精通各种机器学习与数据挖掘的算法
大数据,真正要发挥出来他的价值,比如,直接去推动线上的业务,给公司赚取更多的利润,其实就是就要靠这种工程师,和高端的技术
大数据金字塔的顶端
知名大学(北大、清华、中科大)的至少硕士,就是这个研究方向的;博士;直接可以做这个金字塔顶端的大数据的工作
从上面说的那个系列,一步一步往上走,走到大数据平台高级架构师级别;然后再钻研数据挖掘、机器学习相关的算法和技术(Spark MLlib,机器学习,GraphX,图计算,Hadoop Mahout);走到大数据金字塔的最顶端。
用技术去改变世界,用技术去改变人们的生活,用技术去直接为企业创造价值和利润
用户行为分析意义
用户行为分析,很重要,大数据平台高级架构师;从Hadoop、Spark、实时计算、J2EE、前端,前面把控和规划,带领团队来实现和开发
(大数据最底端,简单的SQL、报表、ETL、取一些数据)
平台,意义在哪里?辅助公司内部的产品经理,更好的规划和设计产品;高管,能够对用户行为心理有数;分析师,提高他们的工作效率(自己要去做);给公司内部的人员带来了一些方便、效率上的提升、数据的支持;他们再做对应的一些事情,产品规划、战略调整、分析策略,对公司的利润有间接的支持和提升
大数据数据挖掘与机器学习工程师
算法,预测明年可能热卖的商品有哪些,公司重点去铺开和发展这些商品;预测公司选择哪些形象代言人可以给公司带来最好的形象,以及用户的增长率;
公司,可以直接根据这些人计算出来的一些数据、方案等,去调整公司的战略,是直接对公司的利润的提升、市场占有率的增加是有帮助的
99.Spark大型电商项目-各区域热门商品统计-模块介绍相关推荐
- 112.Spark大型电商项目-广告点击流量实时统计-需求分析、技术方案设计以及数据设计
目录 需求分析 技术方案设计 数据表设计 ad_user_click_count //用户点击广告表 ad_blacklist //用户黑名单 ad_stat //广告状态表 ad_province ...
- 50.Spark大型电商项目-用户访问session分析-top10热门品类之本地测试
本篇文章记录用户访问session分析-top10热门品类之本地测试. 在测试的过程中,到很多问题. 问题一:二次排序需要序列化,否则会在程序运行的时候报错. public class Categor ...
- 114.Spark大型电商项目-广告点击流量实时统计-使用高性能方式将实时计算结果写入MySQL中
目录 误区 Spark Streaming foreachRDD的正确使用方式 对于这种实时计算程序的mysql插入,有两种pattern(模式) 代码 AdUserClickCount.java I ...
- 43.Spark大型电商项目-用户访问session分析-top10热门品类之需求回顾以及实现思路分析
目录 需求回顾 top10热门品类 二次排序 实现思路分析 本篇文章将记录用户访问session分析-top10热门品类之需求回顾以及实现思路分析. 需求回顾 top10热门品类 计算出来通过筛选条件 ...
- 完整电商项目--(八)商品订单模块(1):订单结算与 mysql事务
文章目录 订单结算页面 重点:提交订单 创建订单数据表 注意事项: 订单表介绍 提交订单数据: 保存订单中的数据处理操作(业务逻辑复杂,代码不难,前面都写过) 首先是数据验证和加载 接着是具体得 业务 ...
- 大型电商项目3.0实战+支付宝、微信支付项目实战
须知:视频来源网络,侵权请联系删除! 大型电商项目3.0实战 获取方式 扫描下面二维码回复:A110 支付宝.微信支付项目实战 获取方式 扫描下面二维码回复:A106
- Django电商项目(六)商品详情页、列表页分页、商品搜索
Django电商项目 商品详情页 商品列表页 商品搜索 全文检索 安装和配置 索引文件生成 全文检索的使用 改变分词方式 商品详情页 新建detail.html {% extends 'base_de ...
- 1. Python_Django项目之大型电商项目介绍
1.开发项目目的 联系已掌握的知识点 发现新的知识点 掌握开发技巧 掌握项目结构 增加项目经验 2.所用技术 语言:Python3(Django4) 数据库:MySQL web服务器:Nginx+uw ...
- 5.大型电商项目之创建前端展示模板并调用
1. templates前端模板的使用 1.1 templates前端模板的创建 首先,我们页面很多地方是相似的,这里就创建一个基础模板,不同的地方,对模板内容的block进行修改即可:对于相同的地方 ...
最新文章
- 《虚拟机深入应用实践》已经出版
- SQLite相关知识
- C# DES加密类,16位的加密。
- 做机器人,必过的一道坎!
- php tea 算法 源码,PHP教程:TEA算法实现
- Python 35个内置函数,你都ok吗?
- SSH连接慢与反向解析(转)
- Java中的反射和Java中的访问修饰符
- 初入前端框架bootstrap--Web前端
- vimium插件_chrome插件神奇的vimium人性化设置
- 专访世纪互联:公共云才是真正云计算
- CentOS 6.3 上网慢问题
- 如何做个bat文件改变系统时间格式_老板发来一份表格名单,100个人按姓名建文件夹,同事五秒就完成...
- 一把数学上完美的尺子(哥隆尺)
- LSTM matlab实现
- 计算机测试英语词汇,英语听说测试-计算机专业英语词汇.pdf
- payjs插件php,基于payjs的discuz支付插件制作
- 新项目中用 C# or Java
- MT9630/9632 遥控器配置
- 单片机c语言什么是ea,单片机ie是什么?怎么用?
热门文章
- 用微信小程序开店之九——小程序组件5:“表单”(3)
- 为什么电脑只有C盘,没有A/B盘?答案竟如此随意……
- 怎么修改Mac密码?新鲜出炉的修改MAC电脑密码教程
- 广州大学 计算机网络实验 2020版 配置网络路由
- zookeeper使用(三):项目中zookeeper的配置 和 zookeeper C API的使用
- 双十一LoanMarket压力测试报告
- 实物溯源再添新彩|众享比特获评2020年度中国食品追溯优秀供应商
- 捕食搜索算法(PS)-求解TSP问题
- FFmpeg的H.264解码器源代码简单分析:宏块解码(Decode)部分-帧间宏块(Inter)...
- Linux系列——文件名多一个空格怎么去掉?