数据源分析

1 user_visit_action

user_visit_action 表:存放网站或者APP 每天的点击流数据。通俗地讲,就是用户对网站/APP 每点击一下,就会产生一条存放在这个表里面的数据。包含的字段解析如下表所示:

字段名称

说明

date

日期,代表这个用户点击行为是在哪一天发生的

user_id

用户 ID,唯一标识某个用户

session_id

Session ID,唯一标识某个用户的一个访问 session

page_id

页面 ID,点击了某些商品/品类,也可能是搜索了某个关键词,然后进入了某个页面,页面的 id

action_time

动作时间,这个点击行为发生的时间点

search_keyword

搜索关键词,如果用户执行的是一个搜索行为,比如说在网站/app 中,搜索了某个关键词,然后会跳转到商品列表页面;

click_category_id

点击品类 ID,可能是在网站首页,点击了某个品类(美食、电子设备、电脑)

click_product_id

点击商品 ID,可能是在网站首页,或者是在商品列表页,点击了某个商品(比如呷哺呷哺火锅 XX 路店 3 人套餐、iphone 6s)

order_category_ids

下单品类 ID,代表了可能将某些商品加入了购物车,然后一次性对购物车中的商品下了一个订单,这就代表了某次下单的行为中,有哪些商品品类,可能有 6 个商品,但是就对应了 2 个品类,比如有 3 根火腿肠(食品品类),3 个电池(日用品品类)

order_product_ids

下单商品 ID,某次下单,具体对哪些商品下的订单

pay_category_ids

付款品类 ID,对某个订单,或者某几个订单,进行了一次支付的行为,对应了哪些品类

pay_product_ids

付款商品 ID,支付行为下,对应的哪些具体的商品

city_id

城市 ID,代表该用户行为发生在哪个城市 ,和城市信息表做关联

2 user_info

user_info 表,是一张普通的用户基本信息表;这张表中存放了网站/APP 所有注册用户的基本信息,字段解析如表所示:

3 product_info

product_info 表,是一张普通的商品基本信息表;这张表中存放了网站/APP 所有商品的基本信息。

4 city_info

5 实时数据

程序每5 秒向Kafka 集群写入数据,格式:timestamp , area,city ,userid adid

电商数据源分析-尚硅谷大数据培训相关推荐

  1. Tableau工具使用简介-尚硅谷大数据培训

    Tableau概述 作为领先的数据可视化工具,Tableau具有许多理想的和独特的功能.其强大的数据发现和探索应用程序允许您在几秒钟内回答重要的问题.您可以使用Tableau的拖放界面可视化任何数据, ...

  2. Spark 内存管理存储内存管理_尚硅谷大数据培训

    RDD的持久化机制 弹性分布式数据集(RDD)作为 Spark 最根本的数据抽象,是只读的分区记录(Partition)的集合,只能基于在稳定物理存储中的数据集上创建,或者在其他已有的 RDD 上执行 ...

  3. SQL语法应用介绍-尚硅谷大数据培训

    1 CREATE 1.1 CREATE DATABASE 用于创建指定名称的数据库,语法如下: CREATE DATABASE [IF NOT EXISTS] db_name 如果查询中存在IF NO ...

  4. ElasticSearch环境配置-尚硅谷大数据培训

    ElasticSearch(单节点)环境配置 // 通过Wget下载ElasticSearch安装包 [bigdata@linux ~]$wget https://artifacts.elastic. ...

  5. Azkaban环境配置-尚硅谷大数据培训

    Azkaban(单节点)环境配置 1 安装Git // 安装GIT [bigdata@linux ~]$ sudo yum install git // 通过git下载Azkaban源代码 [bigd ...

  6. Hadoop源码编译介绍-尚硅谷大数据培训

    前期准备工作 1.CentOS联网 使用能连接外网的CentOS系统虚拟机,使用root用户进行编译,避免出现文件夹权限问题. 2.Jar包准备 从官网下载以下安装包 (1)hadoop-3.1.3- ...

  7. 电商数仓描述_笔记-尚硅谷大数据项目数据仓库-电商数仓V1.2新版

    架构 项目框架 数仓架构 存储压缩 Snappy与LZO LZO安装: 读取LZO文件时,需要先创建索引,才可以进行切片. 框架版本选型Apache:运维麻烦,需要自己调研兼容性. CDH:国内使用最 ...

  8. 尚硅谷大数据技术之电商用户行为数据分析

    尚硅谷大数据技术之电商用户行为分析 第1章 项目整体介绍 1.1 电商的用户行为 电商平台中的用户行为频繁且较复杂,系统上线运行一段时间后,可以收集到大量的用户行为数据,进而利用大数据技术进行深入挖掘 ...

  9. 尚硅谷大数据项目之电商数仓(4即席查询数据仓库)

    尚硅谷大数据项目之电商数仓(即席查询) (作者:尚硅谷大数据研发部) 版本:V4.0 第1章 Presto 1.1 Presto简介 1.1.1 Presto概念 1.1.2 Presto架构 1.1 ...

最新文章

  1. 怎么把位域合成一个字节_C语言中字节对齐和位域
  2. map获取数字与int比较
  3. Vue引用其他组件,但组件某些部分不需要时的简单处理
  4. 将cocos2dx项目从VS移植到Eclipse
  5. 总奖金40万元,图神经网络赛道baseline发布!教你用DGL做图任务
  6. 给定数字的全部组合实现方式
  7. 【转】:andriod 开发环境工具下载地址(2)
  8. hibernate、easyui、struts2整合
  9. day 05总结(格式化输出的三种方式/基本运算符/if判断)
  10. 60-008-024-使用-命令-flink如何动态支持依赖jar包提交
  11. AI风向标:发改委重大工程项目公布,首个无人车路测试点落户亦庄
  12. java循环判断要点_Java 循环条件判断好题锦集
  13. 用单片机C语言精确延时(定时)的方法
  14. select默认选中
  15. 服务器系统 usb不识别u盘,无法识别的usb设备怎么办(实测成功解决U盘修复教程)...
  16. 玻璃盖板丝印质量及尺寸在线检测方案
  17. CSAPP实验二:二进制炸弹(Bomb Lab)
  18. mysql字符串转日期 格式:(年-月-日 时:分:秒.毫秒)
  19. 实时语义分割网络 BiSeNet(附代码解读)
  20. Tobii眼动仪系列软件安装与使用

热门文章

  1. 巨无霸Win8PE X64服务器维护专用,昨非在线PE系统03PE+WIN8PE+WIN10PE维护专用超精简U盘启动盘v6.23...
  2. lapack在windows安装使用mingw编译出现错误
  3. ppt_第十三章_DNA_数术推导与RNA_X_THF_DD元基芯片与肽逻辑
  4. 【OCR技术系列之四】基于深度学习的文字识别(3755个汉字)
  5. Oracle 12c 新特性之varchar2长度最大值支持到32767
  6. 数据库数据 | TCGA数据库33种癌症的 transcriptome profiling (RNA-Seq) 数据
  7. 多人访问亚马逊后台-用户权限设置
  8. Swoole server浅析
  9. 嵌入式工程师需要具备的能力
  10. 电视家没有cctv5的解决方法,一招轻松看奥运会!