数据仓库的项目的概况

1. 项目适用于哪些行业?
线上的互联网行业,例如淘宝,安居客等等

2. 我准备选择一个什么样的业务公司来写这个项目?
我准备选择一个线上的互联网公司根据公司所产生的埋点日志数据和业务数据做数仓项目

3. 项目中主要开发哪些模块?分别有什么用途?
数据仓库 用户画像 个性推荐
数仓:数据存储运算,
用户画像:根据埋点数据给用户贴标签
个性推荐:根据用户画像,精准的给用户进行精准投放推荐

4. 项目的整体技术架构我能自己画出来吗?
前段数据源(pc端,移动端,业务系统数据库)
数据采集汇聚(flume采集日志文件(离线)和sqoop采集日志文件(实时))
数据预处理(数据清洗,解析json,数据继承,信息回补,guid生成)
数仓ODS层 (PC端埋点日志表,移动端埋点日志表,用户注册信息表,订单信息表)
数仓DWD层 (事件全量明细,广告事件明细,流量事件明细,交互事件明细,商品信息宽表,订单信息宽表,物流信息宽表,评论信息宽表)
数仓DWS层 ()
数仓ADS层 (流量多维报表,日新统计报表,日活统计报表,用户留存报表,用户活跃报表,广告概况报表,路径分析报表,转化漏斗报表)
数据服务层 导到数据库中去,(mysql,hbase…) presto内存跨源查询
web区域: 应用层 (不属于大数据,推荐引擎,广告投放,数据运营分析,数据运营分析)
azkaban 任务调度系统 (避免每天写重复的代码)
atlas 元数据管理系统 (数据资产 web系统)

5. 项目内核之上的应用系统都有哪些?
运营分析平台(界面)
精准营销平台 (界面)(用户画像标签表)
精准广告投放系统(后端)
个性化推荐系统(后端)

6. 运营分析平台你能稍作描述吗?
在线交互式连接数据分析(OLAP)(参考神策数据)

7. 项目中处理的数据有哪些种类?(有埋点日志数据 和 业务数据)

两大块数据的意义:收集用户行为,收集用户操作事件(点赞,评论,收藏)每一个行为都是一条日志a)埋点日志数据 :可以埋在前段gs语言(html页面/H5页面/app/微信小程序)也可以埋在后端,多数用json格式数据表示
埋点日志数据中大都有  时间信息  地域信息  用户属性  终端设备属性信息  事件信息终端设备属性信息  (手机类型imei入网许可,ims手机卡的码,max无线网卡地址)
事件信息  (你在手机上干啥了?点击,收藏,打开浏览器,)b)业务数据 :业务系统里面业务功能所所需要的以及所产生的数据
当你登陆的时候也会用到你当时注册的被封装到数据库的数据,这个数据就是业务数据,
当你点开淘宝宝贝详情出现的提前封装好的数据,这个数据就是业务数据.
淘宝录入的商品信息,你添加到导购物车商品的数据被封装好点了他也是业务数据.
凡是业务系统上的表都是业务数据

8. 埋点日志中都有哪些数据内容?
时间信息 地域信息 用户属性 终端设备属性信息 事件信息

9. 你们埋点日志中收集的事件都有哪些?能举几个例子吗?
埋点日志数据 :可以埋在前段gs语言(html页面/H5页面/app/微信小程序)也可以埋在后端,多数用json格式数据表示
埋点日志数据中大都有 时间信息 地域信息 用户属性 终端设备属性信息 事件信息

终端设备属性信息  (手机类型imei入网许可,ims手机卡的码,max无线网卡地址)
事件信息  (你在手机上干啥了?点击,收藏,打开浏览器,)

10.什么是业务数据?业务数据都是怎么产生的?
业务数据 :业务系统里面业务功能所所需要的以及所产生的数据
当你登陆的时候也会用到你当时注册的被封装到数据库的数据,这个数据就是业务数据,
当你点开淘宝宝贝详情出现的提前封装好的数据,这个数据就是业务数据.
淘宝录入的商品信息,你添加到导购物车商品的数据被封装好点了他也是业务数据.
凡是业务系统上的表都是业务数据

11.能举例说明你们公司的业务数据有哪些吗?
有业务系统产生这些信息本来都在业务系统所依赖的数据库中,要调到hdfs中做分析,通过sparksql.read.jdbc(192.168.13…)调入
会员信息 商品的属性信息 优惠活动信息

12.数据库是指的什么?都有哪些应用场景?
数据库不带感情色彩的就是软件 例如:mysql oracle db2
主要用于 联机事物处理 OLTP(on live transaxtion proeess)
时刻保持联机在线状态 频繁的在做(增删改查)请求能够得到响应
支撑强有力的事物控制(事物的四个特征: 原子 ,一致, 隔离,持久 )

数据库也是可以数据分析的但是有弊端:数据库运算为单机运算效率低,
数据库储存空间有限制数据满了以后会降低数据的安全性,当数据出现效率低,
安全性低之后会造成客户流失,客户粘性下降,从而影响公司的收益,
如果在hdfs中运算则会避免这样的现象出现,因为hdfs是集群运算会提高运算效率,hdfs海量存储空间大,

13.数据库和数据仓库有什么联系和区别?(数据库=>工具,数据仓库=>应用)
数据库将的是数据库本身,而数据仓库讲的是应用领域把公司的数据集成一起相对稳定而且还能动反映历史的变化.
数据仓库(data warehouse)是一个 面向主题点的 集成的 相对稳定的 反应历史变化的数据集合,用于支持管理运营决策
(通俗来说数仓就是一个数据备份和数据管理的系统)
数仓是稳定的 业务系统不会去操作你的数仓的,业务系统操作的你的业务系统的数据库,仓库主要是存储一餐存进来的就不改了,
数仓是的反应历史变化的 业务数据库更新了不会保留历史数据但是数仓就会保存历史数据所以它能反映历史变化的.

14.数据分析有哪两种形式?分别有什么区别或特点?
1)联机分析(OLAP)
2)离线数据分析
两者的混合体是更长见的情况.

数据仓库的项目的概况相关推荐

  1. SAP基底数据仓库实战项目(序章)

    @数据仓库(SAP为基底,SqlServer,Oracle) SAP基底数据仓库实战项目(序章) 当你看到这篇文章得时候,想你必定是在搜寻数据仓库相关资料,或是遇到问题,兜兜转转来到这里.你们好,我是 ...

  2. 数据仓库 — 01_项目需求分析与技术选型(数仓概念、项目需求及架构设计、数据生成模块格式要求)

    文章目录 1 数据仓库的概念 2 项目需求分析 3 项目框架 3.1 技术选型 3.2 系统数据流程设计 3.3 框架版本选型 3.4 服务器选型 3.5 集群资源规划设计 3.5.1 集群规模计算 ...

  3. SAP基底数据仓库实战项目(从底层到前端完成一张数据报表(下))

    继续上次的从SAP底层到前端完成一张报表的分享.回顾流程,完成一张资产负债表大致分六个步骤: 报表模板的制作 根据SAP系统表结构,制作"资产负债表"相关数据逻辑(利用TCODE事 ...

  4. 企业级BOM项目建设概况

    导读:BOM管理是汽车制造商一个普遍的管理难点,对于国内汽车制造业而言,更是制约了企业业务目标的达成与核心竞争力的提升. 企业级BOM项目建设背景 企业级的BOM体系在整车厂起到信息"脊椎& ...

  5. 【商城秒杀项目】-- 概况

    什么是秒杀 秒杀场景一般会在电商网站举行一些活动或者节假日在12306网站上抢票时遇到.对于电商网站中一些稀缺或者特价商品,电商网站一般会在约定时间点对其进行限量销售,因为这些商品的特殊性,会吸引大量 ...

  6. 如何使用Google底部导航栏创建通知徽章

    Bottom navigation bars make it simple for users to access and shift between main views with a single ...

  7. 如何将项目发布到阿里云_尚硅谷基于阿里云搭建数据仓库(实时)项目视频发布...

    11月,尚大发布了基于阿里云搭建数据仓库离线项目视频,不少爱学习的小伙伴表示,对实时项目视频翘首以盼,听了大海哥的课,腰不酸了,腿不疼了,一口气从头听到尾还不过瘾,沉迷于学习无法自拔-- 说曹操,大海 ...

  8. 应用实践 | 特步集团基于 Apache Doris 的零售数据仓库项目实践

    背景 特步集团有限公司是中国领先的体育用品企业之一,主要从事运动鞋.服装及配饰的设计.开发.制造和销售. 为了提高特步零售 BI 主题数据分析的准确性和时效性,降低对 SAP HANA 平台的依赖,2 ...

  9. 数据仓库项目(第一节)项目介绍、模拟数据产生

    目录 项目介绍 数据仓库概念 项目需求分析 项目框架 技术选型 系统架构图设计 系统数据流程设计 模拟数据产生 埋点数据基本格式 事件日志数据 商品点击(display) 商品详情页(newsdeta ...

最新文章

  1. 如何正确实施人工智能
  2. Linux KVM虚拟网络的桥接
  3. 一、mysql分表简单介绍
  4. u盘重置后计算机不显示了,u盘不显示盘符怎么办
  5. Spring Boot中使用Swagger CodeGen生成REST client
  6. java%4d_java积累
  7. [渝粤教育] 广东-国家-开放大学21秋期末考试中国近现代史纲要(A)10881k1
  8. C语言经典回溯算法之解决数的组合问题(详解)
  9. HTML/CSS/JS/PHPの役割
  10. JSON解析方式 gson
  11. 关于ElementUI中MessageBox弹框的取消键盘触发事件(enter,esc)关闭弹窗(执行事件)的解决方法
  12. ireport 分页配置每也显示多少条_最简洁的分页插件PageHelper
  13. u盘在磁盘管理可以显示 但是电脑中找不到_电脑无法识别U盘?5步操作让办公族轻松搞定!...
  14. 2021年BATJ30套大厂Android经典高频面试题,附答案
  15. python拼接sql语句字符串 无效字符,Python拼接SQL字符串的方法
  16. 电影院订票选座小程序,电影购票小程序,微信小程序电影院订票系统毕设作品
  17. window10无法访问局域网共享文件夹
  18. 用数学规划的方式求解优化问题
  19. 一些《集成电路与光刻机》笔记
  20. 陈松松:新人做短视频项目,四步找准自己的定位

热门文章

  1. html5字体动画效果,7款超华丽的HTML5 Canvas文字动画特效
  2. CentOS 7 服务器密码忘记的解决办法
  3. 电脑出现Hold Escape key to prevent StartlsBack from loading,导致电脑闪屏。
  4. 使用支付宝支付出现问题:交易订单处理失败 请稍后再试 ALI38173
  5. Python调用字符映射表输入特殊符号
  6. 映客首推 “直播春晚”:小年夜登场开启线上狂欢
  7. 【Python小程序】隐藏表白图:“你永远都不知道我喜欢你”(建议保存)
  8. 正则表达式(三)正则的捕获
  9. 简单易懂之什么是重排和重绘?
  10. android自定义插值器_自定义缓动插值器,可在Android中实现有意义的动作