大数据开发、只能硬件和图形图像需求增长最快,需求人员最多。对微博数据分析平台搭建,以及微博数据分析平台数据存储模块设计与实现。
  最好有一定软件开发方面的知识功底,比如了解网站开发、OA开发、Linux操作系统

引言、云端实验室环境

基于开源的ambari大数据平台,部署了7个节点:

一、 项目背景

企业可能对用户在微博上的评价内容有监测需求,如活动效果、用户对产品的评价,用户关注于产品的价格还是功能等等。

本平台用来获取微博的数据(数据量大、非结构化数据),进行数据分析,存储在云平台,将结果输出给企业。

二、 项目架构


2.1. 数据源
微博数据:

beCommentWeiboID 是否评论
beForwardWeiboId 是否转发微博
catchTime 抓取时间
commentCount 评论次数
content 内容
createTime 创建时间
info1 信息字段1
info2 信息字段2
info3 信息字段3
melevel no sure
musicurl 音乐链接
pic_list 照片列表(最多有三个)
praiseCount 点赞人数
reportCount 转发人数
source 数据来源
ueserId 用户id
videourl 视频连接
weiboId 微博id
weiboUrl 微博网址

2.2 数据层

本次数据层主要讲主数据仓库。
数据仓库是为应用层提供数据服务的。

数据仓库表设计

层次 库名 表名
ODS ODS ODS_WEIBO_LOG
ODS ODS ODS_WEIBO_EMOTION
DW DW DW_USER_CLIENT
DW DW DW_USER_KOL
DW DW DW_EMOTION_ANA
DW DW DW_VIDEO_ANA
DW DW DW_WEIBO_VOL
DW DW DW_USER_ACITIVE
APP APP APP_CLIENT_COUNT_TOP10
APP APP APP_IPHONE_USER
APP APP APP_POS_PROPOTION_TOP10
APP APP APP_REPORT_COUNT_TOP10
APP APP APP_MAX_POS_POWER_USER
APP APP APP_WEIBO_VOL_TOP10

数据仓库一般是离线数据分析使用,每天要跑的固化需求。如果是临时需求(提数),就要让大数据开发人员专门做一条数据报表出来。
2.3 平台层

ODS层:数据是清洗后的

2.4. APP区
从数据仓库区取数据分析展示

2.5 大数据分析与研发基本工作内容:
• 大数据平台数据仓库、ETL模块建模及设计开发
• 需求搜集、数据分析并参与设计数据制作
• 调度及数据质量的检测和监控,形成数据反馈优化
• 大数据平台接口开发与维护
• Spark/Hadoop等大数据计算平台的研发以及优化
• 大数据项目架构与规划

三、 平台演示
3.1 运维人员一般使用Ambari,作为大数据的管理平台,而给开发人员使用跳板机(或堡垒机)。

3.2 开发界面示例:

select count(*) from web_log_192g


3.3 公司开发时,运维一般给不同团队分配不同队列,不同队列会有不同资源

3.4 虽然Spark比较成熟,但大多数公司对离线分析还是用Hive多一些。

3.5 企业微博声量号的分析:
统计微博最新状态下被评论 最多的Top10账户id,
注意:每个用户的微博进行去重之后,筛选出同一条微博的最新状态

3.6 开发有两种方式,一种在Ambari web平台写脚本。

3.7 实际中使用引入一个开发平台。这里使用Hue平台

3.8 每天都要跑的定时任务,一般用这样的平台设置一些权限


3.9 查询页面面写经常用的SQL

3.10 保存点击Save As

3.11 平时开发的SQL都可以保存下来

3.12 如果要执行,那要设计一个执行器

3.13 企业中使用一般会针对这个界面进行二次开发
新建一个流程:

3.14 然后添加流程:


3.15选择数据:

3.16 固定的报表一般会配置WorkFlow,这里使用Oozie作为工作流平台

大数据云端实验室项目实战-微博舆情大数据分析有感相关推荐

  1. 学习笔记(01):大数据云端实验室项目实战-微博舆情大数据分析-大数据云端实验室项目实战-微博舆情大数据分析-1...

    立即学习:https://edu.csdn.net/course/play/8728/179818?utm_source=blogtoedu 环境 项目  海量数据

  2. 大数据用户画像项目实战 ETL数据抽取

    一.课程介绍 一个基于规则的大数据用户画像项目为什么要选这样一个项目:1.典型的批量计算场景2.基于规则.涵盖大数据批量处理的各个典型场景3.可视化.所有控制流程全程可视化4.可扩展.通过集成更多的计 ...

  3. 大数据实时+离线项目架构----智慧物流大数据平台(超流行框架!)

    智慧物流大数据平台 文章目录 智慧物流大数据平台 一.项目背景 二.逻辑架构 三.解决方案 技术亮点: 数据流转 四.项目的技术选型 4.1流式处理平台 4.2 分布式计算平台 4.3 海量数据存储 ...

  4. 大数据学习——Java项目实战-吃货联盟订餐系统

    吃货联盟订餐系统 项目需求 项目环境准备 项目覆盖技能点 阶段划分 难点分析 使用数组对象保存订单信息 访问订单信息 删除订单信息 计算订单的总金额 项目实现思路 数据初始化 实现菜单切换 实现查看餐 ...

  5. 【快速入门大数据】Hadoop项目实战-用户行为日志

    文章目录 用户日志 用处 日志生成渠道 日志内容 意义 离线数据处理架构 分析日志 引入解析UserAgent 单体实现 hadoop-MapReduce实现 效果图 总结 用户日志 用处 分析行为 ...

  6. 大数据基础以及项目视频下载(Spark、Hadoop等),面试必要学习

    本博客主要更新大数据相关的教学视频和相关项目实战视频,以便于帮助广大大数据学习者.喜欢的话关注.点赞和收藏喔! (1)大数据详解全套视频教程(硅谷全套) 链接:https://pan.baidu.co ...

  7. 2021年夏季学期“清华大学大数据能力提升项目” 招募《大数据实践课》企业合作项目...

    什么是大数据能力提升项目? 在全球大数据浪潮中,2014年清华大学大数据能力提升项目依托信息学院.经管学院.公管学院.社科学院.交叉信息研究院.五道口金融学院.深圳研究生院共7个学院协同共建,通过多学 ...

  8. 招募 | 《大数据实践课》企业合作项目,2020年夏季学期“清华大学大数据能力提升项目”...

    什么是大数据能力提升项目? 在全球大数据浪潮中,2014年清华大学大数据能力提升项目依托信息学院.经管学院.公管学院.社科学院.交叉信息研究院.五道口金融学院.深圳研究生院共7个学院协同共建,通过多学 ...

  9. 跨学科整合,打造大数据最强集团军:清华大学大数据能力提升项目宣讲会来了!...

    2019年8月28日晚,由清华大学研究生院和数据科学研究院(以下简称"数据院")共同举办的清华大学大数据能力提升项目新生宣讲会于清华大学明理楼拉开帷幕,来自校内二十多个院系的300 ...

  10. 清华大学大数据能力提升项目三名学生斩获2017年中国高校SAS数据分析大赛亚军

    2017年11月20日,2017中国高校SAS数据分析大赛颁奖典礼在钓鱼台国宾馆举行.清华大学今年首次组队参赛,在与北京大学.人民大学.复旦大学等1036支参赛团队激烈比拼后,清华大学大数据能力提升项 ...

最新文章

  1. 你需要学好知识图谱——用AI技术连接世界
  2. CentOS7下安装ELK三件套
  3. python openoffice_windows下安装UNO,配置AEROO_REPORT (Openoffice4已经升级为Python2.7.5版)...
  4. android安装python opencv_MacLinux环境在Android Studio中安装OpenCV
  5. android流程化步骤样式,Android RecyclerView 解析之绘制流程篇
  6. spring异常 java.lang.ClassNotFoundException: org.springframework.web.context.ContextLoaderServlet
  7. meta http-equiv=X-UA-Compatible content=IE=edge,chrome=1 /
  8. JavaSE——链表集合
  9. php 清除指定session,PHP如何操作指定的session?
  10. Android动态添加Fragment
  11. sql server 锁定_如何使用SQL Server 2014托管锁定优先级控制在线索引重建锁定
  12. react-redux-store
  13. python 决策树回归参数_python决策树之CART分类回归树详解
  14. 最小二乘法的曲线拟合
  15. w10计算机用户名密码忘了,电脑w10系统开机密码忘了
  16. python余弦函数_Python cos() 函数
  17. linux马达驱动程序,一种Linux系统的微型针式打印机及其驱动方法与流程
  18. mysql视图唯一id_Mysql的视图、存储过程、函数、索引全解析
  19. centos格式化优盘命令_Centos7 格式化分区并挂载
  20. WEB测试和App测试、Android和IOS测试区别

热门文章

  1. 艾滋病多学科协作诊治模式的实施与成效
  2. 数码管SR420561K SR410561K的引脚图
  3. Java开源测试工具
  4. 校招行测笔试-言语理解与表达
  5. 2018年java web前端(总结)前端要求和流行几个框架
  6. 蓝丝雨第八季高精端实战系列【商业实战DNF刷图】
  7. 墨墨背单词mysql_GitHub - flymysql/WeChat-applets: 微信小程序小鸡单词
  8. b站黑马程序员的python怎么样_如何评价传智播客旗下的黑马程序员?
  9. 智伴机器人wifi键在哪里_智伴机器人连不上WiFi
  10. zip 命令实现批量文件压缩