2019独角兽企业重金招聘Python工程师标准>>>

通过DataWorks归档日志服务数据至MaxCompute

官方指导文档:https://help.aliyun.com/document_detail/68322.html
但是会遇到大家在分区上或者DataWorks调度参数配置问题,具体拿到真实的case模拟如下:

创建数据源:

步骤1 进入数据集成,点击作业数据源,进入Tab页面。

步骤2 点击右上角
新增数据源,选择消息队列 loghub。

步骤3 编辑LogHub数据源中的必填项,包括数据源名称、LogHub
Endpoint、Project、AK信息等,并点击 测试连通性。

创建目标表:

步骤1 在左侧tab也中找到临时查询,并右键>新建ODPS SQL节点。

步骤2 编写建表DDL。
步骤3 点击
执行 按钮进行创建目标表,分别为ods_client_operation_log、ods_vedio_server_log、ods_web_tracking_log。

步骤4 直到日志打印成本,表示三条DDL语句执行完毕。

步骤5 可以通过desc 查看创建的表。

其他两张表也可以通过desc 进行查询。确认数据表的存在情况。

创建数据同步任务

数据源端以及在DataWorks中的数据源连通性都已经配置好,接下来就可以通过数据同步任务进行采集数据到MaxCompute上。
操作步骤
步骤1 点击
新建业务流程 并 确认提交,名称为 直播日志采集。

步骤2 在业务流程开发面板中依次创建如下依赖并命名。

依次配置数据同步任务节点配置:web_tracking_log_syn、client_operation_log_syn、vedio_server_log_syn。

步骤3 双击
web_tracking_log_syn 进入节点配置,配置项包括数据源(数据来源和数据去向)、字段映射(源头表和目标表)、通道控制。

根据采集的时间窗口自定义参数为:

当然其消费点位也可以按照自定义设置5分钟调度一次,从00:00到23:59,startTme=[yyyymmddhh24miss−10/24/60]系统前10分钟到endTime=[yyyymmddhh24miss-5/24/60]系统前5分钟时间(注意与上图消费数据定位不同),那么应该配置为ds=[yyyymmdd-5/24/60],hr=[hh24-5/24/60],min=[mi-5/24/60]。

步骤4 可以点击高级运行进行测试。

可以分别手工收入自定义参数值进行测试。

步骤3 使用SQL脚本确认是否数据已经写进来。如下图所示:

日志服务的日志正式的被采集入库,接下来就可以进行数据加工。
比如可以通过上述来统计热门房间、地域分布和卡顿率,如下所示:

具体SQL逻辑不在这里展开,可以根据具体业务需求来统计分析。依赖关系配置如上图所示。

原文链接

本文为云栖社区原创内容,未经允许不得转载。

转载于:https://my.oschina.net/u/3889140/blog/3034137

通过DataWorks数据集成归档日志服务数据至MaxCompute进行离线分析相关推荐

  1. 云原生架构下日志服务数据预处理

    简介:本篇实践将以某家国际教育机构为例,为大家详细介绍云原生架构下日志服务数据预处理以及对应的解决方案和最佳实践操作手册,方便用户快速对号入座,解决云原生架构下的常见日志难题. 直达最佳实践:[htt ...

  2. 如何利用大数据软件进行家政服务的选址要素收集与分析

    如何利用大数据软件进行家政服务的选址要素收集与分析 家政服务系统的研究越来越受到社会的重视,具有非常重要的意义.选址是家政服务系统得以蓬勃发展的关键环节.选址中,社会效益和经济效益是非常重要的.市场上 ...

  3. 协议数据单元PDU和服务数据单元SDU

    关注汽车工程师谈技术,一起学习技术 目录: 1. 协议数据单元PDU和服务数据单元SDU 2. AutoSAR中PDU和SDU的应用 3. 总结 ->返回总目录<- 协议数据单元PDU 大 ...

  4. 日志服务数据加工最佳实践: 从其他logstore拉取数据做富化

    概述 使用全局富化函数做富化时, 需要传递一个字典或者表格结构做富化. 参考构建字典与表格做数据富化的各种途径比较.  本篇介绍从使用资源函数res_log_logstore_pull从其他logst ...

  5. mysql导入dataworks_使用DataWorks数据集成从MySQL导入数据到GDB

    配置同步任务脚本 在DataWorks对应工作空间(相同区域)的数据开发环境, 在选择数据源>数据来源步骤选择数据源为MySQL和您配置好的MySQL数据源,以及需要导入到GDB中的数据库表. ...

  6. java数据集成是什么_数据集成 - BlueDavy之技术Blog - BlogJava

    数据集成 数据集成领域方面的相关文章. 阅读全文 posted @ 2007-08-19 02:27 BlueDavy 阅读(5817) | 评论 (0)  编辑 阅读全文 posted @ 2007 ...

  7. ChunJunOceanBase联合方案首次发布:构建一体化数据集成方案

    8月27日,ChunJun社区与OceanBase社区联合组织的开源线下Meetup成功举办,会上重磅发布了「OceanBase&ChunJun:构建一体化数据集成方案」. 这是OceanBa ...

  8. 阿里云DataWorks数据集成(DataX)架构实践分享

    阿里云DataWorks数据集成(DataX)架构&实践分享 分享嘉宾:罗海伟 阿里云 编辑整理:约理 中国科学院大学 目录 ▌为什么需要数据集成 数据集成的应用场景 数据集成的角色和地位 ▌ ...

  9. 日志服务Python消费组实战(三):实时跨域监测多日志库数据

    解决问题 使用日志服务进行数据处理与传递的过程中,你是否遇到如下监测场景不能很好的解决: 特定数据上传到日志服务中需要检查数据内的异常情况,而没有现成监控工具? 需要检索数据里面的关键字,但数据没有建 ...

最新文章

  1. 空气输入法!浙大最新研究:空中动动手指,就能给智能手表输入文本
  2. step在c语言中什么作用,C语言step-by-step(二)(数据类型)
  3. python中da_python学习 da4
  4. [CTO札记]互联网一定要免费吗?网络文学是继网络游戏后又一成功的收费模式...
  5. 数字图像处理:第十八章 彩色图象处理
  6. 报告如何单独添加水印?永洪BIV9.2解锁版权保护新方式
  7. 开箱即用——用这个模板快速统筹企业车辆安排
  8. JavaScript学习01
  9. 10.Configure One-to-Many(配置一对多关系)【Code-First系列】
  10. 大话存储系列21——存储系统内部IO 上
  11. 乐动手环app下载安装_乐动健康下载app_新版本手机乐动健康手环软件下载安装 安卓版 V2.08 - 罐头安卓网...
  12. 如何实现微信小程序的选项卡
  13. 一文助你入门HTML(❤ ω ❤)
  14. Note: LSR LER
  15. 第九届大唐杯省赛知识点梳理-5G无线技术(35%)
  16. Revit建模中 构件视图隐藏怎么操作?
  17. 【纯干货】标题里的大学问,月薪10000元以上的运营,是这样写宝贝标题的
  18. 动态路由协议 之 RIP协议 实图解析
  19. HTML学习之四CSS盒子
  20. “无剑胜有剑”软件大师之路的一点探索

热门文章

  1. [python 练习] 计算个税
  2. UE4 代理 BindRaw和BindUObject
  3. leetCode #26 Remove Duplicates from Sorted Array
  4. 项目管理 - 供应商选择 - 重点条件
  5. NSUserDefaults的一些用法
  6. 谷歌控制面板中的NetWrok
  7. mysql根据经纬度搜周边_mysql根据经纬度获取附近的商家
  8. JS原生封装时间函数 日期格式过滤
  9. (六)JS基础知识三(走进作用域和闭包)【三座大山之二,不会闭包,基本不会通过】
  10. vb php mysql_VB连接MYSQL数据的方法