基于Python+MySQL+Kettle+R的

某网站数据采集分析

哈喽!各位学员们

咱们第一期课程就要开始了

下面划重点!

高校院系

齐鲁工业大学数学与统计学院应用统计系

实训日期

2019年2月27日~3月7日

参加人数

70人

实训内容

本案例涉及数据采集、存储、查询、清洗和可视化分析等数据处理全流程所涉及的各种典型操作,涵盖Python、MySQL、Navicat、Kettle和R语言等系统和软件的使用方法。本案例适合高校大数据相关专业教学,可以作为学习大数据的综合实践案例。通过本案例,将有助于读者综合运用大数据知识以及各种工具软件,实现数据全流程操作。

案例简介

本次实践的数据来源于国内某网站Top100餐厅网页,包括商户名称、所在商区、口味、环境、服务评分以及人均消费等数据。

1

案例目的

案例综合实践的目的就在于通过对该网站数据进行统计分析,评估各城市餐厅、菜品,帮助游客选择适合自己的餐厅就餐。

  • 编写Python爬虫程序采集数据

  • 了解MySQL操作,存储数据

  • 了解Kettle进行数据清洗、转换流程和操作

  • 用Python/R/主流统计软件进行数据统计分析可视化展示

2

适用对象

  • 高校(高职)教师

  • 高校(高职)学生

  • 大数据学习者

  • 数据处理分析者

3

时间安排

本案例可以作为大数据课程结束后的“大作业”,或者可以作为学生暑期或寒假大数据相关专业实习实践基础案例,建议5-7天

4

硬件要求

水滴实验营提供本案例所有实验环境(8CPU、8G内存/人)及指导手册,免去高校教师实验环境配置与实验设计的烦恼。

5

软件工具

本案例所涉及的系统及软件包括:Windows, Python, Pycharm, MySQL, Navicat, Kettle, R及相关主流统计分析软件等。

6

案例任务

本案例需要完成以下实验任务:

  • Python编程爬取某网站数据,存储于MySQL数据库

  • 利用Kettle对MySQL表数据进行清洗,一份存储到MySQL新表,一份转换成CSV文件。

  • 使用Python/ R/主流统计软件进行数据统计分析、可视化展示

7

实验步骤概述

下面表格分别给出了每个实验步骤所需的知识储备、训练技能和任务清单。

表1:Python编程爬取某网站数据存储于MySQL数据库

知识储备

Python基础知识、使用、编程,MySQL数据库基础知识、Navicat使用

训练技能

Python编程调试、Navicat基本操作

任务清单

Python爬虫某网站数据、解析数据、创建数据库存储数据

表2:使用Kettle进行数据转换、清洗

知识储备

Kettle基本使用

训练技能

Kettle基本使用、数据清洗、数据转换

任务清单

使用Kettle建立数据清洗、转换流程,一是完成MySQL数据表清洗存储到新表,二是MySQL表数据清洗后转换成CSV文件

表3:利用Python/R/主流统计软件进行数据统计分析、可视化展示

知识储备

Python/R/主流统计软件工具选择其一,熟悉基本使用

训练技能

编程调试能力、数据统计分析能力、数据可视化设计

任务清单

编程调试、数据统计分析、数据可视化

8

实验结果示例

好啦!

第一期内容预告就是这样了

各位可以有其他问题的话

可以关注我们的公众号继续探索

小编在此

 期待你的关注

扫描下方“山东省云计算中心”微信公众号,

申请教师邀请码,成为我们的一员!

kettle大于0的转换成1_第一期实训周:基于Python+MySQL+Kettle+R的某网站数据采集分析...相关推荐

  1. jodconverter 2.2.2 +openoffice4.0 doc转换成pdf

    一.环境 linux下安装openoffice 1.首先先下载好需要的rpm包:Apache_OpenOffice_4.0.0_Linux_x86-64_install-rpm_zh-CN.tar.g ...

  2. pdf转换成jpg python_【PyMuPDF和pdf2image】Python将PDF转成图片PNG和JPG

    公众号:前言:在最近的测试中遇到一个与PDF相关的测试需求,其中有一个过程是将PDF转换成图片,然后对图片进行测试. 粗略的试了好几种方式,其中语言尝试了Python和Java,总体而言所找到的Pyt ...

  3. Linux平台下动态链接库.so转换成windiws平台下.dll文件并使用python调用

    问题起因: 在运行PointNet的可视化程序时,作者只提供了linux平台下的动态链接库程序源码,自己的windows平台下无法调用.发现是动态链接库的文件格式不对,遂学习如何将.so文件转换成.d ...

  4. angular 字符串转换成数字_蓝盟IT外包,Python算法的一般技术和嵌入式库|python|字符串|key|算法|调用...

    近年来,随着python着火,python也开始受到很多程序员的喜爱. 很多程序员已经开始使用python作为第一语言. 最近在python上刷问题时,我想去找python的刷问题常用库api和刷问题 ...

  5. 网络渗透测试实训周笔记3.0

    1.代码审计概念 代码审计,是对应用程序源代码进行系统性检查的工作.目的是为了找到并且修复应用程序在开发阶段存在的一些漏洞或者程序逻辑错误,避免程序漏洞被非法利用给企业带来不必要的风险. 代码审计不是 ...

  6. 第一个实训项目(3)

    和dao包一样 创建一个server包 CollegeService StatusService StudentService UserService 在Service层新建了一个Impl包 Coll ...

  7. string转换函数以及hnu暑期实训部分和A+B的例题

    目录 string和数值转换 函数stoi(s) stoll(s) stof(s) to_string(int n).to_string(double a) 例题 需要C++11的语法支持,具体操作时 ...

  8. 第一个实训项目(2)

    创建一个dao包 再在dao包里建立一个接口 package net.hj.student.dao; import net.hj.student.bean.College; /* 功能:学校数据访问接 ...

  9. 安卓第一阶段实训项目:基于存储卡音乐播放器(更新中……)

    文章目录 一.项目功能要求 二.涉及知识点 三.实现思路 1.基于存储卡音乐播放器V0.1 2.基于存储卡音乐播放器V0.2 3.基于存储卡音乐播放器V0.3 4.基于存储卡音乐播放器V0.4 5.基 ...

最新文章

  1. 图解使用CURL下载和上传文件
  2. NotePad++学习总结
  3. python交互模式切换_Python 交互式窗口 (REPL) - Visual Studio | Microsoft Docs
  4. nodejs+php+aes加密解密,php,crypto_php与nodejs的加密数据互通,php,crypto,node.js - phpStudy...
  5. vue-router路由、mixin混入、vue-resource、axios、计算属性watch、moment.js、vuex、vue-cli、数据双向绑定、搭建vue环境、vue实例、配置启动项
  6. 如何在maven repository手动下载jar包
  7. java标识符定义_Java标识符命名规范
  8. C# CSharp 回调函数
  9. C4D模型工具—平面切割
  10. Python3 百度图片 美女 下载 爬虫 多线程
  11. 使用 .reg 文件操作注册表
  12. html青蛙跳跳游戏,《小青蛙跳跳》小班游戏教案
  13. archlinux yaourt使用问题
  14. 为什么RISC-V中需要恒零寄存器?
  15. phase-portrait相轨迹
  16. utf-8 python 乱码prinnt u_python处理一些乱码的中文文本时decode('utf-8')报错的处理
  17. 《STL源码剖析》读书笔——(1)空间配置器
  18. Centos7挂载ISO镜像
  19. 毕业论文是手写还是计算机,毕业论文一般是手写还是打印?
  20. 原生微信小程序实现中英文切换(内涵Vant Weapp+语言切换完整项目)

热门文章

  1. SAP 电商云 Spartacus UI 同 SAP Customer Data Cloud 集成运行时的 api
  2. 什么是 SAP Business Function
  3. SAP Spartacus自定义指令cxOutlet的工作原理
  4. :focus-within的冒泡触发
  5. Angular 指令ngTemplateOutlet的运行原理单步调试
  6. 使用SAP API portal进行SAP SuccessFactors的API测试
  7. 电脑上安装了多个版本的nodejs,如何知道node命令调用的哪一个
  8. sap.m.list render initialization process
  9. 使用abapGit在ABAP On-Premises系统和SAP云平台ABAP环境之间进行代码传输
  10. How to bind multiple properties with formatter on one control