大数据导论期末大作业

目标：

对美国的疫情数据的爬取
将数据存入hive
利用spark对hive中的数据进行分析，提取疫情前十的洲
将分析结果可视化

一.对美国的疫情数据的爬取

这里利用新浪网的数据，网页链接是http://t.cn/A67OCJyZ
首先创造一个data.txt文件用来存储获取的数据

touch data.txt

获取数据的代码是

import requests
def getData(url):#设置代理headers={"user-agent":"Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML,like Gecko) Chrome/63.0.3239.132 Safari/537.36"}r=requests.get(url,headers=headers)try:r.encoding=r.apparent_encodingresult=r.textexcept:print("error")return resulturl='https://gwpre.sina.cn/interface/news/wap/ncp_foreign.d.json?citycode=SCUS0001&_=1591359081788&callback=jsoncallback'
data=getData(url)
file1 = open('data.txt','w',encoding='utf-8')
file1.write(data)
file1.close()

获取的数据进行部分展示

这这获取的数据都是字符串形式，我们需要给这种数据修改一下格式
这里用到了json模块
代码如下

import json
file=open('data.txt','r')
content=file.read()
data_dict=json.loads(content)
d=data_dict['data']
city_data=d['city']
file3=open('city_data.txt','w')
for item in city_data:List=item.values()for v in List:file3.write(str(v)+' ')file3.write('\n')

运行截图如下

以上数据为6月17日之前
这样我们就将数据收集完成了

二.将数据存入hive

1.启动Hadoop在sbin文件下输入命令./start-all.sh
2.启动Metastorehive --service metastore &
3.启动hivehive
4.创建数据库terminalcreate database terminal;
5.创建city_data表
create table city_data (name string,mapname string,connum int,susnum int,curenum int,deathnum int,conadd int,susadd int,cureadd int,deathadd int,is_show_entrance int,is_show_map int) row format delimited fields terminated by ' ';
6.将数据导入

load data local inpath '/home/tommy/modules/city_data.txt' into table city_data;

这样我们就将数据导入进了
部分命令与数据展示如下

三.利用spark对hive中的数据进行分析，提取疫情前十的洲

1.启动sparkspark-shell
2.创建一个连接hive的SparkSession对象
import org.apache.spark.sql.SparkSession
val spark=SparkSession.builder.enableHiveSupport().master("tommy:9083").getOrCreate
3.统计terminal数据库中city_data表中疫情最严重的前10个州，疫情的严重程度以现存确诊人数的多少来决定val df=spark.sql("select name,conNum from terminal.city_data order by conNum desc limit 10")
结果如下

经过分析发现，加州的确诊人数最多，看来加州的人民比较热情开放啊
使用spark容易内存不足，在执行命令的时候容易自己把自己杀死，如果虚拟机的内存是2GB的话建议改成4GB
4.现在将统计结果导入进MySQL
4.1进入MySQL创建数据库，并建表create database terminal character set utf8 collate utf8_general_ci;
create table city_data (name varchar(20),connum int);
4.2将数据输入到MySQL中df.write.mode("overwrite").format("jdbc").option("url","jdbc:mysql://tommy:3306/terminal").option("dbtable","city_data").option("user","debian-sys-maint").option("password","YjuKD5hqry7MGOAs").save()
如果不知道自己MySQL的user名和password的话可以在/etc/mysql中的debian.cnf文件中查询

四.将分析结果可视化

我们会利用Python将数据进行可视化，这里我们会用到三个个模块plotly，pymysql，pandas没有安装的可以使用一下代码pip insall plotly
pip insall pymysql
pip insall pandas
代码如下

# -*- coding: utf-8 -*-import pandas as pd
import pymysql
import plotly.graph_objs as go## 加上字符集参数，防止中文乱码
dbconn=pymysql.connect(host="localhost",database="terminal",user="debian-sys-maint",password="YjukD5hqry7MGOAs",port=3306,charset='utf8')#sql语句
sqlcmd="select * from city_data"#利用pandas 模块导入mysql数据
a=pd.read_sql(sqlcmd,dbconn)
#取前10行数据
b=a.head(10)
#print(b)bar = go.Bar(x=b['name'],y=b['conNum'],textposition = 'outside')
fig = go.Figure(bar)
fig.show()

显示结果如下