导入模块

from bs4 import BeautifulSoup as bfs
import matplotlib.pyplot as plt
import requests
import pandas as pd
import seaborn as sns
%matplotlib inlinesns.set_style()

直接爬取网页源代码

url = "http://master.pbcsf.tsinghua.edu.cn/content/details303_14172.html"
response = requests.get(url)
html = response.text.encode('iso-8859-1').decode('utf-8')

BS4解析

soup =  bfs(html, 'html.parser')
datas = soup.select("table")[0].text.replace("\n"," ").split()

保存数据

values = [[] for i in range(7)]
n=len(datas)
for i in range(7,n):values[i%7].append(datas[i])
keys=[]
for i in range(0,7):keys.append(datas[i])
df = dict(zip(keys, values))
data_frame=pd.DataFrame(df)
data_frame.to_excel("THU2018.xlsx")

读取数据

data = pd.read_excel("THU2018.xlsx")
data.head()

提取目标数据

df = pd.DataFrame([data.PreExam,data.ReExam,data.Total],index=['PreExam', 'ReExam','Total'])
df = df.T
df.head()
df.describe()

查看数据统计信息

总共录取114名考试,初试平均分387分,最低分370分,最高分422分,50%的数据为386分,数据分析与前面一样就不做了

df.plot(kind='density', subplots=True, layout=(2,2), sharex=False, figsize=(15,10))

Python 爬取五道口金融考研数据以及数据分析相关推荐

  1. python实战|python爬取58同城租房数据并以Excel文件格式保存到本地

    python实战|python爬取58同城租房数据并以Excel文件格式保存到本地 一.分析目标网站url 目标网站:https://cq.58.com/minsuduanzu/ 让我们看看网站长啥样 ...

  2. python爬取微博热搜数据并保存!

    主要用到requests和bf4两个库将获得的信息保存在d://hotsearch.txt下importrequests;importbs4mylist=[]r=requests.get(ur- 很多 ...

  3. Python爬取京东任意商品数据实战总结

    利用Python爬取京东任意商品数据 今天给大家展示爬取京东商品数据 首先呢还是要分思路的,我分为以下几个步骤: 第一步:得到搜索指定商的url 第二步:获得搜索商品列表信息 第三步:对得到的商品数据 ...

  4. python 爬取24小时天气数据

    python 爬取24小时天气数据 1.引入相关库 # -*- coding: utf-8 -*- import requests import numpy as np 关于爬虫,就是在网页上找到自己 ...

  5. 用python爬取基金网信息数据,保存到表格,并做成四种简单可视化。(爬虫之路,永无止境!)

    用python爬取基金网信息数据,保存到表格,并做成四种简单可视化.(爬虫之路,永无止境!) 上次 2021-07-07写的用python爬取腾讯招聘网岗位信息保存到表格,并做成简单可视化. 有的人留 ...

  6. python爬淘宝app数据_一篇文章教会你用Python爬取淘宝评论数据(写在记事本)

    [一.项目简介] 本文主要目标是采集淘宝的评价,找出客户所需要的功能.统计客户评价上面夸哪个功能多,比如防水,容量大,好看等等. [二.项目准备工作] 准备Pycharm,下载安装等,可以参考这篇文章 ...

  7. PYTHON爬取汽车之家数据

    PYTHON爬取汽车之家数据 使用知识 使用BeautifulSoup模块 使用正则表达式 使用到多线程爬取 使用说明 使用前请安装BeauifulSoup 起始页面: https://www.aut ...

  8. 利用python爬取58同城简历数据

    利用python爬取58同城简历数据 最近接到一个工作,需要获取58同城上面的简历信息(http://gz.58.com/qzyewu/).最开始想到是用python里面的scrapy框架制作爬虫.但 ...

  9. 利用python爬取58同城简历数据_利用python爬取58同城简历数据-Go语言中文社区

    利用python爬取58同城简历数据 最近接到一个工作,需要获取58同城上面的简历信息(http://gz.58.com/qzyewu/).最开始想到是用python里面的scrapy框架制作爬虫.但 ...

最新文章

  1. Python学习日记day4 字符编码
  2. 在离线环境中使用.NET Core
  3. JEECG v2与v3两个版本的区别说明
  4. apache虚拟主机名不区分大小写的解决办法
  5. NGN学习笔记5——IMS技术
  6. 手机APP游戏/软件/资源下载站/软件盒子源码
  7. 负指数分布的性质_负指数分布.ppt
  8. c语言转义字符 pdf,C语言教程讲义 pdf版
  9. 详解 python 的 切片
  10. win10配置计算机时强制关机,老鸟讲解Win10设置远程系统强制关机的详尽处理要领...
  11. java nurbs几何库_OpenGL超级宝典笔记——NURBS与曲面细分
  12. vue weex 打电话
  13. 电脑系统更新后桌面的文件全部不见了怎么恢复?
  14. 1. OpenCV 可视化(Viz)——相机位置
  15. C/C++代码混淆器
  16. STM32单片机:定时器TIM输出PWM波
  17. SQL Server中@@ROWCOUNT的用法
  18. Centos7 内存插槽信息
  19. 计算机课学生评价用语,关于学生上课的评语及评课用语
  20. EMP v5.3 技术白皮书

热门文章

  1. 小程序容器根据比例适应图片
  2. 菜菜的sklearn课堂——随机森林
  3. 2021世界智能网联汽车大会观感
  4. 破解公私域流量割裂难题 京东营销云有新招
  5. 华为HCIE云计算之FA云桌面发放(Microsoft AD方式)
  6. 如何将sql文件导入数据库中
  7. 推荐几个有用的电子书供下载
  8. NFS,RS宕机问题
  9. 亚马逊新开发者账号SP-API Developer申请
  10. 隐藏展开的html代码,CSS隐藏div盒子及html内容方法