pandas是python的一个数据分析库,Numpy,Pandas,Matplotlib是用python进行数据分析的三剑客,但是很少人知道pandas也可以用来写爬虫


这里举一个很简单的例子

打开研招网,随便点进去了一个高校招生网,如图


这里只是举一个简单的例子,只是为了说明pandas在爬数据这里的用法,在以后碰到的其他场景中,可以结合这个例子,写出功能更加强大的代码

下图是我们要爬取的目标

接下来就是介绍pandas 中read_html这个方法的使用了

1.作用

快速获取在html中页面中table格式的数据

2.read_html函数

read_html函数的api:

pandas


实战开始

定位到table的位置


代码展示

可以看到简单的几行代码,就成功的爬下来了

import pandas as pd
url = 'http://gs.xauat.edu.cn/show.asp?id=2308'
tb = pd.read_html(url)
print(type(tb))

之后进行数据清洗,即可写成csv文件或者to_sql存入数据库,不赘述


这个简单的例子就讲完了,补充一下如果遇到反爬的403 可以换个思路,用requests发请求


还是很好用的,对吧!

pandas nat_利用pandas爬取研招网信息相关推荐

  1. 通过selenium八爪鱼爬取研招网各专业的初试信息

    任务需求: 因工作需要,需要爬取研招网各个高校每个专业研究生考试的初试科目信息. 处理步骤: 1,查看研招网页面(https://yz.chsi.com.cn/zsml/zyfx_search.jsp ...

  2. 利用Selenium爬取淘宝商品信息

    文章来源:公众号-智能化IT系统. 一.  Selenium和PhantomJS介绍 Selenium是一个用于Web应用程序测试的工具,Selenium直接运行在浏览器中,就像真正的用户在操作一样. ...

  3. 利用python爬取qq个性网图片

    利用python爬取qq个性网图片 网站头像布局大同小异,稍改代码即可爬取想要的头像. 不多bb,上代码. import requests from parsel import Selector im ...

  4. 爬取学校官网信息公告并存入数据库

    前段时间做了爬取学校信息并展示的小软件,爬取内容包括学校官网.教学管理系统.招生就业信息等,其中用到了QueryList库.翻页爬虫,定时爬虫,插入数据库等 不熟系QueryList的可以看一下我的这 ...

  5. 利用Scrapy爬取1905电影网

    本文将从以下几个方面讲解Scrapy爬虫的基本操作 Scrapy爬虫介绍 Scrapy安装 Scrapy实例--爬取1905电影网 相关资料 Scrapy 爬虫介绍 Scrapy是Python开发的一 ...

  6. 利用Selenium爬取煎蛋网妹纸图原来是这么简单!!!

    上期说到,下期更新爬取煎蛋网妹纸的selenium版本,它来了!!! 获取页面url信息 获取图片url信息 永久性保存图片 注释: 想要获取GeckoDriver安装包的小伙伴,可以给博主留言或者搜 ...

  7. 利用node爬取王者荣耀英雄信息,并存入数据库

    抓取 一.新建一个文件夹 文件夹不要是中文 二.下载第三方模块 cmd进入文件夹地址,输入:npm init -y进行初始化 输入npm i crawler mysql-ithm下载爬虫和node-o ...

  8. 利用python爬取当乐网游戏评论简单数据分析

    类库整理 jieba分词 github传送门 Pyecharts 数据可视化展示 github传送门 Wordcloud 词云 github传送门 或者 github传送门2 数据采集 来源说明:来自 ...

  9. 利用正则表达式爬取猫眼电影TOP100信息

    本文利用requests库和正则表达式爬取了猫眼电影TOP100电影信息,并将电影封面和标题.主演等文字信息保存在了本地.本文完整代码链接:https://github.com/iapcoder/Ma ...

  10. 利用selenium爬取携程酒店信息

    上节博客我们利用requests请求库,正则表达式来提取信息(链接https://mp.csdn.net/postedit/81865681),提到过使用selenium也可以抓取酒店信息,在这里利用 ...

最新文章

  1. Ruby测试框架Rspec初探
  2. Dev c++工具将C代码生成dll文件以及如何调用dll文件
  3. 回馈读者:赠花书一本!
  4. DNS resolving 占用大量日志
  5. 【转】vc6.0移植到VS2010遇到的问题,散分给大家,虽然分不多,各位帮忙
  6. 再谈 document.documentElement 与 document.body 的 scrollWidth、offsetWidth、clientWidth
  7. 编译wide-dhcpv6-20080615报错问题
  8. 【计算机组成原理】存储系统综合实验
  9. Ubuntu常用终端命令
  10. PHP yield简介
  11. 正则表达式验证注册页面
  12. java 信鸽推送demo_iOS中关于信鸽推送的使用demo详解
  13. java牛顿法求方程根_牛顿迭代法 求方程根
  14. 我的软件开发方法论2:复利方法观
  15. 关于嵌入式的发展方向
  16. python3基础教程pdf下载-《Python基础教程》(第3版)pdf电子书百度网盘下载
  17. apa引用要在文中吗_如何在研究论文中引用文献
  18. mysql 根据日期查询周、月、年起止时间
  19. 遥感影像条带噪声去除
  20. 大数据是什么?一篇文章正确告诉你

热门文章

  1. 60. cache
  2. java 设置sesion 生命周期
  3. android11电视,谷歌发布首款Android TV版 基于Android 11开发者预览版
  4. window.load和$(document).ready()事件
  5. 面试准备(集合部分)
  6. 小程序模板template
  7. 多多客接入(拼多多)
  8. maven自动部署到tomcat的问题
  9. hdu 1978 How many ways(dp)
  10. [030] 微信公众帐号开发教程第6篇-文本消息的内容长度限制揭秘(转)