Python爬取中国大学排名,并且保存到excel中
前言
以下文章来源于数据分析和Python ,作者冈坂日川
今天发的是python爬虫爬取中国大学排名,并且保存到excel中,当然这个代码很简单,我用了半小时就写完了,我的整体框架非常清晰,可以直接拿去用,也希望有小白可以学习到关于爬虫的一些知识,当然我也只是在学习中,有不好的地方还麻烦大佬们指正!谢谢!
爬取中国大学排名
URL : http://m.gaosan.com/gaokao/265440.html
request 获取 html
beautiful soup 解析网页re 正则表达式匹配内容新建并保存 excel
1from bs4 import BeautifulSoup # 网页解析 获取数据2import re # 正则表达式 进行文字匹配3import urllib.request, urllib.error # 制定url 获取网页数据4import xlwt56def main():7 baseurl = "http://m.gaosan.com/gaokao/265440.html"8 # 1爬取网页9 datalist = getData(baseurl)10 savepath = "中国大学排名.xls"11 saveData(datalist,savepath)1213# 正则表达式14paiming = re.compile(r'<td>(.*)</td><td>.*</td><td>.*</td><td>.*</td><td>.*</td>') # 创建超链接正则表达式对象,表示字符串模式,规则15xuexiao = re.compile(r'<td>.*</td><td>(.*)</td><td>.*</td><td>.*</td><td>.*</td>')16defen = re.compile(r'<td>.*</td><td>.*</td><td>(.*)</td><td>.*</td><td>.*</td>')17xingji = re.compile(r'<td>.*</td><td>.*</td><td>.*</td><td>(.*)</td><td>.*</td>')18cengci = re.compile(r'<td>.*</td><td>.*</td><td>.*</td><td>.*</td><td>(.*)</td>')1920# 爬取网页21def getData(baseurl):22 datalist = []23 html = askURL(baseurl) # 保存获取到的网页源码24 # print(html)25 #【逐一】解析数据 (一个网页就解析一次)26 soup = BeautifulSoup(html, "html.parser") # soup是解析后的树形结构对象27 for item in soup.find_all('tr'): # 查找符合要求的字符串形成列表28 # print(item) #测试查看item全部29 data = [] # 保存一个学校的所有信息30 item = str(item)31 #排名32 paiming1 = re.findall(paiming, item) # re正则表达式查找指定字符串 0表示只要第一个 前面是标准后面是找的范围33 # print(paiming1)34 if(not paiming1):35 pass36 else:37 print(paiming1[0])38 data.append(paiming1)39 if(paiming1 in data):40 #学校名字41 xuexiao1 = re.findall(xuexiao, item)[0]42 # print(xuexiao1)43 data.append(xuexiao1)44 #得分45 defen1 = re.findall(defen, item)[0]46 # print(defen1)47 data.append(defen1)48 #星级49 xingji1 = re.findall(xingji, item)[0]50 # print(xingji1)51 data.append(xingji1)52 #层次53 cengci1 = re.findall(cengci, item)[0]54 # print(cengci1)55 data.append(cengci1)56 # print('-'*80)57 datalist.append(data) # 把处理好的一个学校信息放入datalist中58 return datalist596061# 得到指定一个url网页信息内容62def askURL(url):63 # 我的初始访问user agent64 head = { # 模拟浏览器头部信息,向豆瓣服务器发送消息 伪装用的65 "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.116 Safari/537.36"66 }67 # 用户代理表示告诉豆瓣服务器我们是什么类型的机器--浏览器 本质是告诉浏览器我们可以接受什么水平的文件内容68 request = urllib.request.Request(url, headers=head) # 携带头部信息访问url69 # 用request对象访问70 html = ""71 try:72 response = urllib.request.urlopen(request) # 用urlopen传递封装好的request对象73 html = response.read().decode("utf-8") # read 读取 可以解码 防治乱码74 # print(html)75 except urllib.error.URLError as e:76 if hasattr(e, "code"):77 print(e.code) # 打印错误代码78 if hasattr(e, "reason"):79 print(e.reason) # 打印错误原因80 return html818283# 3保存数据84def saveData(datalist, savepath):85 book = xlwt.Workbook(encoding="utf-8", style_compression=0) # 创建workbook对象 样式压缩效果86 sheet = book.add_sheet('中国大学排名', cell_overwrite_ok=True) # 创建工作表 一个表单 cell覆盖87 for i in range(0, 640):88 print("第%d条" % (i + 1))89 data = datalist[i]90 # print(data)91 for j in range(0, 5): # 每一行数据保存进去92 sheet.write(i , j, data[j]) # 数据93 book.save(savepath) # 保存数据表949596#主函数97if __name__ == "__main__": # 当程序执行时98 # #调用函数 程序执行入口99 main()
100 # init_db("movietest.db")
101 print("爬取完毕!")
具体实现效果如下
一共600多条数据
具体的过程在代码中也已经清晰的标注好备注,如有不懂可以留言,如果改进的地方,麻烦大佬们指正,谢谢!
Python爬取中国大学排名,并且保存到excel中相关推荐
- python中国最好大学排名_国内大学排名如何?用Python爬取中国大学排名
国内大学排名如何?用Python爬取中国大学排名准备阶段需要的库robots协议上代码代码框架*获取url信息*解析信息*输出数据*主函数结果 准备阶段 新手入门,不喜勿喷,这篇文章的内容其实也是在中 ...
- python爬取中国大学排名
教程来自:[Python网络爬虫与信息提取].MOOC. 北京理工大学 目标:爬取最好大学网前50名大学 代码如下: import requests from bs4 import Beautiful ...
- Python爬取淘宝商品信息保存到Excel
前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资 ...
- python爬取站长素材网页图片保存到ppt中
2019独角兽企业重金招聘Python工程师标准>>> 网站地址:http://sc.chinaz.com/tupian/index.html 直接上代码: import reque ...
- python基金筛选_Python爬取基金的排名信息,写入excel中方便挑选基金
原标题:Python爬取基金的排名信息,写入excel中方便挑选基金 基金是一种很好的理财方式,利用pyhton根据以往的跌幅情况进行基金选择,是一种很可靠的选择方式.本文以债券基金(稳定且风险较低) ...
- Python爬虫系列(二):爬取中国大学排名丁香园-用户名和回复内容淘宝品比价
Python爬虫系列(二):爬取中国大学排名&丁香园-用户名和回复内容&淘宝品比价 目录 Python爬虫系列(二):爬取中国大学排名&丁香园-用户名和回复内容&淘宝品 ...
- python爬取中国大学(高校)基本信息
Python爬取中国大学(高校)基本信息 python爬取中国大学(高校)基本信息 简单的一个小爬虫,获取中国高校基本信息 一.输出到excel表格结果 二.代码 // An highlighted ...
- 爬虫爬取中国大学排名top100并简单可视化分析
爬虫爬取中国大学排名top100并简单可视化分析. 目标链接 http://www.zuihaodaxue.cn/zuihaodaxuepaiming2019.html 实践环境 pycharm201 ...
- 爬取中国大学排名并以csv格式存储
爬取中国大学排名并以csv格式存储 import requests from bs4 import BeautifulSoup import bs4def get_content(url):try:u ...
最新文章
- JS-只能输入中文和英文
- sellhis股票平面图
- linux ssh禁止用户访问任何目录,怎么限制远程ssh用户访问特定的文件
- Apache - Storm
- LeetCode 1429. 第一个唯一数字(map+queue)
- 1 SAP DEBUG调试改表操作手册
- [CMake] include_directories 和 target_include_directories
- CentOS 安装Python3.x常见问题
- pythongetattribute_Python __getattribute__ vs __getattr__ 浅谈
- SELinux 案例 1
- : You have an error in your SQL syntax; check the manual that corresponds to your MySQL server versi
- 7个相同小球4个不同盒子_不会解公考行测的“排列组合题”?掌握这7招,轻松搞定...
- CMakeLists.txt 介绍
- 什么是组播?让我们一起解密组播协议(IGMP、PIM)
- Java学习路线:day6 数组
- 2万字雄文:饿了么核心交易系统 5 年演化史!
- 京东商品图片下载工具1.0 springboot版
- Spring Data JPA-JPA对象的四种状态
- asp.net校园二手物品交易网站
- 前端登录和注册页面的实现及验证
热门文章
- Hdu1208 Pascal's Travels
- 打印俄文字母表java,?俄语字母表、俄文键盘、傻瓜式读音法、书写法大全【一起学俄语】...
- mysql之数据库引擎
- 经济日报pdf批量下载整合
- 方法简单手把手教你,空闲时间在家剪辑视频,一天收入300多
- 【Lombok】@Log | 如何优雅的进行日志记录
- JAVA如何判断两个字符串是否相等
- java 锁 面试题_Java面试题-Java中的锁
- 两数之和(Two Sum)
- 弘辽科技:裁员、大降价,行业第一卖家“自救”