前言

以下文章来源于数据分析和Python ,作者冈坂日川

今天发的是python爬虫爬取中国大学排名,并且保存到excel中,当然这个代码很简单,我用了半小时就写完了,我的整体框架非常清晰,可以直接拿去用,也希望有小白可以学习到关于爬虫的一些知识,当然我也只是在学习中,有不好的地方还麻烦大佬们指正!谢谢!

爬取中国大学排名

URL : http://m.gaosan.com/gaokao/265440.html

request 获取 html
beautiful soup 解析网页re 正则表达式匹配内容新建并保存 excel
  1from bs4 import BeautifulSoup  # 网页解析  获取数据2import re  # 正则表达式 进行文字匹配3import urllib.request, urllib.error  # 制定url 获取网页数据4import xlwt56def main():7    baseurl = "http://m.gaosan.com/gaokao/265440.html"8    # 1爬取网页9    datalist = getData(baseurl)10    savepath = "中国大学排名.xls"11    saveData(datalist,savepath)1213# 正则表达式14paiming = re.compile(r'<td>(.*)</td><td>.*</td><td>.*</td><td>.*</td><td>.*</td>')  # 创建超链接正则表达式对象,表示字符串模式,规则15xuexiao = re.compile(r'<td>.*</td><td>(.*)</td><td>.*</td><td>.*</td><td>.*</td>')16defen   = re.compile(r'<td>.*</td><td>.*</td><td>(.*)</td><td>.*</td><td>.*</td>')17xingji  = re.compile(r'<td>.*</td><td>.*</td><td>.*</td><td>(.*)</td><td>.*</td>')18cengci  = re.compile(r'<td>.*</td><td>.*</td><td>.*</td><td>.*</td><td>(.*)</td>')1920# 爬取网页21def getData(baseurl):22    datalist = []23    html = askURL(baseurl)  # 保存获取到的网页源码24    # print(html)25    #【逐一】解析数据  (一个网页就解析一次)26    soup = BeautifulSoup(html, "html.parser")  # soup是解析后的树形结构对象27    for item in soup.find_all('tr'):  # 查找符合要求的字符串形成列表28        # print(item)    #测试查看item全部29        data = []  # 保存一个学校的所有信息30        item = str(item)31        #排名32        paiming1 = re.findall(paiming, item)  # re正则表达式查找指定字符串 0表示只要第一个 前面是标准后面是找的范围33        # print(paiming1)34        if(not paiming1):35            pass36        else:37            print(paiming1[0])38            data.append(paiming1)39        if(paiming1 in data):40            #学校名字41            xuexiao1 = re.findall(xuexiao, item)[0]42            # print(xuexiao1)43            data.append(xuexiao1)44            #得分45            defen1 = re.findall(defen, item)[0]46            # print(defen1)47            data.append(defen1)48            #星级49            xingji1 = re.findall(xingji, item)[0]50            # print(xingji1)51            data.append(xingji1)52            #层次53            cengci1 = re.findall(cengci, item)[0]54            # print(cengci1)55            data.append(cengci1)56            # print('-'*80)57        datalist.append(data)  # 把处理好的一个学校信息放入datalist中58    return datalist596061# 得到指定一个url网页信息内容62def askURL(url):63    # 我的初始访问user agent64    head = {  # 模拟浏览器头部信息,向豆瓣服务器发送消息 伪装用的65        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.116 Safari/537.36"66    }67    # 用户代理表示告诉豆瓣服务器我们是什么类型的机器--浏览器  本质是告诉浏览器我们可以接受什么水平的文件内容68    request = urllib.request.Request(url, headers=head)  # 携带头部信息访问url69    # 用request对象访问70    html = ""71    try:72        response = urllib.request.urlopen(request)  # 用urlopen传递封装好的request对象73        html = response.read().decode("utf-8")  # read 读取 可以解码 防治乱码74        # print(html)75    except urllib.error.URLError as e:76        if hasattr(e, "code"):77            print(e.code)  # 打印错误代码78        if hasattr(e, "reason"):79            print(e.reason)  # 打印错误原因80    return html818283# 3保存数据84def saveData(datalist, savepath):85    book = xlwt.Workbook(encoding="utf-8", style_compression=0)  # 创建workbook对象   样式压缩效果86    sheet = book.add_sheet('中国大学排名', cell_overwrite_ok=True)  # 创建工作表  一个表单  cell覆盖87    for i in range(0, 640):88        print("第%d条" % (i + 1))89        data = datalist[i]90        # print(data)91        for j in range(0, 5):  # 每一行数据保存进去92            sheet.write(i , j, data[j])  # 数据93    book.save(savepath)  # 保存数据表949596#主函数97if __name__ == "__main__":  # 当程序执行时98    # #调用函数     程序执行入口99    main()
100    # init_db("movietest.db")
101    print("爬取完毕!")

具体实现效果如下

一共600多条数据

具体的过程在代码中也已经清晰的标注好备注,如有不懂可以留言,如果改进的地方,麻烦大佬们指正,谢谢!

Python爬取中国大学排名,并且保存到excel中相关推荐

  1. python中国最好大学排名_国内大学排名如何?用Python爬取中国大学排名

    国内大学排名如何?用Python爬取中国大学排名准备阶段需要的库robots协议上代码代码框架*获取url信息*解析信息*输出数据*主函数结果 准备阶段 新手入门,不喜勿喷,这篇文章的内容其实也是在中 ...

  2. python爬取中国大学排名

    教程来自:[Python网络爬虫与信息提取].MOOC. 北京理工大学 目标:爬取最好大学网前50名大学 代码如下: import requests from bs4 import Beautiful ...

  3. Python爬取淘宝商品信息保存到Excel

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资 ...

  4. python爬取站长素材网页图片保存到ppt中

    2019独角兽企业重金招聘Python工程师标准>>> 网站地址:http://sc.chinaz.com/tupian/index.html 直接上代码: import reque ...

  5. python基金筛选_Python爬取基金的排名信息,写入excel中方便挑选基金

    原标题:Python爬取基金的排名信息,写入excel中方便挑选基金 基金是一种很好的理财方式,利用pyhton根据以往的跌幅情况进行基金选择,是一种很可靠的选择方式.本文以债券基金(稳定且风险较低) ...

  6. Python爬虫系列(二):爬取中国大学排名丁香园-用户名和回复内容淘宝品比价

    Python爬虫系列(二):爬取中国大学排名&丁香园-用户名和回复内容&淘宝品比价 目录 Python爬虫系列(二):爬取中国大学排名&丁香园-用户名和回复内容&淘宝品 ...

  7. python爬取中国大学(高校)基本信息

    Python爬取中国大学(高校)基本信息 python爬取中国大学(高校)基本信息 简单的一个小爬虫,获取中国高校基本信息 一.输出到excel表格结果 二.代码 // An highlighted ...

  8. 爬虫爬取中国大学排名top100并简单可视化分析

    爬虫爬取中国大学排名top100并简单可视化分析. 目标链接 http://www.zuihaodaxue.cn/zuihaodaxuepaiming2019.html 实践环境 pycharm201 ...

  9. 爬取中国大学排名并以csv格式存储

    爬取中国大学排名并以csv格式存储 import requests from bs4 import BeautifulSoup import bs4def get_content(url):try:u ...

最新文章

  1. JS-只能输入中文和英文
  2. sellhis股票平面图
  3. linux ssh禁止用户访问任何目录,怎么限制远程ssh用户访问特定的文件
  4. Apache - Storm
  5. LeetCode 1429. 第一个唯一数字(map+queue)
  6. 1 SAP DEBUG调试改表操作手册
  7. [CMake] include_directories 和 target_include_directories
  8. CentOS 安装Python3.x常见问题
  9. pythongetattribute_Python __getattribute__ vs __getattr__ 浅谈
  10. SELinux 案例 1
  11. : You have an error in your SQL syntax; check the manual that corresponds to your MySQL server versi
  12. 7个相同小球4个不同盒子_不会解公考行测的“排列组合题”?掌握这7招,轻松搞定...
  13. CMakeLists.txt 介绍
  14. 什么是组播?让我们一起解密组播协议(IGMP、PIM)
  15. Java学习路线:day6 数组
  16. 2万字雄文:饿了么核心交易系统 5 年演化史!
  17. 京东商品图片下载工具1.0 springboot版
  18. Spring Data JPA-JPA对象的四种状态
  19. asp.net校园二手物品交易网站
  20. 前端登录和注册页面的实现及验证

热门文章

  1. Hdu1208 Pascal's Travels
  2. 打印俄文字母表java,?俄语字母表、俄文键盘、傻瓜式读音法、书写法大全【一起学俄语】...
  3. mysql之数据库引擎
  4. 经济日报pdf批量下载整合
  5. 方法简单手把手教你,空闲时间在家剪辑视频,一天收入300多
  6. 【Lombok】@Log | 如何优雅的进行日志记录
  7. JAVA如何判断两个字符串是否相等
  8. java 锁 面试题_Java面试题-Java中的锁
  9. 两数之和(Two Sum)
  10. 弘辽科技:裁员、大降价,行业第一卖家“自救”