前言

以下文章来源于数据分析和Python ，作者冈坂日川

今天发的是python爬虫爬取中国大学排名，并且保存到excel中，当然这个代码很简单，我用了半小时就写完了，我的整体框架非常清晰，可以直接拿去用，也希望有小白可以学习到关于爬虫的一些知识，当然我也只是在学习中，有不好的地方还麻烦大佬们指正！谢谢！

爬取中国大学排名

URL : http://m.gaosan.com/gaokao/265440.html

request 获取 html
beautiful soup 解析网页re 正则表达式匹配内容新建并保存 excel

  1from bs4 import BeautifulSoup  # 网页解析  获取数据2import re  # 正则表达式 进行文字匹配3import urllib.request, urllib.error  # 制定url 获取网页数据4import xlwt56def main():7    baseurl = "http://m.gaosan.com/gaokao/265440.html"8    # 1爬取网页9    datalist = getData(baseurl)10    savepath = "中国大学排名.xls"11    saveData(datalist,savepath)1213# 正则表达式14paiming = re.compile(r'<td>(.*)</td><td>.*</td><td>.*</td><td>.*</td><td>.*</td>')  # 创建超链接正则表达式对象，表示字符串模式，规则15xuexiao = re.compile(r'<td>.*</td><td>(.*)</td><td>.*</td><td>.*</td><td>.*</td>')16defen   = re.compile(r'<td>.*</td><td>.*</td><td>(.*)</td><td>.*</td><td>.*</td>')17xingji  = re.compile(r'<td>.*</td><td>.*</td><td>.*</td><td>(.*)</td><td>.*</td>')18cengci  = re.compile(r'<td>.*</td><td>.*</td><td>.*</td><td>.*</td><td>(.*)</td>')1920# 爬取网页21def getData(baseurl):22    datalist = []23    html = askURL(baseurl)  # 保存获取到的网页源码24    # print(html)25    #【逐一】解析数据  （一个网页就解析一次）26    soup = BeautifulSoup(html, "html.parser")  # soup是解析后的树形结构对象27    for item in soup.find_all('tr'):  # 查找符合要求的字符串形成列表28        # print(item)    #测试查看item全部29        data = []  # 保存一个学校的所有信息30        item = str(item)31        #排名32        paiming1 = re.findall(paiming, item)  # re正则表达式查找指定字符串 0表示只要第一个 前面是标准后面是找的范围33        # print(paiming1)34        if(not paiming1):35            pass36        else:37            print(paiming1[0])38            data.append(paiming1)39        if(paiming1 in data):40            #学校名字41            xuexiao1 = re.findall(xuexiao, item)[0]42            # print(xuexiao1)43            data.append(xuexiao1)44            #得分45            defen1 = re.findall(defen, item)[0]46            # print(defen1)47            data.append(defen1)48            #星级49            xingji1 = re.findall(xingji, item)[0]50            # print(xingji1)51            data.append(xingji1)52            #层次53            cengci1 = re.findall(cengci, item)[0]54            # print(cengci1)55            data.append(cengci1)56            # print('-'*80)57        datalist.append(data)  # 把处理好的一个学校信息放入datalist中58    return datalist596061# 得到指定一个url网页信息内容62def askURL(url):63    # 我的初始访问user agent64    head = {  # 模拟浏览器头部信息，向豆瓣服务器发送消息 伪装用的65        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.116 Safari/537.36"66    }67    # 用户代理表示告诉豆瓣服务器我们是什么类型的机器--浏览器  本质是告诉浏览器我们可以接受什么水平的文件内容68    request = urllib.request.Request(url, headers=head)  # 携带头部信息访问url69    # 用request对象访问70    html = ""71    try:72        response = urllib.request.urlopen(request)  # 用urlopen传递封装好的request对象73        html = response.read().decode("utf-8")  # read 读取 可以解码 防治乱码74        # print(html)75    except urllib.error.URLError as e:76        if hasattr(e, "code"):77            print(e.code)  # 打印错误代码78        if hasattr(e, "reason"):79            print(e.reason)  # 打印错误原因80    return html818283# 3保存数据84def saveData(datalist, savepath):85    book = xlwt.Workbook(encoding="utf-8", style_compression=0)  # 创建workbook对象   样式压缩效果86    sheet = book.add_sheet('中国大学排名', cell_overwrite_ok=True)  # 创建工作表  一个表单  cell覆盖87    for i in range(0, 640):88        print("第%d条" % (i + 1))89        data = datalist[i]90        # print(data)91        for j in range(0, 5):  # 每一行数据保存进去92            sheet.write(i , j, data[j])  # 数据93    book.save(savepath)  # 保存数据表949596#主函数97if __name__ == "__main__":  # 当程序执行时98    # #调用函数     程序执行入口99    main()
100    # init_db("movietest.db")
101    print("爬取完毕！")

具体实现效果如下

一共600多条数据

具体的过程在代码中也已经清晰的标注好备注，如有不懂可以留言，如果改进的地方，麻烦大佬们指正，谢谢！

Python爬取中国大学排名，并且保存到excel中相关推荐

python中国最好大学排名_国内大学排名如何？用Python爬取中国大学排名
国内大学排名如何?用Python爬取中国大学排名准备阶段需要的库robots协议上代码代码框架*获取url信息*解析信息*输出数据*主函数结果准备阶段新手入门,不喜勿喷,这篇文章的内容其实也是在中 ...
python爬取中国大学排名
教程来自:[Python网络爬虫与信息提取].MOOC. 北京理工大学目标:爬取最好大学网前50名大学代码如下: import requests from bs4 import Beautiful ...
Python爬取淘宝商品信息保存到Excel
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资 ...
python爬取站长素材网页图片保存到ppt中
2019独角兽企业重金招聘Python工程师标准>>> 网站地址:http://sc.chinaz.com/tupian/index.html 直接上代码: import reque ...
python基金筛选_Python爬取基金的排名信息，写入excel中方便挑选基金
原标题:Python爬取基金的排名信息,写入excel中方便挑选基金基金是一种很好的理财方式,利用pyhton根据以往的跌幅情况进行基金选择,是一种很可靠的选择方式.本文以债券基金(稳定且风险较低) ...
Python爬虫系列（二）：爬取中国大学排名丁香园-用户名和回复内容淘宝品比价
Python爬虫系列(二):爬取中国大学排名&丁香园-用户名和回复内容&淘宝品比价目录 Python爬虫系列(二):爬取中国大学排名&丁香园-用户名和回复内容&淘宝品 ...
python爬取中国大学（高校）基本信息
Python爬取中国大学(高校)基本信息 python爬取中国大学(高校)基本信息简单的一个小爬虫,获取中国高校基本信息一.输出到excel表格结果二.代码 // An highlighted ...
爬虫爬取中国大学排名top100并简单可视化分析
爬虫爬取中国大学排名top100并简单可视化分析. 目标链接 http://www.zuihaodaxue.cn/zuihaodaxuepaiming2019.html 实践环境 pycharm201 ...
爬取中国大学排名并以csv格式存储
爬取中国大学排名并以csv格式存储 import requests from bs4 import BeautifulSoup import bs4def get_content(url):try:u ...

Python爬取中国大学排名，并且保存到excel中

前言

爬取中国大学排名

Python爬取中国大学排名，并且保存到excel中相关推荐

最新文章

热门文章