丑憨批的爬虫笔记6实例
0.中国大学排名定向爬虫
http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html
可行性:
http://www.zuihaodaxue.cn/robots.txt
数据在Html里
出错的原因+函数名写错了
import requests
from bs4 import BeautifulSoup
import bs4 # if isinstance(tr,bs4.element.Tag):#不是标签的都不执行:
def getHTMLText(url):#将url信息爬取下来try:r=requests.get(url,timeout=300)r.raise_for_status()r.encoding=r.apparent_encodingreturn r.textexcept:return ""def fillUnivList(ulist,html):soup = BeautifulSoup(html,'html.parser')for tr in soup.find('tbody').children:if isinstance(tr,bs4.element.Tag):#不是标签的都不执行:tds = tr('td')#相当于tr.find_all('td')ulist.append([tds[0].string,tds[1].string,tds[2].string],tds[3].string)#tds[0]是这样的<td><div align="left">清华大学</div></td> tds[1]是这样的<td>北京市</td>#tds[2]是这样的<td>95.9</td>#插入列表中def printUnivList(ulist,num):tplt = "{0:^10}\t{1:{3}^10}\t{2:^10}"#print("{:^10}\t{:^6}\t{:^10}".format("排名","学校","总分"))for i in range(num):u=ulist[i]#print("{:^10}\t{:^6}\t{:^10}".format(u[0],u[1],u[2]))print(tplt.format(u[0],u[1],u[2],chr(12288))print("suc"+str(num))def main():uinfo = []#大学信息放在列表中url = 'http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html'html=getHTMLText(url)fillUnivList(uinfo,html)printUnivList(uinfo, 20) # 第二个参数为显示信息个数# def main():
# uinfo=[]
# url='http://www.zuihaodaxue.cn/zuihaodaxuepaiming2018.html'
# html=getHTMLText(url)
# fillUnivList(uinfo, html)
# printUnivList(uinfo, 20) # 20 表示取前20所大学main()
summary
丑憨批的爬虫笔记6实例相关推荐
- 丑憨批的爬虫笔记3(实例)
1.京东商品: import requestsdef getHTMLText(url):try:r=requests.get(url)r.raise_for_status()r.encoding=r. ...
- 丑憨批的爬虫笔记2(爬虫引发的问题+robots协议)
去搜 user-agent!!!! referer!!!!! 网页中怎么查看请求头header信息 点一下Name里的东西就会出来 规模大小分类 robots协议 User-agent: * /// ...
- 丑憨批的爬虫笔记1(导学+requests))
the website is the API Requests robots.txt beautiful soup projects 正则表达式 Scrapy 12单元 4个实例 工具:IDLE,Su ...
- 丑憨批的爬虫笔记5信息标记与提取
0.信息标记的三种形式 信息标记的作用 HTML:超文本标记 种类:3种 XML 无内容则一个尖括号 Json Yaml 用缩进表达从属关系,-表示并列关系 1.三种信息标记形式的比较 2.信息提取的 ...
- 丑憨批的爬虫笔记4BeautifulSoup4
pip install beautifulsoup4 https://python123.io/ws/demo.html 使用方法 参数:1.html信息2.解析器 import requests r ...
- 丑憨批的html笔记
html语法基础 h1#idid${itme$}*3 <!DOCTYPE html> <html lang="en"> <head><me ...
- 丑憨批的NLP笔记BERT前置:ATUO encoder,DAE
ATUOEncoder 深度学习:什么是自编码器(Autoencoder) DAE 降噪自动编码器(Denoising Autoencoder)
- 丑憨批的vector笔记
上网统计 "在线自闭,是输出出的问题,别用cout string" #include <iostream> #include<bits/stdc++.h> ...
- 丑憨批的Transformer笔记
rnn-seq2seq-attentio attention attention transformer transformer Self-Attention:当前翻译和已经翻译的前文之间的关系: E ...
最新文章
- Python指南--深入流程控制
- easyUI实现tabs形式
- as本地仓库更改_Android Studio 之 Gradle与Project Structure详解
- 图解TCP/IP(第5版)PDF
- Android 为什么要有handler机制?handler机制的原理
- webflux上传下载文件
- Android学习记录--Switch开关按钮的应用
- bzoj 1056 1862: [Zjoi2006]GameZ游戏排名系统(Treap+Hash)
- 对轻量级C++日志类[转]
- 在GridView分页过程中,CheckBox的选中状态不丢失
- 查看挂载阵列卡下的磁盘SMART
- 鹰眼系统原理_飞思卡尔智能车一:山外鹰眼摄像头使用原理
- 计算机工资表2017,薪级工资对照表2017年最新
- PCM1863应用笔记
- html5页面嵌入pdf,html5嵌入内容.pdf
- C语言 进阶版三子棋小游戏
- Spline样条曲线
- 如何使用left join,以及left join的分析
- 包,内部类,常用类,集合
- stm32 读取sd卡图片显示_「正点原子STM32Mini板资料连载」第三十五章 汉字显示实验...
热门文章
- ElementUI el-time-picker-只显示小时、分钟,分并添加范围校验
- (转)JavaScript: 零基础轻松学闭包(1)
- Bootstrap的全局css样式部分
- EntityFramework 学习: Console中初见
- 取文本索引所执向的值(简单)
- Visual Studio 字体抗锯齿插件 Text Sharp
- 生产者消费者--TestPC.java
- python pip安装指定版本unittest_你们想要的unittest用例失败重运行,解决方案来啦!...
- java filter函数的用法_5分钟掌握Python | Map、Reduce和Filter如何运用?
- 光环大数据spark文档_推荐大数据Spark必读书目