0.中国大学排名定向爬虫

http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html

可行性:
http://www.zuihaodaxue.cn/robots.txt
数据在Html里




出错的原因+函数名写错了

import requests
from bs4 import BeautifulSoup
import bs4  # if isinstance(tr,bs4.element.Tag):#不是标签的都不执行:
def getHTMLText(url):#将url信息爬取下来try:r=requests.get(url,timeout=300)r.raise_for_status()r.encoding=r.apparent_encodingreturn r.textexcept:return ""def fillUnivList(ulist,html):soup = BeautifulSoup(html,'html.parser')for tr in soup.find('tbody').children:if isinstance(tr,bs4.element.Tag):#不是标签的都不执行:tds = tr('td')#相当于tr.find_all('td')ulist.append([tds[0].string,tds[1].string,tds[2].string],tds[3].string)#tds[0]是这样的<td><div align="left">清华大学</div></td> tds[1]是这样的<td>北京市</td>#tds[2]是这样的<td>95.9</td>#插入列表中def printUnivList(ulist,num):tplt = "{0:^10}\t{1:{3}^10}\t{2:^10}"#print("{:^10}\t{:^6}\t{:^10}".format("排名","学校","总分"))for i in range(num):u=ulist[i]#print("{:^10}\t{:^6}\t{:^10}".format(u[0],u[1],u[2]))print(tplt.format(u[0],u[1],u[2],chr(12288))print("suc"+str(num))def main():uinfo = []#大学信息放在列表中url = 'http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html'html=getHTMLText(url)fillUnivList(uinfo,html)printUnivList(uinfo, 20)  # 第二个参数为显示信息个数# def  main():
#     uinfo=[]
#     url='http://www.zuihaodaxue.cn/zuihaodaxuepaiming2018.html'
#     html=getHTMLText(url)
#     fillUnivList(uinfo, html)
#     printUnivList(uinfo, 20)  # 20 表示取前20所大学main()



summary

丑憨批的爬虫笔记6实例相关推荐

  1. 丑憨批的爬虫笔记3(实例)

    1.京东商品: import requestsdef getHTMLText(url):try:r=requests.get(url)r.raise_for_status()r.encoding=r. ...

  2. 丑憨批的爬虫笔记2(爬虫引发的问题+robots协议)

    去搜 user-agent!!!! referer!!!!! 网页中怎么查看请求头header信息 点一下Name里的东西就会出来 规模大小分类 robots协议 User-agent: * /// ...

  3. 丑憨批的爬虫笔记1(导学+requests))

    the website is the API Requests robots.txt beautiful soup projects 正则表达式 Scrapy 12单元 4个实例 工具:IDLE,Su ...

  4. 丑憨批的爬虫笔记5信息标记与提取

    0.信息标记的三种形式 信息标记的作用 HTML:超文本标记 种类:3种 XML 无内容则一个尖括号 Json Yaml 用缩进表达从属关系,-表示并列关系 1.三种信息标记形式的比较 2.信息提取的 ...

  5. 丑憨批的爬虫笔记4BeautifulSoup4

    pip install beautifulsoup4 https://python123.io/ws/demo.html 使用方法 参数:1.html信息2.解析器 import requests r ...

  6. 丑憨批的html笔记

    html语法基础 h1#idid${itme$}*3 <!DOCTYPE html> <html lang="en"> <head><me ...

  7. 丑憨批的NLP笔记BERT前置:ATUO encoder,DAE

    ATUOEncoder 深度学习:什么是自编码器(Autoencoder) DAE 降噪自动编码器(Denoising Autoencoder)

  8. 丑憨批的vector笔记

    上网统计 "在线自闭,是输出出的问题,别用cout string" #include <iostream> #include<bits/stdc++.h> ...

  9. 丑憨批的Transformer笔记

    rnn-seq2seq-attentio attention attention transformer transformer Self-Attention:当前翻译和已经翻译的前文之间的关系: E ...

最新文章

  1. Python指南--深入流程控制
  2. easyUI实现tabs形式
  3. as本地仓库更改_Android Studio 之 Gradle与Project Structure详解
  4. 图解TCP/IP(第5版)PDF
  5. Android 为什么要有handler机制?handler机制的原理
  6. webflux上传下载文件
  7. Android学习记录--Switch开关按钮的应用
  8. bzoj 1056 1862: [Zjoi2006]GameZ游戏排名系统(Treap+Hash)
  9. 对轻量级C++日志类[转]
  10. 在GridView分页过程中,CheckBox的选中状态不丢失
  11. 查看挂载阵列卡下的磁盘SMART
  12. 鹰眼系统原理_飞思卡尔智能车一:山外鹰眼摄像头使用原理
  13. 计算机工资表2017,薪级工资对照表2017年最新
  14. PCM1863应用笔记
  15. html5页面嵌入pdf,html5嵌入内容.pdf
  16. C语言 进阶版三子棋小游戏
  17. Spline样条曲线
  18. 如何使用left join,以及left join的分析
  19. 包,内部类,常用类,集合
  20. stm32 读取sd卡图片显示_「正点原子STM32Mini板资料连载」第三十五章 汉字显示实验...

热门文章

  1. ElementUI el-time-picker-只显示小时、分钟,分并添加范围校验
  2. (转)JavaScript: 零基础轻松学闭包(1)
  3. Bootstrap的全局css样式部分
  4. EntityFramework 学习: Console中初见
  5. 取文本索引所执向的值(简单)
  6. Visual Studio 字体抗锯齿插件 Text Sharp
  7. 生产者消费者--TestPC.java
  8. python pip安装指定版本unittest_你们想要的unittest用例失败重运行,解决方案来啦!...
  9. java filter函数的用法_5分钟掌握Python | Map、Reduce和Filter如何运用?
  10. 光环大数据spark文档_推荐大数据Spark必读书目