python网络爬虫与信息提取学习笔记day3

Day3：

只需两行代码解析html或xml信息具体代码实现:day3_1 注意BeautifulSoup的B和S需要大写，因为python大小写敏感

import requests
r= requests.get("http://python123.io/ws/demo.html")
r.text
demo = r.text
from bs4 import BeautifulSoup
soup = BeautifulSoup(demo , "html.parser")
print(soup.prettify())

BeautifulSoup库的基本元素：详参html的基本信息

from bs4 import BeautifulSoup 语句含义：从bs4库中引入一个BeautifulSoup的类型

下行遍历，上行遍历和平行遍历：

爬取中国大学排名

import requests
from bs4 import BeautifulSoup
import bs4def getHTMLText(url):try:r = requests.get(url, timeout=30)r.raise_for_status()r.encoding = r.apparent_encodingreturn r.textexcept:return ""def fillUnivList(ulist, html):soup = BeautifulSoup(html, "html.parser")for tr in soup.find('tbody').children:if isinstance(tr, bs4.element.Tag):tds = tr('td')ulist.append([tds[0].string, tds[1].string, tds[3].string])def printUnivList(ulist, num):print("{:^10}\t{:^6}\t{:^10}".format("排名","学校名称","总分"))for i in range(num):u=ulist[i]print("{:^10}\t{:^6}\t{:^10}".format(u[0],u[1],u[2]))def main():uinfo = []url = 'http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html'html = getHTMLText(url)fillUnivList(uinfo, html)printUnivList(uinfo, 20) # 20 univs
main()

转载于:https://www.cnblogs.com/yezhaodan/p/7449785.html

python网络爬虫与信息提取学习笔记day3相关推荐

python网络爬虫与信息提取（笔记）【未完】
目录 python网络爬虫与信息提取 Requests库入门 HTTP协议及Requests库方法 Requests库的get()方法 Requests库的安装 Requests库主要方法解析爬取网 ...
python网络爬虫与信息提取_北京理工大学_Python网络爬虫与信息提取（一）
学习北京理工大学嵩天课程笔记课程体系结构: 1.Requests框架:自动爬取HTML页面与自动网络请求提交 2.robots.txt:网络爬虫排除标准 3.BeautifulSoup框架:解 ...
python 网页爬虫作业调度_第3次作业-MOOC学习笔记：Python网络爬虫与信息提取
1.注册中国大学MOOC 2.选择北京理工大学嵩天老师的<Python网络爬虫与信息提取>MOOC课程 3.学习完成第0周至第4周的课程内容,并完成各周作业. 4.提供图片或网站显示的学习 ...
Python网络爬虫与信息提取笔记08-实例2：淘宝商品比价定向爬虫
Python网络爬虫与信息提取笔记01-Requests库入门 Python网络爬虫与信息提取笔记02-网络爬虫之"盗亦有道" Python网络爬虫与信息提取笔记03-Reques ...
Python网络爬虫与信息提取笔记（续篇）（文末附教学视频）只供教学讲解，请勿对有robots协议的网站（如淘宝网）造成骚扰
接上篇博客:Python网络爬虫与信息提取笔记(文末附教学视频) 14:基于bs4库的HTML内容遍历方法标签树的下行遍历: 用len(soup.body.contents)返回body标签的儿子节 ...
Python网络爬虫与信息提取—requests库入门
requests的学习笔记 requests库自动爬取HTML页面,自动网络请求提交此博客为中国大学MOOC北京理工大学<Python网络爬虫与信息提取>的学习笔记 requests库的 ...
北京理工大学·Python网络爬虫与信息提取·知识整理
学习目标: python爬虫部分的学习学习内容: mooc北京理工大学·Python网络爬虫与信息提取对Scrapy内核依然一知半解,但mooc内容已经学完整理后续将对Scrapy继续进行学习 ...
嵩天《Python网络爬虫与信息提取》实例2：中国大学排名定向爬虫
在介绍完requests库和robots协议后,嵩天老师又重点介绍了如何通过BeautifulSoup库进行网页解析和信息提取.这一部分就是在前面内容的基础上,综合运用requests库和Beauti ...
Python网络爬虫与信息提取（17）—— 题库爬取与整理+下载答案
前言上一节实现了题目的整理,没整理答案是不完整的,所以这一节加上答案的爬取. 上一节地址:Python网络爬虫与信息提取(16)-- 题库爬取与整理效果思路爬答案有点难搞,像这种题库的答案都是 ...

python网络爬虫与信息提取学习笔记day3

python网络爬虫与信息提取学习笔记day3相关推荐

最新文章

热门文章

python网络爬虫与信息提取 学习笔记day3

python网络爬虫与信息提取 学习笔记day3相关推荐

最新文章

热门文章

python网络爬虫与信息提取学习笔记day3

python网络爬虫与信息提取学习笔记day3相关推荐