python网络爬虫与信息提取 学习笔记day3
Day3:
只需两行代码解析html或xml信息 具体代码实现:day3_1 注意BeautifulSoup的B和S需要大写,因为python大小写敏感
import requests
r= requests.get("http://python123.io/ws/demo.html")
r.text
demo = r.text
from bs4 import BeautifulSoup
soup = BeautifulSoup(demo , "html.parser")
print(soup.prettify())
BeautifulSoup库的基本元素:详参html的基本信息
from bs4 import BeautifulSoup 语句含义:从bs4库中引入一个BeautifulSoup的类型
下行遍历,上行遍历和平行遍历:
爬取中国大学排名
import requests
from bs4 import BeautifulSoup
import bs4def getHTMLText(url):try:r = requests.get(url, timeout=30)r.raise_for_status()r.encoding = r.apparent_encodingreturn r.textexcept:return ""def fillUnivList(ulist, html):soup = BeautifulSoup(html, "html.parser")for tr in soup.find('tbody').children:if isinstance(tr, bs4.element.Tag):tds = tr('td')ulist.append([tds[0].string, tds[1].string, tds[3].string])def printUnivList(ulist, num):print("{:^10}\t{:^6}\t{:^10}".format("排名","学校名称","总分"))for i in range(num):u=ulist[i]print("{:^10}\t{:^6}\t{:^10}".format(u[0],u[1],u[2]))def main():uinfo = []url = 'http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html'html = getHTMLText(url)fillUnivList(uinfo, html)printUnivList(uinfo, 20) # 20 univs
main()
转载于:https://www.cnblogs.com/yezhaodan/p/7449785.html
python网络爬虫与信息提取 学习笔记day3相关推荐
- python网络爬虫与信息提取(笔记)【未完】
目录 python网络爬虫与信息提取 Requests库入门 HTTP协议及Requests库方法 Requests库的get()方法 Requests库的安装 Requests库主要方法解析 爬取网 ...
- python网络爬虫与信息提取_北京理工大学_Python网络爬虫与信息提取(一)
学习 北京理工大学 嵩天 课程笔记 课程体系结构: 1.Requests框架:自动爬取HTML页面与自动网络请求提交 2.robots.txt:网络爬虫排除标准 3.BeautifulSoup框架:解 ...
- python 网页爬虫作业调度_第3次作业-MOOC学习笔记:Python网络爬虫与信息提取
1.注册中国大学MOOC 2.选择北京理工大学嵩天老师的<Python网络爬虫与信息提取>MOOC课程 3.学习完成第0周至第4周的课程内容,并完成各周作业. 4.提供图片或网站显示的学习 ...
- Python网络爬虫与信息提取笔记08-实例2:淘宝商品比价定向爬虫
Python网络爬虫与信息提取笔记01-Requests库入门 Python网络爬虫与信息提取笔记02-网络爬虫之"盗亦有道" Python网络爬虫与信息提取笔记03-Reques ...
- Python网络爬虫与信息提取笔记(续篇)(文末附教学视频)只供教学讲解,请勿对有robots协议的网站(如淘宝网)造成骚扰
接上篇博客:Python网络爬虫与信息提取笔记(文末附教学视频) 14:基于bs4库的HTML内容遍历方法 标签树的下行遍历: 用len(soup.body.contents)返回body标签的儿子节 ...
- Python网络爬虫与信息提取—requests库入门
requests的学习笔记 requests库自动爬取HTML页面,自动网络请求提交 此博客为中国大学MOOC北京理工大学<Python网络爬虫与信息提取>的学习笔记 requests库的 ...
- 北京理工大学·Python网络爬虫与信息提取·知识整理
学习目标: python爬虫部分的学习 学习内容: mooc北京理工大学·Python网络爬虫与信息提取 对Scrapy内核依然一知半解,但mooc内容已经学完整理 后续将对Scrapy继续进行学习 ...
- 嵩天《Python网络爬虫与信息提取》实例2:中国大学排名定向爬虫
在介绍完requests库和robots协议后,嵩天老师又重点介绍了如何通过BeautifulSoup库进行网页解析和信息提取.这一部分就是在前面内容的基础上,综合运用requests库和Beauti ...
- Python网络爬虫与信息提取(17)—— 题库爬取与整理+下载答案
前言 上一节实现了题目的整理,没整理答案是不完整的,所以这一节加上答案的爬取. 上一节地址:Python网络爬虫与信息提取(16)-- 题库爬取与整理 效果 思路 爬答案有点难搞,像这种题库的答案都是 ...
最新文章
- 怎样打开win7和vista系统的telnet服务
- scanf函数详解与缓冲区
- C# ASP.NET B/S模式下,采用lock语法 实现多用户并发产生不重复递增单号的一种解决方法技术参考...
- linux在mak时候出现错误,在使用yocto构建linux映像时出现“memfd戋create的静态声明跟随非静态声明”错误...
- hdu java_HDU Java8 集锦
- aelf帮助C#工程师10分钟零门槛搭建DAPP私有链开发环境
- 单片机控制小风扇马达c语言,模拟风扇控制电路(单片机C程序设计)
- 【clickhouse】clickhouse 表引擎之 Buffer
- how many fibs java_How many Fibs?(java)
- 360补丁打上以后漏洞依然存在?
- delphi7在windows server 2003企业版上不能打开项目的选项(Options)窗口的解决方法...
- IEC61850——开山篇
- Linux搭建私人饥荒服务器(centos8-64位)
- 软件工程复习提纲——第六章
- UltraCompare Professional Version 7.20.0.1009 注册码
- 水准测量的各种数字考点
- 设置和取消Excel限制保护的两种方法
- 爬虫练习(2)-- 使用正则匹配爬取果壳问答
- Java超级工具_Java 16个超级实用的工具类
- HTTPS升级配合HSTS打造顶级安全网站