Day3:

只需两行代码解析html或xml信息    具体代码实现:day3_1    注意BeautifulSoup的B和S需要大写,因为python大小写敏感

import requests
r= requests.get("http://python123.io/ws/demo.html")
r.text
demo = r.text
from bs4 import BeautifulSoup
soup = BeautifulSoup(demo , "html.parser")
print(soup.prettify())

  

BeautifulSoup库的基本元素:详参html的基本信息

from bs4 import BeautifulSoup        语句含义:从bs4库中引入一个BeautifulSoup的类型

下行遍历,上行遍历和平行遍历:

爬取中国大学排名

import requests
from bs4 import BeautifulSoup
import bs4def getHTMLText(url):try:r = requests.get(url, timeout=30)r.raise_for_status()r.encoding = r.apparent_encodingreturn r.textexcept:return ""def fillUnivList(ulist, html):soup = BeautifulSoup(html, "html.parser")for tr in soup.find('tbody').children:if isinstance(tr, bs4.element.Tag):tds = tr('td')ulist.append([tds[0].string, tds[1].string, tds[3].string])def printUnivList(ulist, num):print("{:^10}\t{:^6}\t{:^10}".format("排名","学校名称","总分"))for i in range(num):u=ulist[i]print("{:^10}\t{:^6}\t{:^10}".format(u[0],u[1],u[2]))def main():uinfo = []url = 'http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html'html = getHTMLText(url)fillUnivList(uinfo, html)printUnivList(uinfo, 20) # 20 univs
main()

  

转载于:https://www.cnblogs.com/yezhaodan/p/7449785.html

python网络爬虫与信息提取 学习笔记day3相关推荐

  1. python网络爬虫与信息提取(笔记)【未完】

    目录 python网络爬虫与信息提取 Requests库入门 HTTP协议及Requests库方法 Requests库的get()方法 Requests库的安装 Requests库主要方法解析 爬取网 ...

  2. python网络爬虫与信息提取_北京理工大学_Python网络爬虫与信息提取(一)

    学习 北京理工大学 嵩天 课程笔记 课程体系结构: 1.Requests框架:自动爬取HTML页面与自动网络请求提交 2.robots.txt:网络爬虫排除标准 3.BeautifulSoup框架:解 ...

  3. python 网页爬虫作业调度_第3次作业-MOOC学习笔记:Python网络爬虫与信息提取

    1.注册中国大学MOOC 2.选择北京理工大学嵩天老师的<Python网络爬虫与信息提取>MOOC课程 3.学习完成第0周至第4周的课程内容,并完成各周作业. 4.提供图片或网站显示的学习 ...

  4. Python网络爬虫与信息提取笔记08-实例2:淘宝商品比价定向爬虫

    Python网络爬虫与信息提取笔记01-Requests库入门 Python网络爬虫与信息提取笔记02-网络爬虫之"盗亦有道" Python网络爬虫与信息提取笔记03-Reques ...

  5. Python网络爬虫与信息提取笔记(续篇)(文末附教学视频)只供教学讲解,请勿对有robots协议的网站(如淘宝网)造成骚扰

    接上篇博客:Python网络爬虫与信息提取笔记(文末附教学视频) 14:基于bs4库的HTML内容遍历方法 标签树的下行遍历: 用len(soup.body.contents)返回body标签的儿子节 ...

  6. Python网络爬虫与信息提取—requests库入门

    requests的学习笔记 requests库自动爬取HTML页面,自动网络请求提交 此博客为中国大学MOOC北京理工大学<Python网络爬虫与信息提取>的学习笔记 requests库的 ...

  7. 北京理工大学·Python网络爬虫与信息提取·知识整理

    学习目标: python爬虫部分的学习 学习内容: mooc北京理工大学·Python网络爬虫与信息提取 对Scrapy内核依然一知半解,但mooc内容已经学完整理 后续将对Scrapy继续进行学习 ...

  8. 嵩天《Python网络爬虫与信息提取》实例2:中国大学排名定向爬虫

    在介绍完requests库和robots协议后,嵩天老师又重点介绍了如何通过BeautifulSoup库进行网页解析和信息提取.这一部分就是在前面内容的基础上,综合运用requests库和Beauti ...

  9. Python网络爬虫与信息提取(17)—— 题库爬取与整理+下载答案

    前言 上一节实现了题目的整理,没整理答案是不完整的,所以这一节加上答案的爬取. 上一节地址:Python网络爬虫与信息提取(16)-- 题库爬取与整理 效果 思路 爬答案有点难搞,像这种题库的答案都是 ...

最新文章

  1. 怎样打开win7和vista系统的telnet服务
  2. scanf函数详解与缓冲区
  3. C# ASP.NET B/S模式下,采用lock语法 实现多用户并发产生不重复递增单号的一种解决方法技术参考...
  4. linux在mak时候出现错误,在使用yocto构建linux映像时出现“memfd戋create的静态声明跟随非静态声明”错误...
  5. hdu java_HDU Java8 集锦
  6. aelf帮助C#工程师10分钟零门槛搭建DAPP私有链开发环境
  7. 单片机控制小风扇马达c语言,模拟风扇控制电路(单片机C程序设计)
  8. 【clickhouse】clickhouse 表引擎之 Buffer
  9. how many fibs java_How many Fibs?(java)
  10. 360补丁打上以后漏洞依然存在?
  11. delphi7在windows server 2003企业版上不能打开项目的选项(Options)窗口的解决方法...
  12. IEC61850——开山篇
  13. Linux搭建私人饥荒服务器(centos8-64位)
  14. 软件工程复习提纲——第六章
  15. UltraCompare Professional Version 7.20.0.1009 注册码
  16. 水准测量的各种数字考点
  17. 设置和取消Excel限制保护的两种方法
  18. 爬虫练习(2)-- 使用正则匹配爬取果壳问答
  19. Java超级工具_Java 16个超级实用的工具类
  20. HTTPS升级配合HSTS打造顶级安全网站

热门文章

  1. vmware中centos6.4突然无法进入图形界面解决方法
  2. 02.Python 3.6.4下载与安装
  3. 练习1-2:编写一个 JAVA 程序,实现输出考试成绩的前三名。
  4. 解决checkbox与对应文字不对齐的问题
  5. 第三次预作业20155231邵煜楠:虚拟机上的Linux学习
  6. 【Effective Java】6、使用复合优先于使用继承
  7. css3制作炫酷导航栏效果 转
  8. Matlab和C++混合编程
  9. 写博客和生产api的工具
  10. Java集合---HashSet的源码分析