1、Response 对象有一个 status_code 属性,可以检查它是否等于requests.codes.ok。

2、raise_for_status()方法是一种很好的方式,确保程序在下载失败时停止。

3、BeautifulSoup模块:

(1)、BeautifulSoup()函数调用时需要一个字符串,其中包含了将要解析的HTML。bs4.BeautifulSoup()函数返回一个BeautifulSoup对象。有了BeautifulSoup对象之后,就可以利用它的方法,定位HTML文档中的特定部分。

(2)、用select()方法寻找元素:select()方法返回一个Tag对象的列表,这是Beautiful Soup表示一个HTML元素的方式。针对BeautifulSoup对象中的额HTML的每次匹配,列表中都有一个Tag对象。Tag值可以传给str()函数,显示它们代表的HTML标签。Tag值也可以有attrs属性,它将该Tag的所有HTML属性作为一个字典。

(3)、min()返回字符串中最小值。也就是说内建的Python函数min()返回传入的整型或浮点型参数中最小的一个(也有内建的max()函数,返回传入的参数最大的一个)。

例如:

str = "runoob";             print ("最小字符: " + min(str));

输出结果:

最小字符: b

str="runoob"

b=len(str)

a=min(5,b)

print(“a等于:”,a)

输出结果:

a等于:5

(4)、Python endswith()方法:用于判断字符串是否以指定后缀结尾,如果以指定后缀结尾返回True,否则返回False。可选参数"start"与"end"为检索字符串的开始与结束位置。

      语法

endswith()方法语法:

str.endswith(suffix[, start[, end]])

      参数

l   suffix -- 该参数可以是一个字符串或者是一个元素。

l  start -- 字符串中的开始位置。

l  end -- 字符中结束位置。

如果字符串含有指定的后缀返回True,否则返回False。

(5)、Python os.makedirs() 方法

os.makedirs() 方法用于递归创建目录。像 mkdir(), 但创建的所有intermediate-level文件夹需要包含子目录。

语法

makedirs()方法语法格式如下:

os.makedirs(path, mode=0o777)

参数

path -- 需要递归创建的目录。

mode -- 权限模式。

返回值

该方法没有返回值。

转载于:https://www.cnblogs.com/cqkangle/p/10508316.html

从Web抓取信息的几个常用方法相关推荐

  1. python从web抓取信息(爬虫中soup.select()与soup.find_all()对比)

    1)利用 webbrowser 模块打开指定的URL 从sys.argv读取命令行参数或从剪切板粘贴内容 用webbrowser.open()函数打开网页 import webbrowser, sys ...

  2. 独家 | 手把手教你用Python进行Web抓取(附代码)

    作者:Kerry Parker 翻译:田晓宁 校对:丁楠雅 本文约2900字,建议阅读10分钟. 本教程以在Fast Track上收集百强公司的数据为例,教你抓取网页信息. 作为一名数据科学家,我在工 ...

  3. 别人家的程序员是如何使用 Java 进行 Web 抓取的?

    Web抓取非常有用,它可以收集信息供多种用途使用,如数据分析.统计.提供第三方信息,还可以给深神经网络和深度学习提供数据. Web抓取是什么? 有一种非常广泛的误解,人们似乎把Web抓取和Web爬虫当 ...

  4. 如何用 Python 实现 Web 抓取?

    [编者按]本文作者为 Blog Bowl 联合创始人 Shaumik Daityari,主要介绍 Web 抓取技术的基本实现原理和方法.文章系国内 ITOM 管理平台 OneAPM 编译呈现,以下为正 ...

  5. python Web抓取(一)[没写完]

    需要的模块: python web抓取通过: webbrowser:是python自带的,打开浏览器获取指定页面 requests:从因特网上下载文件和网页 Beautiful Soup:解析HTML ...

  6. python lxml使用_使用lxml和Python进行Web抓取的简介

    python lxml使用 by Timber.io 由Timber.io 使用lxml和Python进行Web抓取的简介 (An Intro to Web Scraping with lxml an ...

  7. 别人家的程序员是如何使用 Java 进行 Web 抓取的? 1

    Web抓取非常有用,它可以收集信息供多种用途使用,如数据分析.统计.提供第三方信息,还可以给深神经网络和深度学习提供数据. Web抓取是什么? 有一种非常广泛的误解,人们似乎把Web抓取和Web爬虫当 ...

  8. 《精通Wireshark》—第1章1.5节抓取信息的方式

    本节书摘来自异步社区<精通Wireshark>一书中的第1章1.5节抓取信息的方式,作者[印度]Charit Mishra(夏里特 米什拉),更多章节内容可以访问云栖社区"异步社 ...

  9. Python编程-让繁琐的工作自动化(十一)从Web爬取信息

    目录 1.webbrowser模块 1.1 弄清楚URL 1.2 处理命令行参数 2. 用requests模块从Web下载文件 2.1 用requests.get()函数下载一个网页 2.2 检查错误 ...

  10. 推荐 :手把手教你用Python进行Web抓取(附代码)

    作者:Kerry Parker :翻译:田晓宁:校对:丁楠雅: 本文约2900字,建议阅读10分钟. 本教程以在Fast Track上收集百强公司的数据为例,教你抓取网页信息. 作为一名数据科学家,我 ...

最新文章

  1. 计算机相关的考试题目,计算机考试相关题目汇总.doc
  2. windows下安装ubuntu 12.04---利用ubuntu的iso包中的wubi.exe工具安装
  3. 一个操作内表的函数’CTVB_COMPARE_TABLES’
  4. b区计算机调剂学校,2021年b区研究生调剂院校有哪些
  5. Kerberos认证代码分析Can't get Kerberos realm
  6. cad图框尺寸标准图_工程必备 | CAD图纸1:100打印可以量取的尺寸
  7. Spring boot 上传文件大小限制
  8. gojs 节点右键点击事件_SWMM快速建模方法(3)—建立管线上下游节点编号
  9. Rpc框架dubbo-client(v2.6.3) 源码阅读(二)
  10. ASP.NET MVC Url中参数过长引发的问题
  11. 从头开始学Android之(一)——— Android架构
  12. spring-第六篇之创建bean的3种方式
  13. Qt编写自定义控件:卷轴式数字滚动
  14. UNIX文件系统结构
  15. UDS协议的项目应用
  16. 无防护等级的导电滑环有哪些类型和特征
  17. 得到语音下载(dedaodown)
  18. 增值电信业务经营许可证怎么续期,需要什么材料
  19. django项目之官网需求分析实现
  20. 【数据结构】— 『队列』的实现以及LeetCode队列练习题

热门文章

  1. java8实现Joiner:数组集合转换字符串
  2. SpringCloud 之客户端负载均衡策略
  3. MyBatis中association,collection多表查询(resultMap高级映射)笔录
  4. Day21 linux安装RPM包
  5. FOSRestBundle功能包:使用指南
  6. 此博客记录我的日常学习过程
  7. 【转】MySQL日期时间函数大全
  8. http code 000
  9. Cannot delete or update a parent row: a foreign key constraint fails
  10. Linux core文件生成及设置 查看core文件由哪个程序生成的