Python爬虫常用模块

Python标准库——urllib模块

功能：打开URL和http协议之类

python 3.x中urllib库和urilib2库合并成了urllib库。其中urllib2.urlopen()变成了urllib.request.urlopen()urllib2.Request()变成了urllib.request.Request()

urllib请求返回网页

urllib.request.urlopen

urllib.request.open(url[,data,[timeout,[cafile,[capth[,cadefault,[context]]]]]])

urllib.requset.urlioen可以打开HTTP（主要）、HTTPS、FTP、协议的URL

ca 身份验证
data 以post方式提交URL时使用
url 提交网络地址（全程前端需协议名后端需端口 http:/192.168.1.1:80）
timeout 超时时间设置

函数返回对象有三个额外的方法

geturl() 返回response的url信息常用与url重定向
info()返回response的基本信息
getcode()返回response的状态代码

200：success
404：服务器不存在
503：服务器暂停访问

#coding:utf-8
import urllib.request
import time
import platform#清屏函数(无关紧要 可以不写)
def clear():print(u"内容过多 3秒后清屏")time.sleep(3)OS = platform.system()if (OS == u'Windows'):os.system('cls')else:os.system('clear')
#访问函数
def linkbaidu():url = 'http://www.baidu.com'try:response = urllib.request.urlopen(url,timeout=3)except urllib.URLError:print(u'网络地址错误')exit()with open('/home/ifeng/PycharmProjects/pachong/study/baidu.txt','w') as fp:response = urllib.request.urlopen(url,timeout=3)fp.write(response.read())print(u'获取url信息，response.geturl()\n:%s'%response.getrul())print(u'获取返回代码，response.getcode()\n:%s' % response.getcode())print(u'获取返回信息，response.info()\n:%s' % response.info())print(u"获取的网页信息经存与baidu.txt")if __name__ =='main':linkbaidu()

Python标准库–logging模块
logging模块能够代替print函数的功能，将标准输出到日志文件保存起来，利用loggin模块可以部分替代debug
re模块
正则表达式
sys模块
系统相关模块

sys.argv(返回一个列表，包含所有的命令行)
sys.exit(退出程序)

Scrapy框架

urllib和re配合使用已经太落后，现在主流的是Scrapy框架

转载于:https://www.cnblogs.com/oifengo/p/9385950.html

Python爬虫常用模块相关推荐

数据采集与清洗基础习题（二）Python爬虫常用模块，头歌参考答案
数据采集习题参考答案,会持续更新,点个关注防丢失.为了方便查找,已按照头歌重新排版,朋友们按照头歌所属门类查找实训哦,该篇为Python爬虫常用模块. 创作不易,一键三连给博主一个支持呗. 文章目录 ...
爬虫基础（三）——python爬虫常用模块
3.1python网络爬虫技术核心 3.1.1 python网络爬虫实现原理第一步:使用python的网络模块(比如urblib2.httplib.requests等)模拟浏览器向服务器发送正常的H ...
beautifulsoup获取属性_Python爬虫常用模块：BeautifulSoup
BeautifulSoup用途 BeautifulSoup 借助网页的结构和属性等特性来解析网页,可以用它来方便地从网页中提取所需信息. BeautifulSoup自动将输入文档转换为Unicode编 ...
Python爬虫常用的爬虫注意事项及技巧
Python爬虫常用的爬虫技巧 1.基本抓取网页 2.使用代理IP 3.Cookies处理 4.伪装成浏览器 5.页面解析 6.验证码的处理 7.gzip压缩 8.多线程并发抓取 urllib库为例进 ...
数据分析的基础：前言、概念、应用、分析方法、分析工具、基本流程、Python数据分析常用模块
文章目录一.前言 1.数据价值 2.数据分析之路二.数据分析的概念三.数据分析的应用四.数据分析方法 1.概念 2.详解五.数据分析工具六.数据分析的基本流程七.Python数据分析常用 ...
Python自学——python的常用模块
Python学习--python的常用模块原文作者:佛山小程序员原文链接:https://blog.csdn.net/weixin_44192923/article/details/8656325 ...
【Python】常用模块安装命令
[Python]常用模块安装命令 Python常用模块安装命令 pylab模块 No module named 'apkutils' No module named 'win32api' Python ...
Python爬虫---requests模块的基本使用
Python爬虫-requests模块的基本使用基础什么是爬虫? 就是通过编写程序模拟浏览器上网,然后让其去互联网上爬取数据的过程. 爬虫的分类通用爬虫抓取互联网中的一整张页面数据聚焦爬虫 ...
python list find_一篇文章带你了解Python爬虫常用选择器
原创麦自香 Python爬虫案例当我们初学爬虫的时候,我们都会选择一些最基本的网站,往往不带任何反爬措施.比如某个博客站点,我们要爬全站的话,就顺着列表页爬到文章页,再把文章的时间.作者.正文等信 ...

Python爬虫常用模块

Python标准库——urllib模块

urllib请求返回网页

Scrapy框架

Python爬虫常用模块相关推荐

最新文章

热门文章