Python标准库——urllib模块

功能:打开URL和http协议之类
python 3.x中urllib库和urilib2库合并成了urllib库。其中urllib2.urlopen()变成了urllib.request.urlopen()urllib2.Request()变成了urllib.request.Request() 

urllib请求返回网页

urllib.request.urlopen

urllib.request.open(url[,data,[timeout,[cafile,[capth[,cadefault,[context]]]]]])

urllib.requset.urlioen可以打开HTTP(主要)、HTTPS、FTP、协议的URL

  • ca 身份验证
  • data 以post方式提交URL时使用
  • url 提交网络地址(全程 前端需协议名 后端需端口 http:/192.168.1.1:80)
  • timeout 超时时间设置

函数返回对象有三个额外的方法

  • geturl() 返回response的url信息 常用与url重定向
  • info()返回response的基本信息
  • getcode()返回response的状态代码
200:success
404:服务器不存在
503:服务器暂停访问
#coding:utf-8
import urllib.request
import time
import platform#清屏函数(无关紧要 可以不写)
def clear():print(u"内容过多 3秒后清屏")time.sleep(3)OS = platform.system()if (OS == u'Windows'):os.system('cls')else:os.system('clear')
#访问函数
def linkbaidu():url = 'http://www.baidu.com'try:response = urllib.request.urlopen(url,timeout=3)except urllib.URLError:print(u'网络地址错误')exit()with open('/home/ifeng/PycharmProjects/pachong/study/baidu.txt','w') as fp:response = urllib.request.urlopen(url,timeout=3)fp.write(response.read())print(u'获取url信息,response.geturl()\n:%s'%response.getrul())print(u'获取返回代码,response.getcode()\n:%s' % response.getcode())print(u'获取返回信息,response.info()\n:%s' % response.info())print(u"获取的网页信息经存与baidu.txt")if __name__ =='main':linkbaidu()

Python标准库–logging模块
logging模块能够代替print函数的功能,将标准输出到日志文件保存起来,利用loggin模块可以部分替代debug
re模块
正则表达式
sys模块
系统相关模块

  • sys.argv(返回一个列表,包含所有的命令行)
  • sys.exit(退出程序)


Scrapy框架

urllib和re配合使用已经太落后,现在主流的是Scrapy框架

转载于:https://www.cnblogs.com/oifengo/p/9385950.html

Python爬虫常用模块相关推荐

  1. 数据采集与清洗基础习题(二)Python爬虫常用模块,头歌参考答案

    数据采集习题参考答案,会持续更新,点个关注防丢失.为了方便查找,已按照头歌重新排版,朋友们按照头歌所属门类查找实训哦,该篇为Python爬虫常用模块. 创作不易,一键三连给博主一个支持呗. 文章目录 ...

  2. 爬虫基础(三)——python爬虫常用模块

    3.1python网络爬虫技术核心 3.1.1 python网络爬虫实现原理 第一步:使用python的网络模块(比如urblib2.httplib.requests等)模拟浏览器向服务器发送正常的H ...

  3. beautifulsoup获取属性_Python爬虫常用模块:BeautifulSoup

    BeautifulSoup用途 BeautifulSoup 借助网页的结构和属性等特性来解析网页,可以用它来方便地从网页中提取所需信息. BeautifulSoup自动将输入文档转换为Unicode编 ...

  4. Python爬虫常用的爬虫注意事项及技巧

    Python爬虫常用的爬虫技巧 1.基本抓取网页 2.使用代理IP 3.Cookies处理 4.伪装成浏览器 5.页面解析 6.验证码的处理 7.gzip压缩 8.多线程并发抓取 urllib库为例进 ...

  5. 数据分析的基础:前言、概念、应用、分析方法、分析工具、基本流程、Python数据分析常用模块

    文章目录 一.前言 1.数据价值 2.数据分析之路 二.数据分析的概念 三.数据分析的应用 四.数据分析方法 1.概念 2.详解 五.数据分析工具 六.数据分析的基本流程 七.Python数据分析常用 ...

  6. Python自学——python的常用模块

    Python学习--python的常用模块 原文作者:佛山小程序员 原文链接:https://blog.csdn.net/weixin_44192923/article/details/8656325 ...

  7. 【Python】常用模块安装命令

    [Python]常用模块安装命令 Python常用模块安装命令 pylab模块 No module named 'apkutils' No module named 'win32api' Python ...

  8. Python爬虫---requests模块的基本使用

    Python爬虫-requests模块的基本使用 基础 什么是爬虫? 就是通过编写程序模拟浏览器上网,然后让其去互联网上爬取数据的过程. 爬虫的分类 通用爬虫 抓取互联网中的一整张页面数据 聚焦爬虫 ...

  9. python list find_一篇文章带你了解Python爬虫常用选择器

    原创 麦自香 Python爬虫案例 当我们初学爬虫的时候,我们都会选择一些最基本的网站,往往不带任何反爬措施.比如某个博客站点,我们要爬全站的话,就顺着列表页爬到文章页,再把文章的时间.作者.正文等信 ...

最新文章

  1. mysql idle_MySQL常用指令
  2. 洛谷——P1219 八皇后
  3. 窄带语谱图c语言算法,MELP语音编码算法实现及算法改进
  4. 帆软报表学习笔记——根据参数查询
  5. 一个简化的插件框架c#
  6. Axis2生成wsdl的一种方法
  7. Zabbix监控配置
  8. MFC字符串CString分割函数 简洁 C++
  9. Boxx:一个旨在提高 Python 代码开发和调试效率的工具库,尤其在计算机视觉领域...
  10. js生成二维码,js 解析二维码,jsqrcode,js从url生成二维码
  11. Java TemplateProcessingException之Cannot execute subtraction: operands are null and #1234
  12. 通过金矿模型介绍动态规划(转)
  13. Numpy用法详细总结:学习numpy如何使用,看这一篇文章就足够了
  14. 赛桨PaddleScience v1.0 Beta:基于飞桨核心框架的科学计算通用求解器
  15. windows系统可以用android,如何在电脑上使用Android系统?
  16. Jquery遍历对象
  17. Java转Go语言 -4
  18. 【浅墨Unity3D Shader编程】之六 暗黑城堡篇: 表面着色器(Surface Shader)的写法(一)
  19. docker 中sftp常用命令(新手上路,多多关照)
  20. 音乐号将成在线音乐标配,QQ音乐如何诠释强用户导向思维?

热门文章

  1. Client does not support authentication protocol requested by server;
  2. 《算法:C语言实现》—— 第二部分 —— 第3章 —— 基本数据结构
  3. 【Qt】Qt登录对话框(设计器实现)
  4. 【Tiny4412】Tiny4412烧写uboot脚本分析
  5. 【STM32】 keil软件工具--工程目标选项配置(下)
  6. 【C++】 C++标准模板库(六) Queue
  7. 【Linux基础】 Redhat6.5中OpenOffice的安装
  8. 【Linux网络编程】原始套接字实例:MAC 地址扫描器
  9. python数据框常用操作_转载:python数据框的操作
  10. Python入门--模块的导入和使用