python爬虫之豆瓣图片(一)
通过百度,了解了python相关知识概要。学习了python的基础知识,慢慢开始python的征程……….
前提巩固:
HTTP是Hyper Text Transfer Protocol (超文本传输协议)的缩写。它的发展是万维网协会(Word Wide Web Consortium)和Internet 工作小组IETF(Internet Engineering Task Force)合作的结果,他们最终发布了一系列的RFC,RFC1945定义了HTTP/1.0版本。其中最著名的就是RFC2616.RFC2616定义了今天普遍使用的一个版本–HTTP 1.1。
HTTP 协议是用于从WWW服务器传输超文本到本地浏览器的传送协议。它可以使用浏览器更加高效,使网络传输减少。它不仅保证计算机正确快速的传输超文本,还确定传输文档的哪个部分,以及哪部分内容首先显示等。HTTP的请求响应模型
HTTP协议永远都是客户端发起请求,服务器会送响应。这样就限制了使用HTTP协议,无法实现客户端没有发起请求的时候,服务器间消息推送给客户端。HTTP协议是一个无状态的协议,同一个客户端的这次请求和上次请求是没有对应关系的。- 工作流程
一次HTTP操作成为一个事务,其工作过程可分为四步:- 首先客户机与服务器需要建立连接,只要单机某个超级链接,HTTP的工作开始。
- 建立链接后,客户机发送一个请求给服务器,请求方式的格式为:同意资源标识符(URL)、协议版本号,后边是MIME信息包括请求修饰符、客户机信息和可能的内容。
- 服务器接到请求后,给予相应的相应信息,其格式为一个状态行,包括信息的协议版本号、一个成功或错误的代码,后边是MIME信息包括服务器信息、实体信息和可能的内容。
- 客户端接收到服务器的信息通过浏览器显示在用户的显示屏上,然客户机与服务器断开链接。如果在以上过程中的某一步出错,那么产生的错误信息将返回到客户端,有显示屏输出。对于用户来说,这些过程是由HTTP自己完成的,用户只要用鼠标点击,等待信息显示就可以了。
了解Python中的urllib库
- Python2系列使用的是urllib2,Python3后将其全部整合为urllib,我们所需要学习的有十几个常用函数,慢慢了解吧……….
所需工具:
- Python自带的编译器
- PyCharm(IDE)
- Fiddler(网页请求见识工具,我们可以使用它来了解用户出发网页请求后发生的详细步骤,直接百度一个下载就可以了)
简单的网页爬虫
代码:
import urllib.request#关于urllib的使用在python2直接使用就可以了,但在python3中需要使用urllib.request,否则在写请求url时会有报错(AttributeError: module 'urllib' has no attribute 'Request') #网址url=“http://www.douban.com/”#发起请求request=urllib.request.Request(url)#爬取结果response=urllib.request.urlopen(request)#读取内容data=response.read()#设置解码方式data=data.decode('utf-8')#打印结果print(data)#打印各类信息print(type(response))print(response.feturl())print(reponse.info())print(reponse.getcode())
python爬虫之豆瓣图片(一)相关推荐
- 使用Python爬虫获取豆瓣影评,并用词云显示
使用Python爬虫获取豆瓣影评,并用词云显示 Python语言流行到现在,目前最受开发者喜爱的功能莫过于它的爬虫功能,以至于很多人以为Python的英语发音也是"爬虫",其实它是 ...
- python爬虫获取豆瓣图书Top250
在上一篇博客<python爬虫获取豆瓣电影TOP250>中,小菌为大家带来了如何将豆瓣电影Top250的数据存入MySQL数据库的方法.这次的分享,小菌决定再带着大家去研究如何爬取豆瓣图片 ...
- Python爬虫 | Python爬虫获取女友图片
Python爬虫 | Python爬虫获取女友图片 前言 程序说明 二次元女友获取程序 观察网页结构 页面解析 创建图片保存路径 图片下载 格式转换 爬取结果展示 完整程序 前言 (又到了常见的无中生 ...
- Python爬虫之gif图片抓取
Python爬虫之gif图片抓取 标签:图片爬虫 这几天,对于怎么去爬取图片很感兴趣,就研究了一下,图片爬虫可以说是有简单,更有复杂的,今天,我做了一个比较简单的gif的图片爬虫,仅仅学习一下怎么进行 ...
- Python 爬虫分析豆瓣 TOP250 之 信息字典 和 马斯洛的锥子
问题 本文是对<Python 爬虫分析豆瓣 TOP250 告诉你程序员业余该看什么书?> 一文的补充 我们以<追风少年>为例 用chrome的developer tool查看源 ...
- Python爬虫(5):豆瓣读书练手爬虫
Python爬虫(5):豆瓣读书练手爬虫 我们在之前的文章中基本上掌握了Python爬虫的原理和方法,不知道大家有没有练习呢.今天我就来找一个简单的网页进行爬取,就当是给之前的兵书做一个实践.不然不就 ...
- Python爬虫之豆瓣排行榜(正则表达式)
Python爬虫之豆瓣排行榜(正则表达式) 1. 项目目标 使用Chrome浏览器打开网页https://maoyan.com/ ,切换到[榜单],[TOP100榜].本次项目就是要获取豆瓣排名Top ...
- 实战python网络爬虫豆瓣_三分钟教会你利用Python爬虫实现豆瓣电影采集(实战篇)...
一.项目背景 豆瓣电影提供最新的电影介绍及评论包括上映影片的影讯查询及购票服务.可以记录想看.在看和看过的电影电视剧 .顺便打分.写影评.极大地方便了人们的生活. 今天小编以电视剧(美剧)为例,批量爬 ...
- Python爬虫实战----------豆瓣TOP250
*前段时间学习了一些浅显的爬虫知识,防止遗忘写个博客记录一下,如果能帮到其他人是更好的 本篇介绍一下如何一步一步实现使用python爬取豆瓣电影TOP250,博主是个小白,如果内容有误,请将宝贵的建议 ...
- 三分钟教会你利用Python爬虫实现豆瓣电影采集(实战篇)
一.项目背景 豆瓣电影提供最新的电影介绍及评论包括上映影片的影讯查询及购票服务.可以记录想看.在看和看过的电影电视剧 .顺便打分.写影评.极大地方便了人们的生活. 今天小编以电视剧(美剧)为例,批量爬 ...
最新文章
- 计算机网页基础课专业,关于《计算机应用基础》课程网页下的学习资源使用说明....
- (shell脚本编程)linux如何利用脚本执行多条命令以及linux如何执行定时任务
- 为什么说基于比特币现金的0确认是必要的?
- opencv3 ubuntu安装脚本
- mysql查看所有存储过程,函数,视图,触发器,表
- C++ 宽字符(wchar_t)与窄字符(char)的转换
- IDEA出现错误:找不到或无法加载主类 io.renren.RenrenApplication
- subpress installed post-installation script returned error exit status 1
- WPF,强制捕获鼠标事件,鼠标移出控件外依然可以执行强制捕获的鼠标事件
- Android的ADB工具使用
- python cmd窗口名字_python cmd 窗口 中文乱码 解决方法 (附:打印不同颜色)
- CSS media queries
- 一条数据的HBase之旅,简明HBase入门教程3:适用场景
- Linux的重要子目录
- PLSQL无法连接64位Oracle数据库/Database下拉框为空的解决方法
- zynq开发系列4:EMIO连接按键控制MIO连接的灯
- bat批处理注册dll
- 单片机C语言中关键词code的作用
- oracle 行转列后列名,Oracle 多行转多列,列值转为列名
- Matlab含新能源(风电光伏)和多类型电动汽车配电网风险评估 由于电动汽车负荷与风电光伏出力的不确定性,造成配电网运行风险,运用蒙特卡洛概率潮流计算分析电压和线路支路越限