10.25
百度页面改了,方法失效了

python爬虫爬取百度图片

  • 开发环境
  • 涉及的知识点
    • os
    • time
    • urllib.error
    • quote
    • re
      • (.*?)
      • re.compile(key)
  • 代码实现

开发环境

  1. 日期:2021.9.11
  2. 开发环境:python 3.9和pycharm
    ps:pycharm今天第一次用,随着将越来越多开发环境集成到vscode上,感觉太复杂了,配置又不太懂,总是有问题,虽然很喜欢vscode的自由度,但不想折腾了,简单的开发环境更重要!
  3. 第三方库:
  • requests 2.25.1
  • urlibs 1.26.4

涉及的知识点

os

用来实现对文件的操作
第一个函数:检测文件是否存在
第二个函数用来新建文件

os.path.exists(base_dir)
os.mkdir

time

用来延时,防止封 ip

time。sleep(1)#延时1ms

urllib.error

当图片网址失效时,用以实现 异常检测,使程序不中断,继续爬下一个图片,同时输出异常

try:# 爬取代码
except urllib.error.URLError:print("下载失败")

quote

URL只允许一部分ASCII字符,其他字符(如汉字)是不符合标准的,此时就要进行编码。

将搜素内容进行编码

keyword = quote("猫", encoding='utf-8')
#最终编码的后的是  %E7%8C%AB  (没看错就是这样一串字符)

re

正则表达式
查看百度图片的源码可找到图片的地址

这里相当于去获取https://img1.baidu.com/it/u=1225680675,2635144528&fm=26&fmt=auto&gp=0.jpg

注意见面的 r ,所以’ ‘单引号是字符串 ,而里面的 双引号就是单纯的双引号字符
查找的是括号里面的内容

r'thumbURL":"(.*?)"'"thumbURL":"https://img1.baidu.com/it/u=1225680675,2635144528&fm=26&fmt=auto&gp=0.jpg"

(.*?)

再讲讲这个
正则表达式中的 .? 或 .+

后边多一个?表示懒惰模式。
必须跟在*或者+后边用
如:

<img src="test.jpg" width="60px" height="80px"/>

如果用正则匹配src中内容非懒惰模式匹配

src=".*"

匹配结果是:
src="test.jpg" width="60px" height="80px"
意思是从 =" 往后匹配,直到最后一个 " 匹配结束

懒惰模式正则:
src=".*?"
结果:src="test.jpg"
匹配到第一个"就结束了一次匹配。不会继续向后匹配。因为他懒惰嘛。

re.compile(key)

预编译,不用每次find的时候去编译

代码实现

首先是import 需要使用的库

import os
import urllib.request
from urllib.parse import quote
import re
import urllib.error
import requests
import time

首先,不想每次都手动复制cookie,所以先进入百度知道界面获取 cookie

get_cookie_headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) ""Chrome/92.0.4515.159 Safari/537.36 "}
get_cookie_html = "https://www.baidu.com/?tn=49055317_4_hao_pg"
get_cookie_target = requests.session()
cookie_target = get_cookie_target.get(get_cookie_html, headers=get_cookie_headers)
cookie = requests.utils.dict_from_cookiejar(cookie_target.cookies)
print(cookie)

然后打印出来可以发现,格式是字典,并不是我们想要的格式
于是,我们将其简单处理一下变成我们需要的格式

key = []
value = []
result_cookie = ""for i in cookie.keys():key.append(i)for i in cookie.values():value.append(i)for i in range(len(key)):result_cookie += key[i] + '=' + value[i] + ";"print(result_cookie)
myheaders = {"Cookie": result_cookie,"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) ""Chrome/92.0.4515.159 Safari/537.36 "
}

接下来就是 获取输入关键字 并建立文件夹

pic_dir_name = input("输入想要爬取的主题:")
base_dir = r"C:\Users\dawn\Desktop\百度图片/"
#pic_dir_name = "猫"pic_dir = base_dir + pic_dir_nameif os.path.exists(base_dir):if os.path.exists(pic_dir):print(pic_dir + "  文件已存在")else:os.mkdir(pic_dir)
else:os.mkdir(base_dir)os.mkdir(pic_dir)

这里去建立 图片的链接 和正则表达式
链接里面的
pn是值图片的开始 值 ,0指第一张
rn指每次服务器给你的图片数量,一次最多60

keyword = quote(pic_dir_name, encoding='utf-8')start_number = 0
base_url = "https://image.baidu.com/search/acjson?tn=resultjson_com&ipn=rj&queryWord=" + keyword + "&word=" + keyword + "&pn%d=&rn=60" % start_number
key = r'thumbURL":"(.*?)"'
pic_url = re.compile(key)  # 预编译

进行循环,爬取,并保存在文件夹

number = 1
while start_number < 1800:response = urllib.request.Request(base_url, headers=myheaders)result = urllib.request.urlopen(response).read().decode("utf-8")for i in re.findall(pic_url, result):print(i)try:response = urllib.request.Request(i, headers=myheaders)pic_result = urllib.request.urlopen(response).read()with open(pic_dir + "/" + pic_dir_name + str(number) + ".jpg", "wb+") as f:f.write(pic_result)number += 1time.sleep(0.5)except urllib.error.URLError:print("下载失败")start_number += 60

python爬虫爬取百度图片相关推荐

  1. python爬虫爬取百度图片总结_python爬虫如何批量爬取百度图片

    当我们想要获取百度图片的时候,面对一张张图片,一次次的点击右键下载十分麻烦.python爬虫可以实现批量下载,根据我们下载网站位置.图片位置.图片下载数量.图片下载位置等需求进行批量下载,本文演示py ...

  2. python爬虫爬取百度图片总结_爬虫篇| 爬取百度图片(一)

    什么是爬虫 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁.自动索引.模 ...

  3. python爬虫爬取百度图片,python爬虫篇2:爬取百度图片

    入门级 import requests import re import os from urllib import error def main(): dirPath = "E:\pyth ...

  4. python爬虫爬取百度贴吧图片,requests方法

    每天一点点,记录学习 近期爬虫项目,看完请点赞哦---: 1:python 爬取菜鸟教程python100题,百度贴吧图片反爬虫下载,批量下载 2:python爬虫爬取百度贴吧图片,requests方 ...

  5. Python爬虫爬取相关图片

    简要的实现实现Python爬虫爬取百度贴吧页面上的图片,下面的网页就是本篇博客所要爬的网页,当然看到的只是其中的一部分图片,是所要爬取的页面, 而下图则是最终的爬取的图片: 接下来就简要的讲讲爬取的整 ...

  6. python爬虫代码实例-Python爬虫爬取百度搜索内容代码实例

    这篇文章主要介绍了Python爬虫爬取百度搜索内容代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 搜索引擎用的很频繁,现在利用Python爬 ...

  7. python爬虫爬取百度文档

    使用python爬虫爬取百度文档文字 话不多说,直接上代码! import requests import reheaders = {"User-Agent": "Moz ...

  8. python爬虫,爬取下载图片

    python爬虫,爬取下载图片 分别引入以下三个包 from urllib.request import urlopen from bs4 import BeautifulSoup import re ...

  9. 详细分析如何利用python批量爬取百度图片

    这篇文章主要写的是利用python网络爬虫批量来爬取百度图片并保存到文件夹中. 首先我们打开百度图片这个网页:https://image.baidu.com/ 我们现在随便搜一个类型的图片,比如小狗, ...

  10. python爬虫爬取网页图片_Python爬虫:爬取网页图片

    先分析查找要爬取图片的路径 在浏览器F12 审查元素 整体实现代码 # -- coding:UTF-8 -- import requests from bs4 import BeautifulSoup ...

最新文章

  1. tinyxml 读取文本节点_【C++】【TinyXml】xml文件的读写功能使用——写xml文件
  2. 提供一个基于.NET的加密/解密算法
  3. 2019微生物组—宏基因组分析技术研讨会第六期
  4. pandas 数据分析 相关性_探索 COVID-19 新冠数据来学习 Pandas
  5. vue里获取不到data_vue methods中取不到data值
  6. 使用Docker-Compose,如何执行多个命令
  7. iOS之Socket的使用-AsyncSocket
  8. 现代偏微分方程第1章预备知识复习题
  9. 20201125:力扣第216场周赛(下)
  10. [日推荐] 『地铁查询』全国地铁尽在手中,不怕迷路!
  11. mysql tree 和 hash_mysql_B-tree索引和哈希索引
  12. Map使用put进行数据的添加,对哈希表的三步添加的步骤
  13. 牡丹-曹州牡丹:曹州牡丹
  14. 设置网页地址栏小图标
  15. 电子电路基础 (4)——电阻的认识
  16. 网络传输的七层协议(包括tcp协议和udp协议的区别)
  17. 关于小米手机USB传输稍大点的文件老中断的问题解决方法!
  18. TIG监控平台监控docker容器
  19. vue项目性能优化(图片优化)
  20. MonsoonRF推出新型RFID读取器,安装难度和换灯泡差不多

热门文章

  1. 看看淘宝的工程师如何评论12306
  2. 【B-分子】2020上海高校程序设计竞赛暨第18届上海大学程序设计联赛夏季赛(同步赛)
  3. Qt开发 之 删除文件或文件夹到回收站(详解)
  4. 较全的正则字符、规则汇总
  5. 经纬财富:东莞炒白银怎么做好风险控制
  6. oracle数据库查看scanip,rac下查看scanip 在哪個節點上
  7. java报表技术总结_15个Java的报表工具总结
  8. 4个很 丝滑 的 Veu 路由过渡动效
  9. MP3的采样率和比特率
  10. 常用数组方法汇总(ES3、ES5、ES6、ES7、ES10)