【python爬虫实战】批量爬取站长之家的图片
概述:
站长之家的图片爬取
使用BeautifulSoup
解析html
通过浏览器的形式来爬取,爬取成功后以二进制保存,保存的时候根据每一页按页存放每一页的图片
第一页:http://sc.chinaz.com/tupian/index.html
第二页:http://sc.chinaz.com/tupian/index_2.html
第三页:http://sc.chinaz.com/tupian/index_3.html
以此类推,遍历20页
源代码
# @Author: lomtom
# @Date: 2020/2/27 14:22
# @email: lomtom@qq.com# 站长之家的图片爬取
# 使用BeautifulSoup解析html
# 通过浏览器的形式来爬取,爬取成功后以二进制保存# 第一页:http://sc.chinaz.com/tupian/index.html
# 第二页:http://sc.chinaz.com/tupian/index_2.html
# 第三页:http://sc.chinaz.com/tupian/index_3.html
# 遍历14页import os
import requests
from bs4 import BeautifulSoupdef getImage():url = ""for i in range(1,15):# 创建文件夹,每一页放进各自的文件夹download = "images/%d/"%iif not os.path.exists(download):os.mkdir(download)# urlif i ==1:url = "http://sc.chinaz.com/tupian/index.html"else:url = "http://sc.chinaz.com/tupian/index_%d.html"%i#发送请求获取响应,成功状态码为200response = requests.get(url)if response.status_code == 200:# 使用bs解析网页bs = BeautifulSoup(response.content,"html5lib")# 定位到图片的divwarp = bs.find("div",attrs={"id":"container"})# 获取imgimglist = warp.find_all_next("img")for img in imglist:# 获取图片名称和链接title = img["alt"]src = img["src2"]# 存入文件with open(download+title+".jpg","wb") as file:file.write(requests.get(src).content)print("第%d页打印完成"%i)if __name__ == '__main__':getImage()
效果图
作者
1、作者个人网站
2、作者CSDN
3、作者博客园
4、作者简书
【python爬虫实战】批量爬取站长之家的图片相关推荐
- 初试python爬虫(简单爬取站长之家第一页图片)
爬取站长之家第一页图片 爬虫 ----需要借助第三方库 requests beautifulsoup4 html5lib 1.模拟浏览器发送请求 并且接收服务器的响应数据 requests 2.解析并 ...
- Python 爬虫实战入门——爬取汽车之家网站促销优惠与经销商信息
在4S店实习,市场部经理让我写一个小程序自动爬取汽车之家网站上自家品牌的促销文章,因为区域经理需要各店上报在网站上每一家经销商文章的露出频率,于是就自己尝试写一个爬虫,正好当入门了. 一.自动爬取并输 ...
- 【Python爬虫实战】爬取彼岸图库高清图片
利用Python爬取彼岸图库高清图片 让你每天一张壁纸不重样,今天利用Python爬取 彼岸图库 http://pic.netbian.com/ 分析网页 通过首页可以看到要获取全站图片必须先抓取各个 ...
- Python爬虫实战(5)-爬取淘宝网服装图片(Selenium+Firefox)
前言 今天我们巩固一下前面学过的知识,通过Selenium+Firefox实现模拟浏览器并自动翻页,爬取图片并写入本地文件中. 以搜索"女装"为例,自动爬取"女装&quo ...
- python3 scrapy 爬虫实战之爬取站长之家
爬取目标 站长之家:http://top.chinaz.com/all/ 爬取工具 win10 python3 scrapy BeautifulSoup 爬取内容 1 网站缩略图 2 网站名称 3 网 ...
- 携程ajax,Python爬虫实战之爬取携程评论
一.分析数据源 这里的数据源是指html网页?还是Aajx异步.对于爬虫初学者来说,可能不知道怎么判断,这里辰哥也手把手过一遍. 提示:以下操作均不需要登录(当然登录也可以) 咱们先在浏览器里面搜索携 ...
- Python爬虫实战之爬取糗事百科段子
Python爬虫实战之爬取糗事百科段子 完整代码地址:Python爬虫实战之爬取糗事百科段子 程序代码详解: Spider1-qiushibaike.py:爬取糗事百科的8小时最新页的段子.包含的信息 ...
- Python爬虫实战之爬取百度贴吧帖子
Python爬虫实战之爬取百度贴吧帖子 大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 本篇目标 对百度贴吧的 ...
- Python爬虫实战(1) | 爬取豆瓣网排名前250的电影(下)
在Python爬虫实战(1) | 爬取豆瓣网排名前250的电影(上)中,我们最后爬出来的结果不是很完美,这对于"精益求精.追求完美的"程序猿来说怎么能够甘心 所以,今天,用pyth ...
最新文章
- 每天一道LeetCode-----给定字符串s和字符数组words,在s中找到words出现的位置,words内部字符串顺序无要求
- 【华为HCNA】访问控制列表ACL实例配置
- std::jthread与std::thread的区别
- JAVA基础3——常见关键字解读(1)
- 【常见笔试面试算法题12续集五】动态规划算法案例分析5 01背包练习题
- C/C++语言以某符号分割字符串
- 无需付费,教你IDEA社区版中使用Tomcat
- java中Map遍历的四种方法
- 【渝粤教育】国家开放大学2018年秋季 0689-22T老年心理健康 参考试题
- HDU1054 Strategic Game —— 最小点覆盖 or 树形DP
- 通过 Azure 媒体管理门户开始使用直播流媒体
- 【VC皮肤】SkinSharp 1.0.6.6的使用
- 哪种存储器是非易失的_ROM是易失性存储器还是非易事性存储器?
- 计算机设计大赛物联网专项赛专栏
- 皮尔斯晶振电路的参数计算
- 台式计算机 按键盘字母键 没反应6,台式电脑键盘没反应怎么回事 键盘按了没反应怎么办...
- window出现msvcp100.dll缺失问题
- jQuery搜索高亮显示
- linux socket write()函数阻塞卡住线程问题(线程无法结束)write()非阻塞代码
- 数字逻辑实验|逻辑函数及其描述工具(Logisim)