利用python爬虫进行彼岸网图库图片的抓取(bs4)
import requests
from bs4 import BeautifulSoupstart = input("请输入开始页数(只能从2开始):")
end = input("请输入结束页数:")
start = int(start)
end = int(end)
for sum in range(start,end):url = f'https://pic.netbian.com/4kmeinv/index_{sum}.html'domain = "https://pic.netbian.com/" srcmain = "https://pic.netbian.com/" headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/105.0.0.0 Safari/537.36 Edg/105.0.1343.27"}resp = requests.get(url)resp.encoding = "gbk"# print(resp.text)main_page = BeautifulSoup(resp.text,"html.parser")alist = main_page.find("div",attrs={"class":"slist"}).find_all("a")# print(alist)for a in alist:child_href = domain + a.get('href').strip("/")child_page_resp = requests.get(child_href)child_page_resp.encoding = "gbk"child_page_text = child_page_resp.textchild_page = BeautifulSoup(child_page_text,"html.parser")div = child_page.find("div",attrs={"class":"photo-pic"})img = div.find("img")src = srcmain + img.get("src").strip("/")img_resp = requests.get(src)img_name = src.split("/")[-1]with open(img_name, mode="wb") as f:f.write(img_resp.content)print("over!!!",img_name)child_page_resp.close()img_resp.close()resp.close()
f.close()
print("all over")
利用python爬虫进行彼岸网图库图片的抓取(bs4)相关推荐
- Python爬虫入门实战之猫眼电影数据抓取(理论篇)
前言 本文可能篇幅较长,但是绝对干货满满,提供了大量的学习资源和途径.达到让读者独立自主的编写基础网络爬虫的目标,这也是本文的主旨,输出有价值能够真正帮助到读者的知识,即授人以鱼不如授人以渔,让我们直 ...
- Python爬虫实践:从中文歌词库抓取歌词
利用BeautifulSoup库构建一个简单的网络爬虫,从中文歌词库网站抓取凤凰传奇所有曲目的歌词(http://www.cnlyric.com/geshou/1927.html). from url ...
- Python爬虫实战之二 - 基于Scrapy框架抓取Boss直聘的招聘信息
Python爬虫实战之三 - 基于Scrapy框架抓取Boss直聘的招聘信息 ---------------readme--------------- 简介:本人产品汪一枚,Python自学数月,对于 ...
- Python爬虫4.2 — ajax(动态网页数据抓取)用法教程
Python爬虫4.2 - ajax[动态网页数据]用法教程 综述 AJAX 介绍 什么是AJAX 实例说明 请求分析 获取方式 实例说明 其他博文链接 综述 本系列文档用于对Python爬虫技术的学 ...
- [Python][爬虫04]Fiddler与HTTP请求:抓取豆瓣评分以及资源链接(一)
>豆瓣电影 首先,找到豆瓣电影的分级评分页面,并初步分析页面结构: 然而实际上,这个页面是动态加载的,我们需要按照在[爬虫02]中介绍的抓取网易歌单的方法,去分析API接口,直接抓取相关的jso ...
- python爬虫原理和运营商SDK数据建模抓取的区别
当今是个不折不扣的大数据时代,大数据贯穿了我们的衣食住行,可以这么说,大数据是目前最宝贵的数据宝藏! 什么是Python爬虫? Python爬虫又叫网络爬虫 关于Python爬虫,我们需要知道的有: ...
- Python爬虫入门实战之猫眼电影数据抓取(实战篇)
项目实战 静态网页实战 本节我们将为大家展现一个完整爬虫的大致过程,此次项目内容为提取猫眼电影TOP100榜中的所有电影信息并存储至CSV文件中,其首页地址为http://maoyan.com/boa ...
- Python爬虫教程:简书文章的抓取与存储
本文内容将与大家一起从简书的文章页面抓取文章标题.作者.发布时间以及正文内容,并且将抓取到的这些信息存入Excel表格中.本文对简书文章的抓取仅为Python的学习交流,尊重作者著作权,不对抓取到的文 ...
- python爬虫(1)-百度新闻首页抓取
百度热点新闻上,前6条是在strong > a下面抓取,后30条,以及之后的各个分版块(国内,国际,地方,娱乐,体育等等),抓取的特征值是a标签下的mon的值,c=板块名称,pn=为每个分类下的 ...
- python爬虫之Ajax动态加载数据抓取--豆瓣电影/腾讯招聘
动态加载数据抓取-Ajax 特点 1.右键 -> 查看网页源码中没有具体数据 2.滚动鼠标滑轮或其他动作时加载 抓取 1.F12打开控制台,页面动作抓取网络数据包 2.抓取json文件URL地址 ...
最新文章
- 中级软件测试笔试题100精讲_数字IC设计职位经典笔试面试100题(71~80)
- Java二叉树的构建与遍历
- linux dev urandom,Linux random vs urandom 区别
- webpack(一) 配置
- 软件质量模型 测试设计方法,质量模型-可靠性测试
- npm 安装依赖遇到的问题
- fir数字滤波器设计与软件实现_基于FPGA低通滤波器的FIR的设计
- 毕业2月有余,苏州同学腐败第二次大聚会
- Oracle的常用修改表及字段的语句
- java技术可行性分析_java毕业设计管理系统需求分析
- 从Cadence发展史中,看EDA的一段江湖故事
- GSCOOLINK GSV2006替CH6002 HDMI2.0接口芯片
- wget 整站下载
- untiy Resorces目录动态加载资源
- 基于Android studio的WIFI搜索显示与WIFI打开
- iQQ 学习笔记1 :登录、验证码、收消息
- 迭代器模式(实际运用比较少)
- Latex 一半黑一半白的圆圈
- 2012回家过年:西安火车站遭遇碰瓷
- 2021.07.17【R语言】丨扩增子课程学习——α多样性简介
热门文章
- 递归算法计算二叉树中叶子结点数目 c语言,编写递归算法,计算二叉树中叶子结点的数目。...
- 129 爬虫 requests request 爬图片
- 项目管理表格模板/实用表格-项目启动
- Unity 粒子特效看不见
- 传智播客python毕业_2018年传智播客黑马python人工智能15期
- 水电图纸——安装配电箱,插座——3.8
- cass生成曲线要素_使用CASS6_0获取道路平曲线测设元素的解决方案.pdf
- 基于C#语言Windows窗体应用(.Net Framework)的教室点名系统V1.0
- 计算机类中英附录,欧盟gmp附录1计算机系统(中英文对照).doc
- Java方法重载中返回值的问题