Python20行代码爬取搞笑图片—拯救你的不开心
毫无套路的爬虫,东半球最简单的python爬虫代码
代码如下:
import requests
import lxml
from bs4 import BeautifulSoup"""
整体思路
1.伪装浏览器构造请求,获取网页内容即HTML源码
2.使用美味汤的强大功能获取图片链接
3.使用文件处理的基本操作将图片下载到本地
"""count = 1 #用于记录图片个数
def getResponse(page): #获取指定URL网页内容url = "https://www.qiushibaike.com/imgrank/page/{}/".format(page)headers = {"Mozilla":"/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.36"}#模拟浏览器向服务器发送请求response =requests.get(url,headers).text #获取网页HTML源码,需进行格式转换return responsedef getLink(page): #获取图片链接response = getResponse(page)soup = BeautifulSoup(response,'lxml') #创建美味汤对象for div in soup.find_all('div',class_="thumb"):for img_tag in div.find_all('img'):# print(img_tag.get('src'))# #可能由于糗事百科网站具有反爬机制,我们得到的图片链接并不是有效地址,需加上响应协议img_url = "http:"+img_tag.get('src')saveImg(img_url)def saveImg(img_url):global countresponse = requests.get(img_url)with open ("./搞笑图片/{}.jpg".format(count),'ab') as f: #要先创建文件夹才能将图片写入文件夹,我创建在当前目录下f.write(response.content)count+=1if __name__ == "__main__":for page in range(1,6): #我们先爬取前五页的图片,可根据不开心程度调整爬取页数!!!getLink(page)## 感觉写的还不错的小伙伴点个赞再走吧,
运行结果如下:
主页还有关于这篇文章的视频,感兴趣的小伙伴可以看一看
这篇文章的内容可能会有一些不足之处,希望大家在评论区多多提出意见,我也会积极改正的,以后我会经常记录自己在实验室打比赛的经历,空闲的时候还会更新一些有趣的算法题(由于不是专业打ACM的,太难的我也不会哈哈哈),如果觉得写得还不错的话,请点个赞吧!谢谢鼓励!
Python20行代码爬取搞笑图片—拯救你的不开心相关推荐
- Python---20行代码爬取斗鱼平台房间数据(下)
在上一篇中,已经详细的讲解了如何获取数据,接下来是深度处理数据,这里调用xlsxwriter库来制作Excel表格. 工具:Python3.6.5,Pycharm 1.模块介绍 XlsxWriter模 ...
- Python---20行代码爬取斗鱼平台房间数据(上)
本期用到json,requests库来爬取网页信息,这次爬的是一个特殊多页式网站,普通多页式网站只需分析不同页面的url,找出其中的不同点,用for in来循环即可,但是斗鱼的https://www. ...
- python--20行代码爬取【全职高手】小说
环境 pycharm,bs4 需求:在笔下文学网站上爬取全职高手全本小说 第一步:分析url 第一章的url: 第二章的url: 从url的变化很容易找到规律. 看到了源代码,静态html中包含小说文 ...
- python房子代码,Python---20行代码爬取斗鱼平台房间数据(上)
本期用到json,requests库来爬取网页信息,这次爬的是一个特殊多页式网站,普通多页式网站只需分析不同页面的url,找出其中的不同点,用for in来循环即可,但是斗鱼的https://www. ...
- Python爬虫利用18行代码爬取虎牙上百张小姐姐图片
Python爬虫利用18行代码爬取虎牙上百张小姐姐图片 下面开始上代码 需要用到的库 import request #页面请求 import time #用于时间延迟 import re #正则表达式 ...
- 简单20行代码爬取王者荣耀官网1080p壁纸
简单20行代码爬取王者荣耀官网1080p壁纸 # -*- coding: utf-8 -*- # @Time : 2020/12/13 18:08 # @Author : ningfangcong i ...
- pyquery获取不到网页完整源代码_爬虫神器之PyQuery实用教程(二),50行代码爬取穷游网...
爬虫神器之PyQuery实用教程(二),50行代码爬取穷游网 前言 上篇文章 PyQuery (一) 回顾.今天来介绍具体 PyQuery 的使用方法. 穷游网目标与分析 开始之前,按照之前的套路一步 ...
- python爬上市公司信息_实战项目 1:5 行代码爬取国内所有上市公司信息
实战项目 1:5 行代码爬取国内所有上市公司信息 Python入门爬虫与数据分析 在正式开始这门专栏课的学习之前,我们先来看一个简单的爬虫案例.兴趣是最好的老师,当你对爬虫产生兴趣的时候,才会更有动力 ...
- Python25行代码爬取豆瓣排行榜数据
Python25行代码爬取豆瓣排行榜数据 只需要用到requests, re ,csv 三个库即可. code import re import requests import csv url = ' ...
- python:利用20行代码爬取网络小说
文章目录 前言 一.爬虫是什么? 二.实现过程 总结 提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 前言 今天,来给大家一个分享一下如何使用20爬虫行代码爬取网络小说(这里我们以龙 ...
最新文章
- 测试结果分析_9种国内外纺织品耐摩擦色牢度测试方法结果分析
- 操作系统原理第四章:线程
- 英特尔核芯显卡控制面板怎么找不到_【全球首发】英特尔第十代Cometlake台式机处理器详解与评测...
- Codeigniter 4.0-dev 版源码学习笔记之六——控制器
- 富士康有麻烦了,iPhone产能已被削减
- 游戏总监“姐夫”今日离开暴雪,玩家却欢乐地吃着『暴雪要凉』的瓜
- 为多种屏幕尺寸编写移动Flash内容
- 如何彻底搞懂 Java 数据结构?|CSDN 博文精选
- 向上取整和向下取整(ceil、round)
- 学习笔记--SQLyog的使用
- SVG—最简单的SVG动画
- 怎样对php手册解除锁定,word锁定怎么解锁
- windows11右键一直转圈问题解决方法
- ln软链接调试mininet
- android 最好的gtd软件,这9款高质量APP让你工作效率提高50%!
- Unity Game Cloud
- excel 关联数据
- BS架构说明以及网页组成
- Java SSM开发大众点评后端
- c语言-----之图形打印