python爬虫办公实例100例_简单的python爬虫实例
爬取搜索出来的所有“中东人”的图片:
先看一下源代码,找到存放图片链接的地方,在源代码最下面的部分:
先说一下思路:
构造url列表=》依次爬取每个页面=》先在网页源代码中找到存放图片链接的地方=》获取到这一地方的文本=》正则匹配出每个页面中每张图片的链接=》存储每张图片
来看爬取的代码:
import requests
import re
from bs4 import BeautifulSoup
address = "https://www.quanjing.com/category/1286521/"
url_list = [] #用于存储,每个页面的url列表
pipei = re.compile('
# 构造url
def get_url_list():
for i in range(1, 3): #规定爬取到的页数,这里爬取到第二页
url = address + str(i) + '.html'
url_list.append(url)
return url_list
def run():
y = 1
i = 0
for url in get_url_list(): #这个循环用于依次爬取页面
html = requests.get(url=url).text #请求页面
soup = BeautifulSoup(html, 'lxml')
divs = str(soup.find_all(attrs={"class": "list"})) #获取存放链接的那一部分文本,并转换为字符串,正则必须是字符串类型要不不能进行匹配
lianjies = re.findall(pipei, divs) #匹配到一个页面中每一张图片的链接,以列表的形式返回
for lianjie in lianjies: #这个循环用于存储页面中的每一张图片
result = requests.get(url=lianjie).content
with open('E:\py project\quanjingwang\image\{}.jpg'.format(i), 'wb') as f:
f.write(result)
i += 1
print("第{0}张存储完成".format(i))
print("第{0}页爬取完成".format({y}))
y += 1
if __name__ == '__main__':
run()
代码不难,但爬取速度有点慢,后面试着改成多线程。。。(ps:太菜了,若文章有错误,欢迎大佬随时指正。。)
python爬虫办公实例100例_简单的python爬虫实例相关推荐
- python实操实例100例_趣学Python算法100例
领取成功 您已领取成功! 您可以进入Android/iOS/Kindle平台的多看阅读客户端,刷新个人中心的已购列表,即可下载图书,享受精品阅读时光啦! - | 回复不要太快哦~ 回复内容不能为空哦 ...
- python爬虫编程100例_哪种Python程序员最赚钱?爬虫数据告诉你!
世界上有三种宝贵的东西: 知识.粮食和友谊. 那么,1 块钱,你能买到什么呢? 骑一次共享单车 买 2 包辣条 1/190 件格子衬衫 1/299 支口红 1/10099 个 iPhone XS 但是 ...
- python写整数逆位运算_简单了解python的一些位运算技巧
前言 位运算的性能大家想必是清楚的,效率绝对高.相信爱好源码的同学,在学习阅读源码的过程中会发现不少源码使用了位运算.但是为啥在实际编程过程中应用少呢?想必最大的原因,是较为难懂.不过,在面试的过程中 ...
- python小游戏编程100例_经典编程100例——python版(例9例10)
最近事情比较多,python还在学习之中,更新速度慢了一些.今天就2例. 例9:一个数如果恰好等于它的因子之和,这个数就称为"完数".如6=1+2+3.编程找出1000之内所有的完 ...
- python shell脚本编程100例_《shell脚本编程100例》[1.05MB]PDF完整版下载-码农之家
用spring boot框架做的项目,将第三方包全部打在jar里面,通过shell脚本启动和停止服务,常用的shell脚本模板如下: #!/bin/bashJAVA_OPTIONS_INITIAL=- ...
- python人脸识别实验报告总结_简单的 Python 人脸识别实例
案例一 导入图片 思路: 1.导入库 2.加载图片 3.创建窗口 4.显示图片 5.暂停窗口 6.关闭窗口 # 1.导入库 import cv2 # 2.加载图片 img = cv2.imread(' ...
- python装饰器的通俗理解_简单理解Python装饰器
Python有大量强大又贴心的特性,如果要列个最受欢迎排行榜,那么装饰器绝对会在其中. 刚接触装饰器,会觉得代码不多却难以理解.其实装饰器的语法本身挺简单的,复杂是因为同时混杂了其它的概念.下面我们一 ...
- python中函数的可变参数_简单谈谈Python中函数的可变参数
前言 在Python中定义函数,可以用必选参数.默认参数.可变参数和关键字参数,这4种参数都可以一起使用,或者只用其中某些,但是请注意,参数定义的顺序必须是:必选参数.默认参数.可变参数和关键字参数. ...
- python以列表的形式输出_简单介绍python输出列表元素的所有排列形式
今天小编就为大家分享一篇浅谈python输出列表元素的所有排列形式,具有很好的参考价值,希望对大家有所帮助.一起跟随小编过来看看吧 例如: ['a', 'b', 'c'] 输出 ['a', 'b', ...
最新文章
- 追溯XLNet的前世今生:从Transformer到XLNet
- JAVA——[MySQLNonTransientConnectionException:Could not create connection to database server.]解决方案
- C# WPF中添加调试信息查看窗体
- Kafka万亿级消息实战解决方案干货
- php嘲讽,PHP为何能够受到大家追捧,又为什么饱受嘲讽?
- python 朋友圈leetcode_利特代码0547。朋友圈[python],LeetCode0547FriendCircles,Python
- android的oomkiller_[Android Memory] Linux下malloc函数和OOM Killer
- frdora10_a8_linux,硬盘安装fedora10
- 4.程序员的自我修养---静态链接
- JDK打印的疑问:CUPSPrinter有何用处?
- 小型新闻管理系统Java
- com alibaba.fastjson.JSONException:witer JavaBean error....
- DNS域名详细解析过程(最全面,看这一篇就够)
- csgo控制台所有代码飞天_CSGO飞天穿墙指令noclip设置移动速度,及卡住不动解决方法...
- uniapp 自定义showToast样式
- linux bam文件格式,sam和bam格式文件的shell小练习-答案
- 看看你的骂人水平是几段?
- 【老九学堂】【C++】编码命名规范
- 理想低通滤波器、Butterworth滤波器和高斯滤波器
- 自然语言处理(5)——语言模型