目标网站:https://www.quanjing.com/category/1286521/2.html

爬取搜索出来的所有“中东人”的图片:

先看一下源代码,找到存放图片链接的地方,在源代码最下面的部分:

先说一下思路:

构造url列表=》依次爬取每个页面=》先在网页源代码中找到存放图片链接的地方=》获取到这一地方的文本=》正则匹配出每个页面中每张图片的链接=》存储每张图片

来看爬取的代码:

import requests
import re
from bs4 import BeautifulSoupaddress = "https://www.quanjing.com/category/1286521/"
url_list = []                      #用于存储,每个页面的url列表
pipei = re.compile('<img.*?lowsrc="(.*?)"')    #构造正则表达式,用于下面匹配出每张图片的链接# 构造url
def get_url_list():for i in range(1, 3):      #规定爬取到的页数,这里爬取到第二页url = address + str(i) + '.html'url_list.append(url)return url_listdef run():y = 1i = 0for url in get_url_list():    #这个循环用于依次爬取页面html = requests.get(url=url).text  #请求页面soup = BeautifulSoup(html, 'lxml')  divs = str(soup.find_all(attrs={"class": "list"}))  #获取存放链接的那一部分文本,并转换为字符串,正则必须是字符串类型要不不能进行匹配lianjies = re.findall(pipei, divs)      #匹配到一个页面中每一张图片的链接,以列表的形式返回for lianjie in lianjies:            #这个循环用于存储页面中的每一张图片result = requests.get(url=lianjie).content  with open('E:\py project\quanjingwang\image\{}.jpg'.format(i), 'wb') as f:f.write(result)i += 1print("第{0}张存储完成".format(i))print("第{0}页爬取完成".format({y}))y += 1if __name__ == '__main__':run()

代码不难,但爬取速度有点慢,后面试着改成多线程。。。(ps:太菜了,若文章有错误,欢迎大佬随时指正。。)

转载于:https://www.cnblogs.com/liangxiyang/p/11045045.html

简单的python爬虫实例相关推荐

  1. python爬虫实例-记录一次简单的Python爬虫实例

    本次的这篇文章主要是和大家分享了一篇关于记录一次简单的Python爬虫实例 ,有需要的小伙伴可以看一下. 主要流程分为: 爬取.整理.存储 1.其中用到几个包,包括 requests 用于向网站发送请 ...

  2. src获取同级目录中的图片_一个简单的Python爬虫实例:百度贴吧页面下载图片

    本文主要实现一个简单的爬虫,目的是从一个百度贴吧页面下载图片. 1. 概述 本文主要实现一个简单的爬虫,目的是从一个百度贴吧页面下载图片.下载图片的步骤如下: 获取网页html文本内容: 分析html ...

  3. python爬虫办公实例100例_简单的python爬虫实例

    爬取搜索出来的所有"中东人"的图片: 先看一下源代码,找到存放图片链接的地方,在源代码最下面的部分: 先说一下思路: 构造url列表=>依次爬取每个页面=>先在网页源代 ...

  4. Python爬虫实例:自制翻译机(简单)

    文章目录 Python爬虫实例:自制翻译机 要求实现功能:用户输入英文或中文,程序即可打印出来对应的译文. 步骤 解决反爬 上码 加界面 结果展示 Python爬虫实例:自制翻译机 一起试试爬取有道翻 ...

  5. python爬虫简单实例-最简单的Python爬虫案例,看得懂说明你已入门,附赠教程

    原标题:最简单的Python爬虫案例,看得懂说明你已入门,附赠教程 这是最简单的Python爬虫案例,如果你能看懂,那么请你保持信心,因为你已经入门Python爬虫,只要带着信心和努力,你的技术能力在 ...

  6. python爬虫进阶案例,Python进阶(二十)-Python爬虫实例讲解

    #Python进阶(二十)-Python爬虫实例讲解 本篇博文主要讲解Python爬虫实例,重点包括爬虫技术架构,组成爬虫的关键模块:URL管理器.HTML下载器和HTML解析器. ##爬虫简单架构 ...

  7. 一个简单的python爬虫程序

    #简介 在每次论文被拒再投的过程中,都需要查询最近的与自己论文相关的会议列表.每到这种情况,我一遍采用的是遍历会伴www.myhuiban.com的网站,然后逐个查看会议,关注的有三点,投稿日期,cc ...

  8. Python爬虫实例(3)--BeautifulSoup的CSS选择器

    Python爬虫实例 紧接着上一讲的内容. 我们初步了解了bs4这个解析库. 但是bs4难道只有find,find_all了吗? 如果层次比较深,相似的元素比较多,和可能会写的比较长. 最主要的是很难 ...

  9. python爬虫实例教程之豆瓣电影排行榜--python爬虫requests库

    我们通过requests库进行了简单的网页采集和百度翻译的操作,这一节课我们继续进行案例的讲解–python爬虫实例教程之豆瓣电影排行榜,这次的案例与上节课案例相似,同样会涉及到JSON模块,异步加载 ...

最新文章

  1. Imageloader7-获取图片需要显示的大小
  2. Delphi中methodaddress的代码解析
  3. ai创造了哪些职业_关于创造职业的思考
  4. spring-使用配置文件完成JdbcTemplate操作数据库
  5. Microsoft Build 2018 直播来啦!
  6. c语言正确理解以下名词及其含义,C程序作业答案.doc
  7. 用深度强化学习玩atari游戏_(一)深度强化学习·入门从游戏开始
  8. debian关闭开机自动启动时候的gui
  9. JavaScript异常处理
  10. Android开发笔记(五十三)远程接口调用AIDL
  11. 被高估了的测试驱动开发?
  12. python如何读取二进制文件为图片_关于Python获取图片文件二进制数据的问题(获取为空)...
  13. 2021-09-13 QCC3003 回连
  14. 收件人、寄件人如何根据快递单号查询物流进度
  15. 微信公众号开发前端逻辑
  16. riopoly matlab,rio极简数据导入教程
  17. 《快速软件开发》读书心得
  18. 考虑分布式光伏储能系统的优化配置方法(源码公开)
  19. 软件测试:等价类划分举例
  20. 美容仪上日本亚马逊需要PSE认证METI备案

热门文章

  1. powerdesigner自动生成代码的修改
  2. MySQL 数据库的备份和恢复
  3. wireshark数据包分析实战
  4. 将输出的数据按照表格的形式进行输出
  5. BugkuCTF-Misc:啊哒~
  6. java-web hibernate中的懒加载问题
  7. C 语言资源大全中文版
  8. Leetcode-单调数列(896)
  9. js大屏导出图片_超大图片全屏动态展示js插件
  10. FileProvider 在 Android N 上的应用