Crawler:爬虫基于urllib.request库实现获取指定网址上的所有图片

目录

输出结果

核心代码


输出结果

核心代码

# coding=gbk
import urllib.request
import re
import os
import urllibdef getHtml(url):  #指定网址获取函数page = urllib.request.urlopen(url)html = page.read()return html.decode('UTF-8')def getImg(html):  #定义获取图片函数reg = r'src="(.+?\.jpg)" pic_ext'imgre = re.compile(reg)imglist = imgre.findall(html)x = 0path = r'F:\File_Python\Crawler'  # 将图片保存到F:\File_Python\Crawler文件夹中,如果没有Crawler文件夹,将会自动则创建if not os.path.isdir(path):  os.makedirs(path)  paths = path+'\\'     for imgurl in imglist:  #打开in集合中保存的imgurl图片网址,循环下载图片保存在本地urllib.request.urlretrieve(imgurl,'{}{}.jpg'.format(paths,x))   x = x + 1  return imglist
html = getHtml("https://tieba.baidu.com/p/2460150866?pn=10")#指定获取图片的网址路径
print (getImg(html))

Crawler:爬虫基于urllib.request库实现获取指定网址上的所有图片相关推荐

  1. Crawler/ML:爬虫技术(基于urllib.request库从网页获取图片)+HierarchicalClustering层次聚类算法,实现自动从网页获取图片然后根据图片色调自动分类

    Crawler/ML:爬虫技术(基于urllib.request库从网页获取图片)+HierarchicalClustering层次聚类算法,实现自动从网页获取图片然后根据图片色调自动分类 目录 一. ...

  2. Crawler:基于urllib+requests库+伪装浏览器实现爬取国内知名招聘网站,上海地区与机器学习有关的招聘信息(2018.4.30之前)并保存在csv文件内

    Crawler:基于urllib+requests库+伪装浏览器实现爬取国内知名招聘网站,上海地区与机器学习有关的招聘信息(2018.4.30之前)并保存在csv文件内 目录 输出结果 设计思路 核心 ...

  3. python爬虫用urllib还是reques_Python爬虫之urllib.request库

    爬虫--urllib.request库的基本使用 所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地.在Python中有很多库可以用来抓取网页,我们先学习urllib.req ...

  4. Crawler:基于urllib库获取cn-proxy代理的IP地址

    Crawler:基于urllib库获取cn-proxy代理的IP地址 目录 输出结果 实现代码 输出结果 后期更新-- 实现代码 import urllib.request import re imp ...

  5. Crawler:基于urllib库+实现爬虫有道翻译

    Crawler:基于urllib库+实现爬虫有道翻译 目录 输出结果 设计思路 实现步骤 输出结果 后期更新-- 设计思路 第一步:首先要知道,data里面的内容是都需要在代码中发送给服务器的. 第二 ...

  6. 使用urllib.request库获取cookie登录

    使用urllib.request库获取cookie登录 一 .使用手动添加cookie的方式来获取页面 二.使用 cookiejar 自动获取登录后获得的cookie 一 .使用手动添加cookie的 ...

  7. python爬虫用urllib还是reques,python爬虫中urllib.request和requests有什么区别?

    在学习python爬虫,想要检索request相关内容时,往往会出现urllib.request和requests这两个词,urllib.request和requests都是python爬虫的模块,其 ...

  8. 自定义request_python3下urllib.request库之Handle处理器和自定义Opener

    python3下urllib.request库高级应用之Handle处理器和自定义Opener python3下urllib.request库高级应用之Handle处理器和自定义Opener 经过前面 ...

  9. 14. python爬虫——基于scrapy框架爬取糗事百科上的段子内容

    python爬虫--基于scrapy框架爬取糗事百科上的段子内容 1.需求 2.分析及实现 3.实现效果 4.进行持久化存储 (1)基于终端指令 (2)基于管道 [前置知识]python爬虫--scr ...

最新文章

  1. 凭借128核芯片,安培寻求提供可靠的进步
  2. Python学习一——Python下载安装
  3. 【设计模式】各设计模式设计的可变部分的支持
  4. 上交大本科毕业,获ICRA最佳学生论文、机器人控制双奖项
  5. C++ 的 allocator类 提供类型化的内存分配以及对象的分配和撤销
  6. 运算符重载——拷贝构造函数与赋值运算符的区别、如何实现赋值运算符的深拷贝
  7. html 文本框 p,Javascript实现HTML表单form多个HttpPost请求
  8. open函数返回-1_Linux驱动开发 / 字符设备驱动内幕 (1)
  9. 前端js获取屏幕高度
  10. 二分查找边界问题总结
  11. java获取excel行数_Java如何利用POI读取Excel行数
  12. 阿里云盘下载与公测预约(最新)
  13. CentOS 各版本的下载
  14. 全国计算机奥林匹克竞赛试题及答案,奥林匹克物理竞赛试题及答案
  15. guidata handles理解
  16. 实现一个简单的栅格系统
  17. easyswoole3.2重启不成功
  18. 壳聚糖基原位水凝胶包载角膜缘干细胞/纳米壳聚糖骨形态发生蛋白水凝胶的研究制备
  19. 我在Salira的800天(2009.5.20~2011.7.29)
  20. 聊一聊团队管理:如何搭建自己的管理体系!

热门文章

  1. Linux驱动调试中的Debugfs的使用简介 CONFIG_DEBUG_FS 的功能与配置
  2. Linux运维之常见命令
  3. React项目动态设置title标题
  4. spring boot数据库操作汇总
  5. mysql在cmd命令下执行数据库操作
  6. Linq入门博客系列地址http://www.cnblogs.com/lifepoem/category/330218.html
  7. 关于Element中的clientWidth,scrollWidth,offsetWidth等属性详解
  8. 我是如何在阿里巴巴面试中壮烈牺牲的?(内含面试题)
  9. 物联网、云计算、大数据、人工智能之间有怎样的联系和区别?
  10. 深入理解 Session 与 Cookie