github地址:https://github.com/531126085/Web-spider
download——mm是从煎蛋网上批量下载图片到自己新建的一个xxoo的文件夹下

import urllib.request
import osdef url_open(url):req = urllib.request.Request(url)req.add_header('User-Agent','Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36')response = urllib.request.urlopen(url)html = response.read()return htmldef get_page(url):html = url_open(url).decode('utf-8')a = html.find('current-comment-page') + 23b = html.find(']',a)return html[a:b]def find_imgs(url):html = url_open(url).decode('utf-8') img_addrs = []a = html.find('img src=')while a!=-1:b = html.find('.jpg',a, a+255)if b != -1:img_addrs.append('http:'+html[a+9:b+4])else:b = a+9a = html.find('img src=',b)return img_addrsdef save_imgs(folder,img_addrs):for each in img_addrs:filename = each.split('/')[-1]with open(filename,'wb') as f:img = url_open(each)f.write(img)def download_mm(folder='ooxx',pages=10):os.mkdir(folder)os.chdir(folder)url = "http://jandan.net/ooxx/"page_num =int(get_page(url))for i in range(pages):page_num -= ipage_url = url + 'page-' + str(page_num) + '#comments'img_addrs = find_imgs(page_url)save_imgs(folder,img_addrs)if __name__=='__main__':download_mm()


download——quanyou是从权力的游戏贴吧上下载图片到当前的工作目录

import urllib.request
import redef open_url(url):req = urllib.request.Request(url)req.add_header('User-Agent','Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36')page = urllib.request.urlopen(req)html = page.read().decode('utf-8')return htmldef get_img(html):p = r'<img class="BDE_Image" src="([^"]+\.jpg)"'#采用正则表达式查找图片的地址imglist = re.findall(p,html)          #findall函数,如果正则表达式里有带()的,则查找到之后会将括号的里面的信息返回给imglistfor each in imglist:print(each)for each in imglist:filename = each.split("/")[-1]urllib.request.urlretrieve(each,filename,None)if __name__=='__main__':url = "http://tieba.baidu.com/p/6093575289?pid=125013245611&cid=0#125013245611"get_img(open_url(url))

爬虫程序,从图片网站或者贴吧爬取图片(含代码)相关推荐

  1. Python爬虫实战—vmgrils图片网站

    一.实战背景 唯美女生:https://www.vmgirls.com/ 少女情怀总是诗,一双发现美的眼睛! 工具:Python3.7,PyCharm 程序所需用到的模块:requests,fake_ ...

  2. img绝对路径图片显示_使用python爬虫去风景图片网站批量下载图片

    使用python爬虫(requests,BeautifulSoup)去风景图片网站批量下载图片 1.写代码背景: 今天闲来无事,想弄点图片放到电脑,方便以后使用,故去百度查找一些风景图片网站,发现图片 ...

  3. 关于java爬虫手机壁纸图片网站

    最近爬了一些壁纸网站的壁纸,这里总结下如何用Jsoup去爬图片. 首先获取图片网站的地址,用F12看下网站里面的图片是放在哪个地方的. 通过f12就可以看到图片是放在div的标签下面的, 然后获取图片 ...

  4. 利用Python网络爬虫获取分类图片,简单处理反爬教学

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 本文章来自腾讯云 作者:Python进阶者 想要学习Python?有问题得不到第一 ...

  5. 爬虫小试-将某网站内的试题爬取出来并保存到本地word

    emmm,因为要刷作业的试题(QWQ题目实在是太多了),在机缘巧合之下竟发现老师上传的题目全部是某网站上的,于是乎哈哈哈,爬下来做题库方便查询(Ctrl+F),下面进入正题,爬 使用到的模块 requ ...

  6. 爬虫--用python中requests和urllib模块爬取图片

    今天突发奇想小试爬虫,获取一下某素材站一些图片 实现步骤如下: import re import requests from urllib import request import os# 1.首先 ...

  7. python 正则表达式爬图片_利用python正则表达式爬取图片

    .*?(.*?)' + '.*?class="IcoList">(.*?).*?class="IcoTime">(.*?)', re.S) item ...

  8. 使用PyCharm编写Scrapy爬虫程序,爬取古诗词网站

    使用PyCharm编写Scrapy爬虫程序,爬取古诗词网站 本次测试案例参考厦门大学数据库实验室 链接: https://dblab.xmu.edu.cn/blog/3937/ 在PyCharm中新建 ...

  9. python如何爬取图片到指定文件夹论文_基于Python的图片爬虫程序设计

    互联网中包含大量有价值的 数据,网络爬虫通过既定规则可 以自动地抓取互联网数据并下载 至本地存储.研究网络爬虫的工 作原理和基于 Python 网络信息爬 取技术模块功能,基于 Requests- B ...

最新文章

  1. 洛谷P2587 [ZJOI2008]泡泡堂
  2. Fatal error: cannot allocate memory for the buffer pool
  3. linux服务器上svn的log_Linux服务器上搭建svn服务器
  4. VC的Win32控制台程序中使用MFC库文件
  5. java中可重入锁的学习总结
  6. android 拦截外拨电话,Android拦截外拨电话程序示例
  7. codeigniter mysql查询_php – CodeIgniter MySQL查询不起作用
  8. Git Stash解释:如何在Git中临时存储本地更改
  9. HTML5初探 - 基本的HTML5模版
  10. Linux 驱动层实现阻塞和非阻塞
  11. 360全景拼接 opencv_广州海珠区专业改全景,丰田塞纳改3D全景,360全景行车记录仪的功能...
  12. opencv-python:17_图像经典边缘检测算子(边缘检测、图像梯度、Roberts算子、Prewitt算子、Sobel 算子、Laplacian 算子、Canny算子、算子优缺点对比)
  13. 2021.11.20【读书笔记】|差异可变剪接事件及DTU分析
  14. mySQL基础之常见函数
  15. 1年2轮融资团队2倍扩张,180人的产研团队如何有序协同?
  16. Pytorch | 学习笔记(二)
  17. HTML5期末大作业:电影网站设计——电影资讯博客(5页) HTML+CSS+JavaScript 学生DW网页设计作业成品 web课程设计网页规划与设计 web学生网页设计作业源码
  18. ctfshow---命令执行
  19. HDU 2952 Counting Sheep (DFS找联通块)
  20. C. Unusual Competitions

热门文章

  1. 添加水印(文字and图片)
  2. JBoss was unable to start within 50 seconds-JBoss启动超时
  3. ActiveX (.ocx)的写法,及在IE里调用
  4. ArrayList初步
  5. python-匿名函数lambda
  6. HTML基础第三讲---字体
  7. linux下监控用户的操作记录
  8. 图解sqlserver 2000 还原数据库的基本操作
  9. 微信小程序实践_1前言
  10. linux/CentOS 6忘记root密码解决办法