爬虫程序,从图片网站或者贴吧爬取图片(含代码)
github地址:https://github.com/531126085/Web-spider
download——mm是从煎蛋网上批量下载图片到自己新建的一个xxoo的文件夹下
import urllib.request
import osdef url_open(url):req = urllib.request.Request(url)req.add_header('User-Agent','Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36')response = urllib.request.urlopen(url)html = response.read()return htmldef get_page(url):html = url_open(url).decode('utf-8')a = html.find('current-comment-page') + 23b = html.find(']',a)return html[a:b]def find_imgs(url):html = url_open(url).decode('utf-8') img_addrs = []a = html.find('img src=')while a!=-1:b = html.find('.jpg',a, a+255)if b != -1:img_addrs.append('http:'+html[a+9:b+4])else:b = a+9a = html.find('img src=',b)return img_addrsdef save_imgs(folder,img_addrs):for each in img_addrs:filename = each.split('/')[-1]with open(filename,'wb') as f:img = url_open(each)f.write(img)def download_mm(folder='ooxx',pages=10):os.mkdir(folder)os.chdir(folder)url = "http://jandan.net/ooxx/"page_num =int(get_page(url))for i in range(pages):page_num -= ipage_url = url + 'page-' + str(page_num) + '#comments'img_addrs = find_imgs(page_url)save_imgs(folder,img_addrs)if __name__=='__main__':download_mm()
download——quanyou是从权力的游戏贴吧上下载图片到当前的工作目录
import urllib.request
import redef open_url(url):req = urllib.request.Request(url)req.add_header('User-Agent','Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36')page = urllib.request.urlopen(req)html = page.read().decode('utf-8')return htmldef get_img(html):p = r'<img class="BDE_Image" src="([^"]+\.jpg)"'#采用正则表达式查找图片的地址imglist = re.findall(p,html) #findall函数,如果正则表达式里有带()的,则查找到之后会将括号的里面的信息返回给imglistfor each in imglist:print(each)for each in imglist:filename = each.split("/")[-1]urllib.request.urlretrieve(each,filename,None)if __name__=='__main__':url = "http://tieba.baidu.com/p/6093575289?pid=125013245611&cid=0#125013245611"get_img(open_url(url))
爬虫程序,从图片网站或者贴吧爬取图片(含代码)相关推荐
- Python爬虫实战—vmgrils图片网站
一.实战背景 唯美女生:https://www.vmgirls.com/ 少女情怀总是诗,一双发现美的眼睛! 工具:Python3.7,PyCharm 程序所需用到的模块:requests,fake_ ...
- img绝对路径图片显示_使用python爬虫去风景图片网站批量下载图片
使用python爬虫(requests,BeautifulSoup)去风景图片网站批量下载图片 1.写代码背景: 今天闲来无事,想弄点图片放到电脑,方便以后使用,故去百度查找一些风景图片网站,发现图片 ...
- 关于java爬虫手机壁纸图片网站
最近爬了一些壁纸网站的壁纸,这里总结下如何用Jsoup去爬图片. 首先获取图片网站的地址,用F12看下网站里面的图片是放在哪个地方的. 通过f12就可以看到图片是放在div的标签下面的, 然后获取图片 ...
- 利用Python网络爬虫获取分类图片,简单处理反爬教学
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 本文章来自腾讯云 作者:Python进阶者 想要学习Python?有问题得不到第一 ...
- 爬虫小试-将某网站内的试题爬取出来并保存到本地word
emmm,因为要刷作业的试题(QWQ题目实在是太多了),在机缘巧合之下竟发现老师上传的题目全部是某网站上的,于是乎哈哈哈,爬下来做题库方便查询(Ctrl+F),下面进入正题,爬 使用到的模块 requ ...
- 爬虫--用python中requests和urllib模块爬取图片
今天突发奇想小试爬虫,获取一下某素材站一些图片 实现步骤如下: import re import requests from urllib import request import os# 1.首先 ...
- python 正则表达式爬图片_利用python正则表达式爬取图片
.*?(.*?)' + '.*?class="IcoList">(.*?).*?class="IcoTime">(.*?)', re.S) item ...
- 使用PyCharm编写Scrapy爬虫程序,爬取古诗词网站
使用PyCharm编写Scrapy爬虫程序,爬取古诗词网站 本次测试案例参考厦门大学数据库实验室 链接: https://dblab.xmu.edu.cn/blog/3937/ 在PyCharm中新建 ...
- python如何爬取图片到指定文件夹论文_基于Python的图片爬虫程序设计
互联网中包含大量有价值的 数据,网络爬虫通过既定规则可 以自动地抓取互联网数据并下载 至本地存储.研究网络爬虫的工 作原理和基于 Python 网络信息爬 取技术模块功能,基于 Requests- B ...
最新文章
- 洛谷P2587 [ZJOI2008]泡泡堂
- Fatal error: cannot allocate memory for the buffer pool
- linux服务器上svn的log_Linux服务器上搭建svn服务器
- VC的Win32控制台程序中使用MFC库文件
- java中可重入锁的学习总结
- android 拦截外拨电话,Android拦截外拨电话程序示例
- codeigniter mysql查询_php – CodeIgniter MySQL查询不起作用
- Git Stash解释:如何在Git中临时存储本地更改
- HTML5初探 - 基本的HTML5模版
- Linux 驱动层实现阻塞和非阻塞
- 360全景拼接 opencv_广州海珠区专业改全景,丰田塞纳改3D全景,360全景行车记录仪的功能...
- opencv-python:17_图像经典边缘检测算子(边缘检测、图像梯度、Roberts算子、Prewitt算子、Sobel 算子、Laplacian 算子、Canny算子、算子优缺点对比)
- 2021.11.20【读书笔记】|差异可变剪接事件及DTU分析
- mySQL基础之常见函数
- 1年2轮融资团队2倍扩张,180人的产研团队如何有序协同?
- Pytorch | 学习笔记(二)
- HTML5期末大作业:电影网站设计——电影资讯博客(5页) HTML+CSS+JavaScript 学生DW网页设计作业成品 web课程设计网页规划与设计 web学生网页设计作业源码
- ctfshow---命令执行
- HDU 2952 Counting Sheep (DFS找联通块)
- C. Unusual Competitions