爬虫程序，从图片网站或者贴吧爬取图片（含代码）

github地址：https://github.com/531126085/Web-spider
download——mm是从煎蛋网上批量下载图片到自己新建的一个xxoo的文件夹下

import urllib.request
import osdef url_open(url):req = urllib.request.Request(url)req.add_header('User-Agent','Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36')response = urllib.request.urlopen(url)html = response.read()return htmldef get_page(url):html = url_open(url).decode('utf-8')a = html.find('current-comment-page') + 23b = html.find(']',a)return html[a:b]def find_imgs(url):html = url_open(url).decode('utf-8') img_addrs = []a = html.find('img src=')while a!=-1:b = html.find('.jpg',a, a+255)if b != -1:img_addrs.append('http:'+html[a+9:b+4])else:b = a+9a = html.find('img src=',b)return img_addrsdef save_imgs(folder,img_addrs):for each in img_addrs:filename = each.split('/')[-1]with open(filename,'wb') as f:img = url_open(each)f.write(img)def download_mm(folder='ooxx',pages=10):os.mkdir(folder)os.chdir(folder)url = "http://jandan.net/ooxx/"page_num =int(get_page(url))for i in range(pages):page_num -= ipage_url = url + 'page-' + str(page_num) + '#comments'img_addrs = find_imgs(page_url)save_imgs(folder,img_addrs)if __name__=='__main__':download_mm()

download——quanyou是从权力的游戏贴吧上下载图片到当前的工作目录

import urllib.request
import redef open_url(url):req = urllib.request.Request(url)req.add_header('User-Agent','Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36')page = urllib.request.urlopen(req)html = page.read().decode('utf-8')return htmldef get_img(html):p = r'<img class="BDE_Image" src="([^"]+\.jpg)"'#采用正则表达式查找图片的地址imglist = re.findall(p,html)          #findall函数，如果正则表达式里有带（）的，则查找到之后会将括号的里面的信息返回给imglistfor each in imglist:print(each)for each in imglist:filename = each.split("/")[-1]urllib.request.urlretrieve(each,filename,None)if __name__=='__main__':url = "http://tieba.baidu.com/p/6093575289?pid=125013245611&cid=0#125013245611"get_img(open_url(url))

爬虫程序，从图片网站或者贴吧爬取图片（含代码）相关推荐

Python爬虫实战—vmgrils图片网站
一.实战背景唯美女生:https://www.vmgirls.com/ 少女情怀总是诗,一双发现美的眼睛! 工具:Python3.7,PyCharm 程序所需用到的模块:requests,fake_ ...
img绝对路径图片显示_使用python爬虫去风景图片网站批量下载图片
使用python爬虫(requests,BeautifulSoup)去风景图片网站批量下载图片 1.写代码背景: 今天闲来无事,想弄点图片放到电脑,方便以后使用,故去百度查找一些风景图片网站,发现图片 ...
关于java爬虫手机壁纸图片网站
最近爬了一些壁纸网站的壁纸,这里总结下如何用Jsoup去爬图片. 首先获取图片网站的地址,用F12看下网站里面的图片是放在哪个地方的. 通过f12就可以看到图片是放在div的标签下面的, 然后获取图片 ...
利用Python网络爬虫获取分类图片，简单处理反爬教学
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理本文章来自腾讯云作者:Python进阶者想要学习Python?有问题得不到第一 ...
爬虫小试-将某网站内的试题爬取出来并保存到本地word
emmm,因为要刷作业的试题(QWQ题目实在是太多了),在机缘巧合之下竟发现老师上传的题目全部是某网站上的,于是乎哈哈哈,爬下来做题库方便查询(Ctrl+F),下面进入正题,爬使用到的模块 requ ...
爬虫--用python中requests和urllib模块爬取图片
今天突发奇想小试爬虫,获取一下某素材站一些图片实现步骤如下: import re import requests from urllib import request import os# 1.首先 ...
python 正则表达式爬图片_利用python正则表达式爬取图片
.*?(.*?)' + '.*?class="IcoList">(.*?).*?class="IcoTime">(.*?)', re.S) item ...
使用PyCharm编写Scrapy爬虫程序，爬取古诗词网站
使用PyCharm编写Scrapy爬虫程序,爬取古诗词网站本次测试案例参考厦门大学数据库实验室链接: https://dblab.xmu.edu.cn/blog/3937/ 在PyCharm中新建 ...
python如何爬取图片到指定文件夹论文_基于Python的图片爬虫程序设计
互联网中包含大量有价值的数据,网络爬虫通过既定规则可以自动地抓取互联网数据并下载至本地存储.研究网络爬虫的工作原理和基于 Python 网络信息爬取技术模块功能,基于 Requests- B ...

爬虫程序，从图片网站或者贴吧爬取图片（含代码）

爬虫程序，从图片网站或者贴吧爬取图片（含代码）相关推荐

最新文章

热门文章