python3 requests+bs4爬取某网页MM图片

原理：
将所要抓取的首页分标题及地址保存到字典，遍历字典，对每一个标题下的所有分页进行抓取

import requests
from bs4 import BeautifulSoup
import urllib
import os
import re#获取网页Html页面
def getHTMLText(url):try:r=requests.get(url,timeout=30)r.raise_for_status()r.encoding=r.apparent_encodingreturn r.textexcept:return ""#为图片创建文件夹并保存
def get_img(path,url):path = "D://e//" + pathisExists=os.path.exists(path)if not isExists:os.makedirs(path) i = 3while True:n = url.find("/",(len(url)-i))if n<0:i = i + 1else:breakimg = requests.get(url) f = open(path+"//"+url[n+1:],'ab') f.write(img.content)f.close()print("文件保存成功")
def get_in_html(url) :start_url=urlhtml=getHTMLText(start_url)soup = BeautifulSoup(html,"html.parser")pageInfo = soup.find(class_="itempage")ss  =str(pageInfo.contents[0])name = soup.h1.textpage2 =int(ss[4:-7])tag_soup = soup.find(class_="picsbox picsboxcenter")imgUrl = tag_soup.img["src"]print("第1页")get_img(name,imgUrl)i = 2while i<=int(page2):temp_url = start_url[:-5] + "_" + str(i) + ".html"html=getHTMLText(temp_url)soup = BeautifulSoup(html,"html.parser")tag_soup = soup.find(class_="picsbox picsboxcenter")imgUrl = tag_soup.img["src"]print("第" + str(i) + "页")get_img(name,imgUrl)i = i+1def main():pa = 1info = {}while pa<=20:start_url="https://******xiaohua/list_6_%d.html"%pa#7160html=getHTMLText(start_url)soup = BeautifulSoup(html,"html.parser")for k in soup.select("body > div > div.center > div > div.news_bom > div.news_bom-left > ul > ul > li > a"):info[(start_url[0:(start_url.find(".com")+4)]) + k['href']] = k['title']pa = pa + 1print(len (info))for k in info.keys():print("开始网页："+ k)get_in_html(k) main()

python3 requests+bs4爬取某网页MM图片相关推荐

python爬虫 requests+bs4爬取猫眼电影傻瓜版教程
python爬虫 requests+bs4爬取猫眼电影傻瓜版教程前言一丶整体思路二丶遇到的问题三丶分析URL 四丶解析页面五丶写入文件六丶完整代码七丶最后前言大家好我是墨绿头顶总 ...
Python借助爬虫Requests+BS4爬取人民教育出版社义务教育下学期课本（二）
文章目录思路梳理封装函数重要提示系列文章思路梳理我们打开网页,可以看到这其中有许多链接,我们可以查看一下网页源代码,可以看到如我们所期盼的一样,这里有许多的链接,我们只需要把链接爬取出来就 ...
Python借助爬虫Requests+BS4爬取人民教育出版社义务教育下学期课本（一）
经过一晚上的休息,我已经重新从阴影中站了起来,并重新发现了一个人性化的网站,一起来看看这个网站吧来到了人民教育出版社的官网,一看,顿时晕眩三秒,我昨天的努力不都白费了吗,只得重新打起精神,研究一下这 ...
Python requests+bs4爬取中药数据库TCMSP的资源获得清肺排毒汤的靶向基因(曲线救国)
Python requests+bs4 爬取TCMSP的资源获得清肺排毒汤的靶向基因为研究清肺排毒汤的中药材对于新冠肺炎的作用机制,需要收集相关数据,于是将目光洒向了TCMSP.. 检索首页是这样的 ...
python利用bs4爬取外国高清图片网站
python利用bs4爬取外国高清图片网站爬取高清图片爬取高清图片 import re import requests from bs4 import BeautifulSoup import o ...
Python的Requests来爬取今日头条的图片和文章
Python的Requests来爬取今日头条的图片和文章并且存入mongo config.py MONGO_HOST = 'localhost' MONGO_PORT = 27017 MONGO_DB ...
《爬虫》爬取谷歌网页“人脸”图片
爬取谷歌网页搜索的关于"人脸"的图片目标:谷歌搜索"人脸" 网页搜索出现的图片 selenium:模拟浏览器的工具.(还需要下载ChromeDriver 放到 ...
python采用requests+bs4爬取豆瓣top250电影信息
爬取豆瓣top250电影说明 (链接:https://movie.douban.com/top250,可爬取一页或者多页(输出电影的正标题(肖申克的救赎),副标题( The Shawshank Red ...
python 爬虫（一） requests+BeautifulSoup 爬取简单网页图片代码示例
最近学习了Python,借助各个大神的文章,自己写了以下代码,来爬取网页图片,希望可以帮助到大家. 工具是 idea #coding=utf-8 import requests from bs4 im ...

python3 requests+bs4爬取某网页MM图片

python3 requests+bs4爬取某网页MM图片

python3 requests+bs4爬取某网页MM图片相关推荐

最新文章

热门文章