python3 requests+bs4爬取某网页MM图片

原理:
将所要抓取的首页分标题及地址保存到字典,遍历字典,对每一个标题下的所有分页进行抓取

import requests
from bs4 import BeautifulSoup
import urllib
import os
import re#获取网页Html页面
def getHTMLText(url):try:r=requests.get(url,timeout=30)r.raise_for_status()r.encoding=r.apparent_encodingreturn r.textexcept:return ""#为图片创建文件夹并保存
def get_img(path,url):path = "D://e//" + pathisExists=os.path.exists(path)if not isExists:os.makedirs(path) i = 3while True:n = url.find("/",(len(url)-i))if n<0:i = i + 1else:breakimg = requests.get(url) f = open(path+"//"+url[n+1:],'ab') f.write(img.content)f.close()print("文件保存成功")
def get_in_html(url) :start_url=urlhtml=getHTMLText(start_url)soup = BeautifulSoup(html,"html.parser")pageInfo = soup.find(class_="itempage")ss  =str(pageInfo.contents[0])name = soup.h1.textpage2 =int(ss[4:-7])tag_soup = soup.find(class_="picsbox picsboxcenter")imgUrl = tag_soup.img["src"]print("第1页")get_img(name,imgUrl)i = 2while i<=int(page2):temp_url = start_url[:-5] + "_" + str(i) + ".html"html=getHTMLText(temp_url)soup = BeautifulSoup(html,"html.parser")tag_soup = soup.find(class_="picsbox picsboxcenter")imgUrl = tag_soup.img["src"]print("第" + str(i) + "页")get_img(name,imgUrl)i = i+1def main():pa = 1info = {}while pa<=20:start_url="https://******xiaohua/list_6_%d.html"%pa#7160html=getHTMLText(start_url)soup = BeautifulSoup(html,"html.parser")for k in soup.select("body > div > div.center > div > div.news_bom > div.news_bom-left > ul > ul > li > a"):info[(start_url[0:(start_url.find(".com")+4)]) + k['href']] = k['title']pa = pa + 1print(len (info))for k in info.keys():print("开始网页:"+ k)get_in_html(k) main()

python3 requests+bs4爬取某网页MM图片相关推荐

  1. python爬虫 requests+bs4爬取猫眼电影 傻瓜版教程

    python爬虫 requests+bs4爬取猫眼电影 傻瓜版教程 前言 一丶整体思路 二丶遇到的问题 三丶分析URL 四丶解析页面 五丶写入文件 六丶完整代码 七丶最后 前言 大家好我是墨绿 头顶总 ...

  2. Python借助爬虫Requests+BS4爬取人民教育出版社义务教育下学期课本(二)

    文章目录 思路梳理 封装函数 重要提示 系列文章 思路梳理 我们打开网页,可以看到这其中有许多链接,我们可以查看一下网页源代码,可以看到如我们所期盼的一样,这里有许多的链接,我们只需要把链接爬取出来就 ...

  3. Python借助爬虫Requests+BS4爬取人民教育出版社义务教育下学期课本(一)

    经过一晚上的休息,我已经重新从阴影中站了起来,并重新发现了一个人性化的网站,一起来看看这个网站吧 来到了人民教育出版社的官网,一看,顿时晕眩三秒,我昨天的努力不都白费了吗,只得重新打起精神,研究一下这 ...

  4. Python requests+bs4爬取中药数据库TCMSP的资源获得清肺排毒汤的靶向基因(曲线救国)

    Python requests+bs4 爬取TCMSP的资源获得清肺排毒汤的靶向基因 为研究清肺排毒汤的中药材对于新冠肺炎的作用机制,需要收集相关数据,于是将目光洒向了TCMSP.. 检索首页是这样的 ...

  5. python利用bs4爬取外国高清图片网站

    python利用bs4爬取外国高清图片网站 爬取高清图片 爬取高清图片 import re import requests from bs4 import BeautifulSoup import o ...

  6. Python的Requests来爬取今日头条的图片和文章

    Python的Requests来爬取今日头条的图片和文章并且存入mongo config.py MONGO_HOST = 'localhost' MONGO_PORT = 27017 MONGO_DB ...

  7. 《爬虫》爬取谷歌网页“人脸”图片

    爬取谷歌网页搜索的关于"人脸"的图片 目标:谷歌搜索"人脸" 网页搜索出现的图片 selenium:模拟浏览器的工具.(还需要下载ChromeDriver 放到 ...

  8. python采用requests+bs4爬取豆瓣top250电影信息

    爬取豆瓣top250电影说明 (链接:https://movie.douban.com/top250,可爬取一页或者多页(输出电影的正标题(肖申克的救赎),副标题( The Shawshank Red ...

  9. python 爬虫(一) requests+BeautifulSoup 爬取简单网页图片代码示例

    最近学习了Python,借助各个大神的文章,自己写了以下代码,来爬取网页图片,希望可以帮助到大家. 工具是 idea #coding=utf-8 import requests from bs4 im ...

最新文章

  1. 监控程序崩溃重启_Bug 10 重启和正常输入的抉择记录
  2. Linux笔记-iptables模拟公司环境配置
  3. java代码_Java 代码优化
  4. 线性表-串:KMP模式匹配算法
  5. 内核解密 | Oracle 18c 数据库安装ORA-12754的两种解决方案
  6. TypeScript算法专题 - blog2 - 单链表节点的索引、结点删除与链表反转
  7. 前端MVC学习笔记第二课
  8. 中国企业软件为什么如此的难
  9. 如何重装win10应用商店?
  10. 苹果PD快充数据线的MFi认证查询方法
  11. 综述(十六)北京智慧城市发展规划的政策分析
  12. PHP 网页调用本地exe程序实例
  13. Web大学生网页作业成品 基于HTML+CSS+JavaScript个人简历介绍 学生个人网站作业设计代做 学生个人网页设计作品
  14. HDMI转 toMIPI DSI驱动板1080P 2K 4K TC358870 东芝IC LCD 3D打印机 VR 永星电子 Yongxing
  15. 河北职称计算机2012试题,2012年河北省职称计算机考试试题和答案.doc
  16. 【Leetcode单调队列】- 洛谷P1714切蛋糕
  17. 2018上海国际3D打印产业展览会
  18. 关于给hexo博客增加随笔页面(并对页面仿信纸作业纸样式修饰)
  19. 金和JCS协同平台套件系统怎么样?
  20. 【Java 8系列】Java日期时间的新主宰者:LocalDate、LocalTime、LocalDateTime、ZonedDateTime

热门文章

  1. WPF Visifire使用
  2. 匿名软件竟成网络侵权避风港
  3. Scrapy-CrawlSpider爬虫组件
  4. 用JavaScript写一个类似于windows的气泡屏保效果
  5. 基于SpringBoot的电子招标投标管理系统
  6. 我国贸易顺差剧增的主要原因
  7. 孝心无价-毕淑敏[转]
  8. 计算机应用EXCEL之数据看板制作
  9. 【毕业设计】机器视觉答题卡识别系统 - python 深度学习
  10. Unity Shader - 模仿RenderImage制作全屏Quad,可以制作自定义后处理的流程