写在前面

这么久了,代码还是那么烂。。。。

环境:Windows10 编辑器:Pycharm 用到的库:os requests bs4 URL = www.dbmeinv.com

开始爬取

第一步:获取单页图片地址

网页结构 图片放在ul标签下的img标签下面,所以我们可以这样写代码

def get_Imgs(url):try:headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36'}response = requests.get(url, headers=headers)response.raise_for_status() //判断状态码是否为200response.encoding = response.apparent_encoding #response.encoding = 'utf-8'soup = BeautifulSoup(response.text, 'lxml')for url in soup.find('ul', {'class':'thumbnails'}).find_all('img'):all_url.append(url['src'])return all_urlexcept:return "error"
第二步:抓取多页

URL结构 抓取多页的话就可以改一下URL后边的数字,代码可以这样写

url = 'https://www.dbmeinv.com/?pager_offset='try:for i in range(10):get_Imgs(url + str(i))except:return "error"
第三步:保存图片

def save_imgs():dir_name = 'pic'if not os.path.exists(dir_name):os.mkdir(dir_name)os.chdir(dir_name)try:for i,url in enumerate(all_url):with open('./' + str(i) + '.jpg', 'wb') as f:f.write(requests.get(url).content)except:return "error"

放上完整的代码

import os
import requests
from bs4 import BeautifulSoupall_url = []def get_Imgs(url):try:headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36'}response = requests.get(url, headers=headers)response.raise_for_status()response.encoding = response.apparent_encodingsoup = BeautifulSoup(response.text, 'lxml')for url in soup.find('ul', {'class':'thumbnails'}).find_all('img'):all_url.append(url['src'])return all_urlexcept:return "error"def save_imgs():dir_name = 'pic'if not os.path.exists(dir_name):os.mkdir(dir_name)os.chdir(dir_name)try:for i,url in enumerate(all_url):with open('./' + str(i) + '.jpg', 'wb') as f:f.write(requests.get(url).content)except:return "error"
def main():url = 'https://www.dbmeinv.com/?pager_offset='try:for i in range(200):get_Imgs(url + str(i))except:return "error"save_imgs()if __name__ == '__main__':main()

嘿嘿嘿

转载于:https://my.oschina.net/u/3590643/blog/1622255

Python爬虫之爬取豆瓣美女图相关推荐

  1. python爬取豆瓣电影top250_用Python爬虫实现爬取豆瓣电影Top250

    用Python爬虫实现爬取豆瓣电影Top250 #爬取 豆瓣电影Top250 #250个电影 ,分为10个页显示,1页有25个电影 import urllib.request from bs4 imp ...

  2. Python爬虫04-xpath爬取豆瓣韩剧数据

    xpath爬取豆瓣韩剧数据 需求:爬取豆瓣韩剧的标题.评分.评论以及详情页地址. 1.导入模块 import requests from lxml import etree import csv 2. ...

  3. Python爬虫实例-爬取豆瓣电影Top250

    这是本人Python爬虫实例的第二个实例,不过想来好像没有很大的难度所以适合当做新手入门的第一个爬虫.放在这里供大家参考. 本次实例爬取的网站为豆瓣电影Top250,使用到的第三方库有urllib,B ...

  4. python爬虫教程书籍-Python爬虫教程-爬取豆瓣读书

    豆瓣读书爬虫 Python所写,豆瓣读书的爬虫,方便大家搜罗各种美美书! 写在前面 通过豆瓣评分和评价人数等规则,可非常好的探索挖掘经典图书和隐藏好书,从中更高效地汲取书中智慧. 实现功能 1 可以爬 ...

  5. python爬虫,爬取豆瓣电影《芳华》电影短评,分词生成云图。

    项目github地址:https://github.com/kocor01/spider_cloub/ Python版本为3.6 最近突然想玩玩云图,动手写了个简单的爬虫,搭建了简单的爬虫架构 爬虫爬 ...

  6. Python 爬虫实例+爬取豆瓣小组 + wordcloud 制作词云图

    目标 利用PYTHON爬取如下图中所有回答的内容,并且制作词云图. 用到的库 import requests # import jsonfrom PIL import Image from pyque ...

  7. 【Python爬虫】爬取豆瓣电影Top 250

    豆瓣电影 Top 250 导入第三方包 urllib模块介绍 引入模块 import urllib.request,urllib.parse,urllib.error 获取一个get请求 respos ...

  8. python爬虫_爬取豆瓣读书top500存入到excel文件

    目的:学习笔记 代码写的有点糟糕,还得努力,欢迎各位帮忙优化代码,嘻嘻嘻. 代码: import requests,xlwt #导入相关库,xlwt库用来写入到excel from lxml impo ...

  9. Python爬虫 - scrapy - 爬取妹子图 Lv1

    0. 前言 这是一个利用python scrapy框架爬取网站图片的实例,本人也是在学习当中,在这做个记录,也希望能帮到需要的人.爬取妹子图的实例打算分成三部分来写,尝试完善实用性. 系统环境 Sys ...

最新文章

  1. 短波通信为何经久不衰?
  2. Service Manger的初始化分析
  3. 【技术综述】深度学习中的数据增强(下)
  4. Objective-C使用位运算设计可复选的枚举
  5. SQL 如何将视图转换成表
  6. matlab 外接圆,【外接圆matlab知道三个顶点的坐标,如何求这三个顶点组成的三角形外接圆的半径与圆心坐标?】作业帮...
  7. 基于FPGA的SDRAM控制器设计(一)
  8. php webqq登陆,Smart QQ——腾讯新一代网页版 WebQQ,更简洁纯粹的实用在线聊天工具!...
  9. 春日游湖不易,但居家聊聊数据湖还是可以的……
  10. html前端显示tiff
  11. python、anaconda、jupyetr notebook的安装与配置
  12. 日期(datetime)的模糊查询
  13. Android 能让你少走弯路的干货整理
  14. Oracle和MySql的布尔类型
  15. linux一次系统调用时间,Linux系统调用—时间和日期
  16. Linux第五次学习笔记
  17. 关于微信小程序如何调用wx.login获取openId和用户信息
  18. 重庆大学计算机学院与马云,相聚计科,执梦起航——重庆大学计算机学院2020级研究生迎新会圆满结束...
  19. python爬取优词词典
  20. 在linux下,如何使得某个目录的下的可执行文件,成为系统级的可执行文件

热门文章

  1. 【秒杀系统】高并发编程入门学习
  2. LeetCode(89):格雷编码 Gray Code(Java)
  3. fu811电子管参数_常用电子管参数
  4. 饮料罐装生产流水线的plc(西门子S7-200)课程设计(说明书+任务书+接线图+梯形图+流程图)
  5. Uber上市,危机四伏
  6. grad-cam实现可视化|mmselfsup自监督|保姆级教学
  7. PLECS中DLL模块的使用
  8. 软件工程导论考纲知识点
  9. 综合案例播放器(java)
  10. jeesite使用mysql8.0驱动配置