Python爬虫之爬取豆瓣美女图

写在前面

这么久了，代码还是那么烂。。。。

环境：Windows10 编辑器：Pycharm 用到的库：os requests bs4 URL = www.dbmeinv.com

开始爬取

第一步：获取单页图片地址

网页结构图片放在ul标签下的img标签下面，所以我们可以这样写代码

def get_Imgs(url):try:headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36'}response = requests.get(url, headers=headers)response.raise_for_status() //判断状态码是否为200response.encoding = response.apparent_encoding #response.encoding = 'utf-8'soup = BeautifulSoup(response.text, 'lxml')for url in soup.find('ul', {'class':'thumbnails'}).find_all('img'):all_url.append(url['src'])return all_urlexcept:return "error"

第二步：抓取多页

URL结构抓取多页的话就可以改一下URL后边的数字，代码可以这样写

url = 'https://www.dbmeinv.com/?pager_offset='try:for i in range(10):get_Imgs(url + str(i))except:return "error"

第三步：保存图片


def save_imgs():dir_name = 'pic'if not os.path.exists(dir_name):os.mkdir(dir_name)os.chdir(dir_name)try:for i,url in enumerate(all_url):with open('./' + str(i) + '.jpg', 'wb') as f:f.write(requests.get(url).content)except:return "error"

放上完整的代码

import os
import requests
from bs4 import BeautifulSoupall_url = []def get_Imgs(url):try:headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36'}response = requests.get(url, headers=headers)response.raise_for_status()response.encoding = response.apparent_encodingsoup = BeautifulSoup(response.text, 'lxml')for url in soup.find('ul', {'class':'thumbnails'}).find_all('img'):all_url.append(url['src'])return all_urlexcept:return "error"def save_imgs():dir_name = 'pic'if not os.path.exists(dir_name):os.mkdir(dir_name)os.chdir(dir_name)try:for i,url in enumerate(all_url):with open('./' + str(i) + '.jpg', 'wb') as f:f.write(requests.get(url).content)except:return "error"
def main():url = 'https://www.dbmeinv.com/?pager_offset='try:for i in range(200):get_Imgs(url + str(i))except:return "error"save_imgs()if __name__ == '__main__':main()

嘿嘿嘿

转载于:https://my.oschina.net/u/3590643/blog/1622255

Python爬虫之爬取豆瓣美女图相关推荐

python爬取豆瓣电影top250_用Python爬虫实现爬取豆瓣电影Top250
用Python爬虫实现爬取豆瓣电影Top250 #爬取豆瓣电影Top250 #250个电影 ,分为10个页显示,1页有25个电影 import urllib.request from bs4 imp ...
Python爬虫04-xpath爬取豆瓣韩剧数据
xpath爬取豆瓣韩剧数据需求:爬取豆瓣韩剧的标题.评分.评论以及详情页地址. 1.导入模块 import requests from lxml import etree import csv 2. ...
Python爬虫实例-爬取豆瓣电影Top250
这是本人Python爬虫实例的第二个实例,不过想来好像没有很大的难度所以适合当做新手入门的第一个爬虫.放在这里供大家参考. 本次实例爬取的网站为豆瓣电影Top250,使用到的第三方库有urllib,B ...
python爬虫教程书籍-Python爬虫教程-爬取豆瓣读书
豆瓣读书爬虫 Python所写,豆瓣读书的爬虫,方便大家搜罗各种美美书! 写在前面通过豆瓣评分和评价人数等规则,可非常好的探索挖掘经典图书和隐藏好书,从中更高效地汲取书中智慧. 实现功能 1 可以爬 ...
python爬虫，爬取豆瓣电影《芳华》电影短评，分词生成云图。
项目github地址:https://github.com/kocor01/spider_cloub/ Python版本为3.6 最近突然想玩玩云图,动手写了个简单的爬虫,搭建了简单的爬虫架构爬虫爬 ...
Python 爬虫实例+爬取豆瓣小组 + wordcloud 制作词云图
目标利用PYTHON爬取如下图中所有回答的内容,并且制作词云图. 用到的库 import requests # import jsonfrom PIL import Image from pyque ...
【Python爬虫】爬取豆瓣电影Top 250
豆瓣电影 Top 250 导入第三方包 urllib模块介绍引入模块 import urllib.request,urllib.parse,urllib.error 获取一个get请求 respos ...
python爬虫_爬取豆瓣读书top500存入到excel文件
目的:学习笔记代码写的有点糟糕,还得努力,欢迎各位帮忙优化代码,嘻嘻嘻. 代码: import requests,xlwt #导入相关库,xlwt库用来写入到excel from lxml impo ...
Python爬虫 - scrapy - 爬取妹子图 Lv1
0. 前言这是一个利用python scrapy框架爬取网站图片的实例,本人也是在学习当中,在这做个记录,也希望能帮到需要的人.爬取妹子图的实例打算分成三部分来写,尝试完善实用性. 系统环境 Sys ...