PYTHON 2.7爬虫获取豆瓣丑女的照片，备注信息稍后更新

#encoding=utf-8
import urllib2
import urllib
from bs4 import BeautifulSoup
import os
import time
import requestsdef crawl():global countglobal counlcount = 0# url = 'https://www.dbmeinv.com/index.htm'所有# 选择channelfor i in range(4,7):#选择对应的页码数for j in range(1, 5):url = 'https://www.dbmeinv.com/index.htm?cid=%d&pager_offset=%d' %(i, j)#伪装头部headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36"}#发送Request请求req = urllib2.Request(url, headers=headers)#获取page页面page = urllib2.urlopen(req)#输出获取得到的页面contents = page.read()#使用soup解析html页面soup = BeautifulSoup(contents, 'lxml')# 指定规则在contents中找到我们想要的网络资源chou_girl = soup.find_all("img")# 将图片写入到我们的程序所在的当前文件夹中去count = 0# print type(chou_girl)# 遍历每一个元素for girl in chou_girl:counl = 0# 获取其中每个img标签中的src属性，即它的文件地址link = girl.get("src")# 获取标题，以后可以作为图片文件的名字来使用title = girl.get("title")title = title.replace("?", "？")title = title.replace('"', '“')title = title.replace('/', '')title = title.replace('%', '')# 计数，方便我们统计共有多少个文件被下载。。注意一点就是如果文件重名了，，后面的文件将会覆盖之前下载的文件。count += 1# print type(title)print '第{}channel中第{}页的第{}张图片\t'.format(i, j, count) + title,print linkresponse = urllib2.urlopen(link)img = response.read()if not os.path.exists('img/{}.jpg'.format(title)):counl = 0with open('img/%d-%d-%d-%s_%d.jpg' % (i, j, count, title, counl), 'wb') as f:f.write(img)f.close()elif os.path.exists('img/{}.jpg'.format(title)):counl += 1with open('img/%d-%d-%d-%s_%d.jpg' % (i, j, count, title, counl), 'wb') as f:f.write(img)f.close()time.sleep(2)time.sleep(3)print count*2*4#确保本文件如果被当作库文件引用时,只会输出结果，里面的内容不会重复输出。
if __name__ == "__main__":crawl()

PYTHON 2.7爬虫获取豆瓣丑女的照片，备注信息稍后更新相关推荐

python爬虫实战获取豆瓣排名前250的电影信息--基于正则表达式
一.项目目标爬取豆瓣TOP250电影的评分.评价人数.短评等信息,并在其保存在txt文件中,html解析方式基于正则表达式二.确定页面内容爬虫地址:https://movie.douban.co ...
使用Python爬虫获取豆瓣影评，并用词云显示
使用Python爬虫获取豆瓣影评,并用词云显示 Python语言流行到现在,目前最受开发者喜爱的功能莫过于它的爬虫功能,以至于很多人以为Python的英语发音也是"爬虫",其实它是 ...
python爬虫获取豆瓣图书Top250
在上一篇博客<python爬虫获取豆瓣电影TOP250>中,小菌为大家带来了如何将豆瓣电影Top250的数据存入MySQL数据库的方法.这次的分享,小菌决定再带着大家去研究如何爬取豆瓣图片 ...
Java爬虫获取豆瓣的短评数据
Java爬虫获取豆瓣的短评数据打开豆瓣的选电影页面的链接,可以看到该网页的下面分为热门,最新,经典等栏目分类,网页每次显示20部电影,通过几部电影的查看,可以发现电影的短评页https://movi ...
Python：使用爬虫获取世界大学学术排名存储到 Excel 并作可视化输出
文章目录问题描述问题分析结果展示代码实现解法一:BeautifulSoup 解析 HTML 解法二:XPath 解析 HTML 问题描述从 http://www.zuihaodaxue.c ...
利用python爬虫获取豆瓣读书数据建立书单
0. 写在前面网络爬虫: A Web crawler, sometimes called a spider, is an Internet bot that systematically brows ...
python爬虫获取豆瓣TOP25电影名称和评分
import requests import lxml.html myheaders = {"User-Agent": "Mozilla/5.0 (Windows NT ...
【mysql数据库】通过python 3.7 爬虫获取企查查公开的企业信息，并记录到数据库
1.爬虫的思路参考这篇博文 https://mp.csdn.net/postedit/83628587 2.数据库保存截图如下 3.python代码如下 #!/usr/bin/python3 #-*- ...
PYTHON 2.7爬虫获取斗图啦网站的表情包数据（区分gif和jpg图片格式）
通过python实现斗图啦网站上的表情的获取和下载 #encoding=utf-8#导入模块 import random import requests import re from bs4 impo ...

PYTHON 2.7爬虫获取豆瓣丑女的照片，备注信息稍后更新

PYTHON 2.7爬虫获取豆瓣丑女的照片，备注信息稍后更新相关推荐

最新文章

热门文章