#encoding=utf-8
import urllib2
import urllib
from bs4 import BeautifulSoup
import os
import time
import requestsdef crawl():global countglobal counlcount = 0# url = 'https://www.dbmeinv.com/index.htm'所有# 选择channelfor i in range(4,7):#选择对应的页码数for j in range(1, 5):url = 'https://www.dbmeinv.com/index.htm?cid=%d&pager_offset=%d' %(i, j)#伪装头部headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36"}#发送Request请求req = urllib2.Request(url, headers=headers)#获取page页面page = urllib2.urlopen(req)#输出获取得到的页面contents = page.read()#使用soup解析html页面soup = BeautifulSoup(contents, 'lxml')# 指定规则在contents中找到我们想要的网络资源chou_girl = soup.find_all("img")# 将图片写入到我们的程序所在的当前文件夹中去count = 0# print type(chou_girl)# 遍历每一个元素for girl in chou_girl:counl = 0# 获取其中每个img标签中的src属性,即它的文件地址link = girl.get("src")# 获取标题,以后可以作为图片文件的名字来使用title = girl.get("title")title = title.replace("?", "?")title = title.replace('"', '“')title = title.replace('/', '')title = title.replace('%', '')# 计数,方便我们统计共有多少个文件被下载。。注意一点就是如果文件重名了,,后面的文件将会覆盖之前下载的文件。count += 1# print type(title)print '第{}channel中第{}页的第{}张图片\t'.format(i, j, count) + title,print linkresponse = urllib2.urlopen(link)img = response.read()if not os.path.exists('img/{}.jpg'.format(title)):counl = 0with open('img/%d-%d-%d-%s_%d.jpg' % (i, j, count, title, counl), 'wb') as f:f.write(img)f.close()elif os.path.exists('img/{}.jpg'.format(title)):counl += 1with open('img/%d-%d-%d-%s_%d.jpg' % (i, j, count, title, counl), 'wb') as f:f.write(img)f.close()time.sleep(2)time.sleep(3)print count*2*4#确保本文件如果被当作库文件引用时,只会输出结果,里面的内容不会重复输出。
if __name__ == "__main__":crawl()

PYTHON 2.7爬虫获取豆瓣丑女的照片,备注信息稍后更新相关推荐

  1. python爬虫实战 获取豆瓣排名前250的电影信息--基于正则表达式

    一.项目目标 爬取豆瓣TOP250电影的评分.评价人数.短评等信息,并在其保存在txt文件中,html解析方式基于正则表达式 二.确定页面内容 爬虫地址:https://movie.douban.co ...

  2. 使用Python爬虫获取豆瓣影评,并用词云显示

    使用Python爬虫获取豆瓣影评,并用词云显示 Python语言流行到现在,目前最受开发者喜爱的功能莫过于它的爬虫功能,以至于很多人以为Python的英语发音也是"爬虫",其实它是 ...

  3. python爬虫获取豆瓣图书Top250

    在上一篇博客<python爬虫获取豆瓣电影TOP250>中,小菌为大家带来了如何将豆瓣电影Top250的数据存入MySQL数据库的方法.这次的分享,小菌决定再带着大家去研究如何爬取豆瓣图片 ...

  4. Java爬虫获取豆瓣的短评数据

    Java爬虫获取豆瓣的短评数据 打开豆瓣的选电影页面的链接,可以看到该网页的下面分为热门,最新,经典等栏目分类,网页每次显示20部电影,通过几部电影的查看,可以发现电影的短评页https://movi ...

  5. Python:使用爬虫获取世界大学学术排名存储到 Excel 并作可视化输出

    文章目录 问题描述 问题分析 结果展示 代码实现 解法一:BeautifulSoup 解析 HTML 解法二:XPath 解析 HTML 问题描述 从 http://www.zuihaodaxue.c ...

  6. 利用python爬虫获取豆瓣读书数据建立书单

    0. 写在前面 网络爬虫: A Web crawler, sometimes called a spider, is an Internet bot that systematically brows ...

  7. python爬虫获取豆瓣TOP25电影名称和评分

    import requests import lxml.html myheaders = {"User-Agent": "Mozilla/5.0 (Windows NT ...

  8. 【mysql数据库】通过python 3.7 爬虫获取企查查公开的企业信息,并记录到数据库

    1.爬虫的思路参考这篇博文 https://mp.csdn.net/postedit/83628587 2.数据库保存截图如下 3.python代码如下 #!/usr/bin/python3 #-*- ...

  9. PYTHON 2.7爬虫获取斗图啦网站的表情包数据(区分gif和jpg图片格式)

    通过python实现斗图啦网站上的表情的获取和下载 #encoding=utf-8#导入模块 import random import requests import re from bs4 impo ...

最新文章

  1. UISegmentedControl 分段器加载不同的viewcontroller
  2. rabbitmq之partitions
  3. Axure--Web原型开发工具
  4. Spring mvc 启动配置文件加载两遍问题
  5. Java和Lagom的CQRS
  6. python计算AA制时砍价后大家需要分摊的钱
  7. 在PLSQL中编译复杂的java(转)
  8. datagridview单元格合并居中_系统地学习Excel第17课,设置单元格格式
  9. GDAL源码剖析(六)之GDAL开发及其调试
  10. java aop注解日志记录_springMVC自定义注解,用AOP来实现日志记录的方法
  11. Fortran95基础知识学习
  12. 7z解压缩软件下载安装教程
  13. NAND Flash批量数据烧录
  14. 硬件基础知识笔记(二极管、三极管、MOS管、运放、滤波器、跟随器、整流)
  15. 音频音乐与计算机的交融pdf,电脑音乐的研和应用.pdf
  16. 你的MP3中不能缺少的231首歌
  17. 笔记本电脑 联想 Thinkpad E420 无法打开摄像头怎么办
  18. 在字节跳动的实习经历分享 | 万字求职指南
  19. 软考_2020年真题
  20. 《数据库系统概论》3.3.1模式的定义与删除实操

热门文章

  1. 2022-2027年(新版)中国质子交换膜行业发展状况及前景趋势预测报告
  2. 初入SAS后的一些小技巧
  3. Altium DesignerPCB内部走线角度切换 直线切换圆弧
  4. conflict: unable to delete xxx (must be forced) - image is being used by stopped container xxx
  5. pptv图标出现在计算机磁盘,win7系统播放pptv时出现CPU100%的解决方法
  6. 暗黑破坏神3难度的钥匙去哪里打?
  7. 未查询到服务器角色信息,dcdiag结果如果排查:拥有 PDC 角色的服务器已关闭。无法找到时间服务器。 - 网络管理论坛 - 51CTO技术论坛_中国领先的IT技术社区...
  8. 有意思的微软对联软件
  9. 人与自然,《棕熊之王-下》
  10. 奥巴马:我们为什么要上学