本程序利用requests,bs4实现对http://meizitu.com大分类图片集中所有链接进行遍历,然后抓取图片:

# -*- coding:utf-8 -*-

# @Time : 2017-02-10 22:51

# @Author : Vincen_Shen

# @Site :

# @File : mm.py

# @Software : PyCharm

'''

该脚本实现www.meizitu.com自动爬取图片,需要注意的是实际图片存储在mm.howkuai.com。

两个网站都要求get请求时带上hearders,否则会被过滤。

'''

from bs4 import BeautifulSoup

import requests

import time

def images_down(urls):

"""

下载图片后以当前时间戳命名保存

:param urls: 接收image的实际地址列表

"""

heard = {'User-Agent': r'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:38.0) Gecko/20100101 Firefox/38.0',

'Connection': 'keep-alive',

'Host': 'mm.howkuai.com'}

for url in urls:

time.sleep(1)

print(url)

try:

image = requests.get(url, headers=heard, stream=True, timeout=5)

image_name = str(int(time.time())) + '.jpg'

with open(image_name, 'wb') as f:

f.write(image.content)

except Exception:

print('Error!!!')

continue

def images_urls(url):

"""

:param url: 接收一个有美女的url

:return: 返回提取url中所有美女图片的url地址列表

"""

mm_links = []

heard = {'User-Agent': r'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:38.0) Gecko/20100101 Firefox/38.0',

'Connection': 'keep-alive',

'Host': 'www.meizitu.com'}

response = requests.get(url, headers=heard, timeout=5)

soup = BeautifulSoup(response.text, 'html.parser')

urls = soup.find_all(id='picture')

soup2 = BeautifulSoup(str(urls)[1:-1], 'html.parser')

urls2 = soup2.find_all('img')

for url in urls2:

mm_links.append(url.get('src'))

return mm_links

def index_urls():

"""

提取每个页面中的单个美女图片集url

"""

urls = []

for i in range(1,12):

urls.append('http://www.meizitu.com/a/xinggan_2_%s.html' %i)

heard = {'User-Agent':r'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:38.0) Gecko/20100101 Firefox/38.0',

'Connection': 'keep-alive',

'Host':'www.meizitu.com'}

for url in urls:

response = requests.get(url, headers = heard, timeout=5)

response.encoding = 'gbk'

soup = BeautifulSoup(response.text, 'html.parser')

urls_image = soup.find_all(class_="tit")

for url in urls_image:

links = url.find('a')

mm_links = images_urls(links.get('href')) # 调用images_urls函数,获取美女图片集url列表

images_down(mm_links) # 调用images_down函数,下载美女图片

if __name__ == '__main__':

index_urls()

python爬取美女图片_Python 爬取美女图片相关推荐

  1. python爬虫知乎图片_python 爬取知乎图片

    先上完整代码 1 importrequests2 importtime3 importdatetime4 importos5 importjson6 importuuid7 from pyquery ...

  2. python operator 多属性排序_Python爬取高颜值美女(爬虫+人脸检测+颜值检测)你能打几分?...

    1 数据源 知乎话题『美女』下所有问题中回答所出现的图片 2 抓取工具 Python 3,并使用第三方库 Requests.lxml.AipFace,代码共 100 + 行 3 必要环境 Mac / ...

  3. python抓取招聘数据_Python爬取招聘网站数据并做数据可视化处理

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 以下文章来源于青灯编程 ,作者:清风 前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有 ...

  4. python爬取动态网页_python爬取动态网页数据,详解

    原理:动态网页,即用js代码实现动态加载数据,就是可以根据用户的行为,自动访问服务器请求数据,重点就是:请求数据,那么怎么用python获取这个数据了? 浏览器请求数据方式:浏览器向服务器的api(例 ...

  5. python 柱状图上显示字体_Python爬取百部电影数据,我发现了这个惊人真相!

    2019年就这么匆匆过去了,就在前几天国家电影局发布了2019年中国电影市场数据,数据显示去年总票房为642.66亿元,同比增长5.4%:国产电影总票房411.75亿元,同比增长8.65%,市场占比 ...

  6. python抓取微博评论_Python爬取新浪微博评论数据,你有空了解一下?

    开发工具 Python版本:3.6.4 相关模块: argparse模块: requests模块: jieba模块: wordcloud模块: 以及一些Python自带的模块. 环境搭建 安装Pyth ...

  7. python爬取手机微信_Python爬取微信好友

    前言 今天看到一篇好玩的文章,可以实现微信的内容爬取和聊天机器人的制作,所以尝试着实现一遍,本文记录了实现过程和一些探索的内容 itchat安装 对微信的控制可以使用itchat来实现,我们找到itc ...

  8. python开源代码百度盘_python爬取百度云网盘资源-源码

    今天测试用了一下python爬取百度云网盘资源. 代码片段import urllib import urllib.request import webbrowser import re def yun ...

  9. python爬关键词百度指数_Python 抓取指定关键词的百度指数

    百度指数很多时候在我们做项目的时候会很有帮助,从搜索引擎的流量端给到我们一些帮助,比如:家具行业的销量跟"装修","新房","二手房"等关键 ...

  10. python获取网页图片_python抓取网页中的图片示例

    python抓取网页中的图片示例 代码如下: #coding:utf8 import re import urllib def getHTML(url): page = urllib.urlopen( ...

最新文章

  1. 向PE文件中空白处添加代码
  2. python随机产生10个不同的两位数_python解决两位数加减法快速出题问题
  3. 读取list java_java 分批次读取java.util.List 数据
  4. 2021泰晤士世界大学排名公布,中国137所高校上榜!
  5. assembly plugin实现自定义打包
  6. Java线程的优先级
  7. 解决SSH登录无响应timed out问题
  8. CDH 5.13.0 集成 Phoenix
  9. Linux MySQL 源码编译安装
  10. VS2012一打开就停止工作的解决方法
  11. 1018 锤子剪刀布
  12. python生成exe文件太大了_Pyinstaller打包生成exe文件过大,四种常用处理方法集锦---嵌入式Python-02...
  13. ins信息服务器,ins怎么登录服务器
  14. 中国计算机省份排名,2019中国省份经济排行_中国各省份经济排名
  15. 今日头条 java笔试题_今日头条笔试第一题
  16. Linux-CentOS上的服务搭建
  17. 备战面试日记(2.4) - (JVM.GC算法)
  18. [windows 10]当前桌面壁纸的保存位置
  19. 常见的手机端头部banner切换代码设置
  20. Linux命令·df·du

热门文章

  1. linux工作区切换到桌面,linux切换桌面环境 gnome kde
  2. Win11动态磁贴没了?Win11中恢复动态磁贴的方法
  3. 自相关法谱估计matlab,自相关法估计功率谱密度
  4. ckeditor5加字数_ckeditor 字数限制
  5. 计算机中¥符号按哪个键,电脑键盘符号快捷键大全 电脑键盘上每个键的作用?...
  6. 牛客SQL3查询薪水详情和部门编号
  7. java 数字转英文_Java如何将数字转成英文
  8. 雪球网 json 获取
  9. java小项目之简单聊天室
  10. 新加坡国立大学计算机系访学,【访学归来】白卫岗:在新加坡国立大学探讨线性水声网络容量...