python的抓取功能其实是非常强大的,当然不能浪费,呵呵。下面就与大家分享一个python写的美女图自动抓取程序吧!

其中用到urllib2模块和正则表达式模块。下面直接上代码:

用python批量抓取美女图片#!/usr/bin/env python
#-*- coding: utf-8 -*-
#通过urllib(2)模块下载网络内容
import urllib,urllib2,gevent
#引入正则表达式模块,时间模块
import re,time
from gevent import monkey'''
在学习过程中有什么不懂得可以加我的python学习交流扣扣qun,934109170,群里有不错的学习教程、开发工具与电子书籍。
与你分享python企业当下人才需求及怎么从零基础学习好python,和学习什么内容。
'''
monkey.patch_all()def geturllist(url):url_list=[]print url       s = urllib2.urlopen(url)text = s.read()#正则匹配,匹配其中的图片html = re.search(r'<ol.*</ol>', text, re.S)urls = re.finditer(r'<p><img src="(.+?)jpg" /></p>',html.group(),re.I)for i in urls:url=i.group(1).strip()+str("jpg")url_list.append(url)return url_listdef download(down_url):name=str(time.time())[:-3]+"_"+re.sub('.+?/','',down_url)print nameurllib.urlretrieve(down_url, "D:\\TEMP\\"+name)def getpageurl():page_list = []#进行列表页循环for page in range(1,700):url="http://jandan.net/ooxx/page-"+str(page)+"#comments"#把生成的url加入到page_list中page_list.append(url)print page_listreturn page_list
if __name__ == '__main__':jobs = []pageurl = getpageurl()[::-1]#进行图片下载for i in pageurl:for (downurl) in geturllist(i):jobs.append(gevent.spawn(download, downurl))gevent.joinall(jobs)

程序不长才45行,不是太难,大家可以研究下,这里我只是抛砖引玉,大家可以根据原理开发出其他的抓取程序,呵呵,自己想去吧。。

python爬虫学习基础教程,批量抓取美女图片!相关推荐

  1. python爬虫实战1:批量爬取网址图片

    1.爬虫基础知识 目前,爬虫的相关知识了解了以下这么多. 2.爬取图片的步骤 学习了很多视频教程,基本介绍爬虫都是主要分3步: 1.请求网页 2.解析网页 3.保存图片 3.爬虫实战 唯有实战,才能提 ...

  2. python爬虫解决中文乱码和爬取美女图片

    想试试爬取图片是,结果图片名字打印的时候就出现了中文乱码. 代码是这样的 # -- coding:UTF-8 -- from lxml import etree import requests imp ...

  3. Python爬虫学习基础——5分钟学会爬取B站视频日播放量排行

    Python爬虫学习基础--5分钟学会爬取B站视频日播放量排行 基础包含 requests pyquery 进入正题 基础包含 这也是我当初第一次学习爬虫时做的练习,感觉给初学者练笔挺不错的.运用的知 ...

  4. Python爬虫学习系列教程

    大家好哈,我呢最近在学习Python爬虫,感觉非常有意思,真的让生活可以方便很多.学习过程中我把一些学习的笔记总结下来,还记录了一些自己实际写的一些小爬虫,在这里跟大家一同分享,希望对Python爬虫 ...

  5. Python爬虫学习系列教程-----------爬虫系列 你值的收藏

    静觅 » Python爬虫学习系列教程:http://cuiqingcai.com/1052.html 大家好哈,我呢最近在学习Python爬虫,感觉非常有意思,真的让生活可以方便很多.学习过程中我把 ...

  6. Python 爬虫学习 系列教程

    Python爬虫 --- 中高级爬虫学习路线 :https://www.cnblogs.com/Eeyhan/p/14148832.html 看不清图时,可以把图片保存到本地在打开查看... Pyth ...

  7. 从入门到入土:Python爬虫学习|实例练手|爬取百度翻译|Selenium出击|绕过反爬机制|

    此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...

  8. python中国大学排名爬虫写明详细步骤-Python爬虫--2019大学排名数据抓取

    Python爬虫--2019大学排名数据抓取 准备工作 输入:大学排名URL连接 输出:大学排名信息屏幕输出 所需要用到的库:requests,bs4 思路 获取网页信息 提取网页中的内容并放到数据结 ...

  9. 从入门到入土:Python爬虫学习|实例练手|爬取猫眼榜单|Xpath定位标签爬取|代码

    此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...

最新文章

  1. GPT-3难以复现,为什么说PyTorch走上了一条“大弯路”?
  2. ICMP隧道工具ptunnel
  3. python矩阵_Python 矩阵相关
  4. 学长毕业日记 :本科毕业论文写成博士论文的神操作20170413
  5. 链表之单链表约瑟夫问题(二)
  6. 云服务器ECS共享标准型S6全新发布, 行业内最具性价比
  7. mysql 表名通配符导出,mysqldump只有某些前缀/ Mysqldump通配符的表?
  8. 【Go 框架开发】Zinx 框架开发笔记
  9. 系统结构目录与正则表达式
  10. 编译OpenJDK12:a microsoft compiler is required
  11. 微信小程序前端登录模块设计
  12. MySQL数据库性能优化--硬件瓶颈分析
  13. Python网站服务器搭建,python 最快速搭建一个网站
  14. 移动互联网的未来在非洲
  15. 计算机网络原理【第四章 网络层】课后习题答案
  16. 【图像去噪】基于非局部均值(NLM)滤波图像去噪含Matlab源码
  17. 阿里AI天池大赛-新闻文本分类-TF-IDF特征+LightGBM模型
  18. 用Power BI解读幸福星球指数
  19. 转载出去:http://blog.csdn.net/han_xiaoyang/article/details/11969497
  20. 快速寻找9位数内的自幂数

热门文章

  1. Epub电子书阅读软件-IOS软件开发团队
  2. 分组码 码长 码重 码距 最小距离
  3. 开发小程序用php框架,微信小程序框架目前比较火的是?
  4. Java使用elasticjob实现定时任务(v2.1.5)
  5. Nokia 5110字模提取
  6. 利用.htaccess实现伪静态方法
  7. 健康上报系统springboot+vue+wx
  8. EXCEL导入商品资料时出错怎么办
  9. excel打开文件数字显示E+问题
  10. Android 对话框相关总结