python爬虫学习基础教程,批量抓取美女图片!
python的抓取功能其实是非常强大的,当然不能浪费,呵呵。下面就与大家分享一个python写的美女图自动抓取程序吧!
其中用到urllib2模块和正则表达式模块。下面直接上代码:
用python批量抓取美女图片#!/usr/bin/env python
#-*- coding: utf-8 -*-
#通过urllib(2)模块下载网络内容
import urllib,urllib2,gevent
#引入正则表达式模块,时间模块
import re,time
from gevent import monkey'''
在学习过程中有什么不懂得可以加我的python学习交流扣扣qun,934109170,群里有不错的学习教程、开发工具与电子书籍。
与你分享python企业当下人才需求及怎么从零基础学习好python,和学习什么内容。
'''
monkey.patch_all()def geturllist(url):url_list=[]print url s = urllib2.urlopen(url)text = s.read()#正则匹配,匹配其中的图片html = re.search(r'<ol.*</ol>', text, re.S)urls = re.finditer(r'<p><img src="(.+?)jpg" /></p>',html.group(),re.I)for i in urls:url=i.group(1).strip()+str("jpg")url_list.append(url)return url_listdef download(down_url):name=str(time.time())[:-3]+"_"+re.sub('.+?/','',down_url)print nameurllib.urlretrieve(down_url, "D:\\TEMP\\"+name)def getpageurl():page_list = []#进行列表页循环for page in range(1,700):url="http://jandan.net/ooxx/page-"+str(page)+"#comments"#把生成的url加入到page_list中page_list.append(url)print page_listreturn page_list
if __name__ == '__main__':jobs = []pageurl = getpageurl()[::-1]#进行图片下载for i in pageurl:for (downurl) in geturllist(i):jobs.append(gevent.spawn(download, downurl))gevent.joinall(jobs)
程序不长才45行,不是太难,大家可以研究下,这里我只是抛砖引玉,大家可以根据原理开发出其他的抓取程序,呵呵,自己想去吧。。
python爬虫学习基础教程,批量抓取美女图片!相关推荐
- python爬虫实战1:批量爬取网址图片
1.爬虫基础知识 目前,爬虫的相关知识了解了以下这么多. 2.爬取图片的步骤 学习了很多视频教程,基本介绍爬虫都是主要分3步: 1.请求网页 2.解析网页 3.保存图片 3.爬虫实战 唯有实战,才能提 ...
- python爬虫解决中文乱码和爬取美女图片
想试试爬取图片是,结果图片名字打印的时候就出现了中文乱码. 代码是这样的 # -- coding:UTF-8 -- from lxml import etree import requests imp ...
- Python爬虫学习基础——5分钟学会爬取B站视频日播放量排行
Python爬虫学习基础--5分钟学会爬取B站视频日播放量排行 基础包含 requests pyquery 进入正题 基础包含 这也是我当初第一次学习爬虫时做的练习,感觉给初学者练笔挺不错的.运用的知 ...
- Python爬虫学习系列教程
大家好哈,我呢最近在学习Python爬虫,感觉非常有意思,真的让生活可以方便很多.学习过程中我把一些学习的笔记总结下来,还记录了一些自己实际写的一些小爬虫,在这里跟大家一同分享,希望对Python爬虫 ...
- Python爬虫学习系列教程-----------爬虫系列 你值的收藏
静觅 » Python爬虫学习系列教程:http://cuiqingcai.com/1052.html 大家好哈,我呢最近在学习Python爬虫,感觉非常有意思,真的让生活可以方便很多.学习过程中我把 ...
- Python 爬虫学习 系列教程
Python爬虫 --- 中高级爬虫学习路线 :https://www.cnblogs.com/Eeyhan/p/14148832.html 看不清图时,可以把图片保存到本地在打开查看... Pyth ...
- 从入门到入土:Python爬虫学习|实例练手|爬取百度翻译|Selenium出击|绕过反爬机制|
此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...
- python中国大学排名爬虫写明详细步骤-Python爬虫--2019大学排名数据抓取
Python爬虫--2019大学排名数据抓取 准备工作 输入:大学排名URL连接 输出:大学排名信息屏幕输出 所需要用到的库:requests,bs4 思路 获取网页信息 提取网页中的内容并放到数据结 ...
- 从入门到入土:Python爬虫学习|实例练手|爬取猫眼榜单|Xpath定位标签爬取|代码
此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...
最新文章
- GPT-3难以复现,为什么说PyTorch走上了一条“大弯路”?
- ICMP隧道工具ptunnel
- python矩阵_Python 矩阵相关
- 学长毕业日记 :本科毕业论文写成博士论文的神操作20170413
- 链表之单链表约瑟夫问题(二)
- 云服务器ECS共享标准型S6全新发布, 行业内最具性价比
- mysql 表名通配符导出,mysqldump只有某些前缀/ Mysqldump通配符的表?
- 【Go 框架开发】Zinx 框架开发笔记
- 系统结构目录与正则表达式
- 编译OpenJDK12:a microsoft compiler is required
- 微信小程序前端登录模块设计
- MySQL数据库性能优化--硬件瓶颈分析
- Python网站服务器搭建,python 最快速搭建一个网站
- 移动互联网的未来在非洲
- 计算机网络原理【第四章 网络层】课后习题答案
- 【图像去噪】基于非局部均值(NLM)滤波图像去噪含Matlab源码
- 阿里AI天池大赛-新闻文本分类-TF-IDF特征+LightGBM模型
- 用Power BI解读幸福星球指数
- 转载出去:http://blog.csdn.net/han_xiaoyang/article/details/11969497
- 快速寻找9位数内的自幂数