爬取4399网站的图片

使用Pyhton和正则表达式进行爬虫

import urllib.request
import re
url="http://www.4399.com/" #4399的网站respose1=urllib.request.urlopen(url)
page=respose1.read()
listurl=re.findall(r'http://[a-zA-Z0-9\._/]+\.jpg',str(page)) //匹配的正则表达式
i=0
for u in listurl :f=open('H:\\Client2\\'+str(i)+'个.jpg',"wb+")//在该目录下建立.jpg文件进行写入rep= urllib.request.urlopen(u)buf= rep.read()f.write(buf)i+=1

代码的基本思路：
首先 import urllib.request包(用于爬虫)和re包(用于正则匹配)
确定你要爬取的网站放在变量url中，然后就进行爬取。

respose1=urllib.request.urlopen(url)

爬取的内容就在respose1.read()方法就是爬取的内容，不过这是字节类型的，需要转为string类型。然后就是需要寻找图片了。

你可以首先观察4399网站上图片的网址类型(就是打开4399网站，对一个图片右键，观察网页源代码就可以清楚地看到这个图片的网址)，
4399网站上的一个图片网址类型——img标签

<img src="http://imga.5054399.com/upload_pic/2017/5/11/4399_10520731217.jpg" alt="植物大战僵尸">
#我们主要选择 'http://imga.5054399.com/upload_pic/2017/5/11/4399_10520731217.jpg'这一部分进行匹配

然后根据图片的网址类型，写好匹配出来的正则表达式，类似我这样。

listurl=re.findall(r'http://[a-zA-Z0-9\._/]+\.jpg',str(page))

以http://开头，中间必须匹配的字符必须在[a-zA-Z0-9._/]这个范围中，+代表匹配前一个字符1次或者无限次，最后用反斜杠\ 转义一下点. (即必须以.jpg结尾)，匹配之后的结果，用re模块的findall方法找到所有匹配到的元素放在listurl(是一个list类型)

下面就是用一个循环，先建立 i个.jpg文件，然后对listurl列表中每个图片的网址进行搜索，然后爬取到内容，写入 i个.jpg文件中直至循环结束。

一共大概有711张图片
下面是，我爬取的图片(这仅仅是部分图片)

爬取4399网站的图片相关推荐

python爬取京东商品图片_python利用urllib实现爬取京东网站商品图片的爬虫实例
本例程使用urlib实现的,基于python2.7版本,采用beautifulsoup进行网页分析,没有第三方库的应该安装上之后才能运行,我用的IDE是pycharm,闲话少说,直接上代码! # -* ...
Java爬虫之利用Jsoup+HttpClient爬取类叔叔不约匿名聊天网站的图片,未果——后爬取某网站美女图片案例
博主最近学了一点爬虫的知识,闲着无聊,秉承学以致用的理念,于是突然想到何不挑战一下,爬取一些叔叔不约网站的图片,来巩固一下所学知识(#滑稽).说干就干,打开eclipse或idea,创建maven工程 ...
爬虫爬取二次元网站美女图片
爬虫爬取二次元网站美女图片前言 xpath解析需求分析代码编写总代码前言本次需要爬取二次元网站cos板块下的图片需要用到request模块与lxml模块,所以请提前安装好这两个模块,打开 ...
python爬虫爬取某网站全站图片案列（源码全给可白漂，仅供学习使用，切勿用作非法用途）
爬取后保存的图片效果图步骤入下(三步): 先去要爬取的目标网站(https://pixabay.com/)去注册一个账号. 2.注册后登录,浏览器右键鼠标,打开检查,找到登录后的cookies值. ...
Python爬取mn52网站美女图片以及图片防盗链的解决方法
防盗链原理 http标准协议中有专门的字段记录referer 一来可以追溯上一个入站地址是什么二来对于资源文件,可以跟踪到包含显示他的网页地址是什么因此所有防盗链方法都是基于这个Referer字段 ...
python爬虫爬汽车图片_python爬虫爬取汽车网站外型图片
我选择的起始网址:http://www.hao123.com/auto/brand 当你随便选择一个车牌的选框( 不要同时选择多个选框)你就会发现每个车牌对应一个网址每个网址的区别就是数字不同比 ...
python能爬国外的网站吗_我是如何分析和爬取外国网站的图片
确定爬取的对象在浏览器F12打开查看页面元素,分析一下这个网站的情况,可以看到幻灯片的图片地址藏在这个id=supersized的ul标签里面,也看到页面导航栏的元素是id=menu的ul标签下面, ...
Python 爬取图集网站的图片
爬取图片 http://www.ivsky.com 这个网站上有很多壁纸,动漫类型的图片都挺好看,本文练习用 Python 爬取这些图片并存储到本地. 实现过程 1.站点分析点开这个站点,选择动漫 ...
Python爬取HTTPS网站的图片
学习python已经差不多三个月了,断断续续没有目标得学着,python上手确实快,也很迅速的迷上了python,而且自己之前接触过web前端,比较片面的学习过js,有一些基础.在pygame上我自闭 ...
python爬虫爬取汽车网站外型图片
我选择的起始网址:http://www.hao123.com/auto/brand 当你随便选择一个车牌的选框( 不要同时选择多个选框)你就会发现每个车牌对应一个网址每个网址的区别就是数字不同比 ...

爬取4399网站的图片

爬取4399网站的图片相关推荐

最新文章

热门文章