使用Pyhton和正则表达式进行爬虫

import urllib.request
import re
url="http://www.4399.com/" #4399的网站respose1=urllib.request.urlopen(url)
page=respose1.read()
listurl=re.findall(r'http://[a-zA-Z0-9\._/]+\.jpg',str(page)) //匹配的正则表达式
i=0
for u in listurl :f=open('H:\\Client2\\'+str(i)+'个.jpg',"wb+")//在该目录下建立.jpg文件进行写入rep= urllib.request.urlopen(u)buf= rep.read()f.write(buf)i+=1

代码的基本思路:
首先 import urllib.request包(用于爬虫)和re包(用于正则匹配)
确定你要爬取的网站放在变量url中,然后就进行爬取。

respose1=urllib.request.urlopen(url)

爬取的内容就在respose1.read()方法就是爬取的内容,不过这是字节类型的,需要转为string类型。然后就是需要寻找图片了。

你可以首先观察4399网站上图片的网址类型(就是打开4399网站,对一个图片右键,观察网页源代码就可以清楚地看到这个图片的网址),
4399网站上的一个图片网址类型——img标签

<img src="http://imga.5054399.com/upload_pic/2017/5/11/4399_10520731217.jpg" alt="植物大战僵尸">
#我们主要选择 'http://imga.5054399.com/upload_pic/2017/5/11/4399_10520731217.jpg'这一部分进行匹配

然后根据图片的网址类型,写好匹配出来的正则表达式,类似我这样。

listurl=re.findall(r'http://[a-zA-Z0-9\._/]+\.jpg',str(page))

以http://开头,中间必须匹配的字符必须在[a-zA-Z0-9._/]这个范围中,+代表匹配前一个字符1次或者无限次,最后用 反斜杠\ 转义一下点. (即必须以.jpg结尾),匹配之后的结果,用re模块的findall方法找到所有匹配到的元素放在listurl(是一个list类型)

下面就是用一个循环,先建立 i个.jpg文件,然后对listurl列表中每个图片的网址进行搜索,然后爬取到内容,写入 i个.jpg文件中直至循环结束。

一共大概有711张图片
下面是,我爬取的图片(这仅仅是部分图片)

爬取4399网站的图片相关推荐

  1. python爬取京东商品图片_python利用urllib实现爬取京东网站商品图片的爬虫实例

    本例程使用urlib实现的,基于python2.7版本,采用beautifulsoup进行网页分析,没有第三方库的应该安装上之后才能运行,我用的IDE是pycharm,闲话少说,直接上代码! # -* ...

  2. Java爬虫之利用Jsoup+HttpClient爬取类叔叔不约匿名聊天网站的图片,未果——后爬取某网站美女图片案例

    博主最近学了一点爬虫的知识,闲着无聊,秉承学以致用的理念,于是突然想到何不挑战一下,爬取一些叔叔不约网站的图片,来巩固一下所学知识(#滑稽).说干就干,打开eclipse或idea,创建maven工程 ...

  3. 爬虫爬取二次元网站美女图片

    爬虫爬取二次元网站美女图片 前言 xpath解析 需求分析 代码编写 总代码 前言 本次需要爬取二次元网站cos板块下的图片 需要用到request模块与lxml模块,所以请提前安装好这两个模块,打开 ...

  4. python爬虫爬取某网站全站图片案列(源码全给可白漂,仅供学习使用,切勿用作非法用途)

    爬取后保存的图片效果图 步骤入下(三步): 先去要爬取的目标网站(https://pixabay.com/)去注册一个账号. 2.注册后登录,浏览器右键鼠标,打开检查,找到登录后的cookies值. ...

  5. Python爬取mn52网站美女图片以及图片防盗链的解决方法

    防盗链原理 http标准协议中有专门的字段记录referer 一来可以追溯上一个入站地址是什么 二来对于资源文件,可以跟踪到包含显示他的网页地址是什么 因此所有防盗链方法都是基于这个Referer字段 ...

  6. python爬虫爬汽车图片_python爬虫爬取汽车网站外型图片

    我选择的起始网址:http://www.hao123.com/auto/brand 当你随便选择一个车牌的选框( 不要 同时选择多个选框)你就会发现每个车牌对应一个网址 每个网址的区别就是数字不同 比 ...

  7. python能爬国外的网站吗_我是如何分析和爬取外国网站的图片

    确定爬取的对象 在浏览器F12打开查看页面元素,分析一下这个网站的情况,可以看到幻灯片的图片地址藏在这个id=supersized的ul标签里面,也看到页面导航栏的元素是id=menu的ul标签下面, ...

  8. Python 爬取图集网站的图片

    爬取图片 http://www.ivsky.com 这个网站上有很多壁纸,动漫类型的图片都挺好看,本文练习用 Python 爬取这些图片并存储到本地. 实现过程 1.站点分析 点开这个站点,选择 动漫 ...

  9. Python爬取HTTPS网站的图片

    学习python已经差不多三个月了,断断续续没有目标得学着,python上手确实快,也很迅速的迷上了python,而且自己之前接触过web前端,比较片面的学习过js,有一些基础.在pygame上我自闭 ...

  10. python爬虫爬取汽车网站外型图片

    我选择的起始网址:http://www.hao123.com/auto/brand 当你随便选择一个车牌的选框( 不要 同时选择多个选框)你就会发现每个车牌对应一个网址 每个网址的区别就是数字不同 比 ...

最新文章

  1. matlab腐蚀膨胀代码_(三十二)形态学----膨胀和腐蚀
  2. x86 下制作 ARM Docker 镜像,Docker Hub、Travis 自动构建 qemu-user-static
  3. HDU - 5874 Friends and Enemies(思维)
  4. double小数点后最多几位_用了这么多英语学习APP后,我还是最喜欢这4款
  5. 一个用php抓取网页中电子邮箱的实例
  6. 车仪表台上的装饰_给车“纹身”贴这些的注意,有人挨罚啦!扣不扣分?!看这里...
  7. Appium appium android 6.0+ 微信 @driver.available_contexts 返回 webview_undefined 问题
  8. Leetcode每日一题:38.Count and Say(外观数列)
  9. openssl以及openssh升级
  10. winform 只允许显示一个子窗体
  11. Android扩大点击事件接收区域范围
  12. Google Reader 使用技巧及OPML订阅源分享
  13. io_uring 新异步 IO 机制,性能提升超 150%,堪比 SPDK
  14. iOS7以上: 实现如“日历”的 NavigationBar
  15. android eclipse clean 变异,Run a clean Android build from Eclipse?
  16. “汇乐缘”:甜蜜的阴谋?【zt】
  17. Arduino库文件LiquidCrystal的实用方法
  18. JavaScript基础若干盲点总结
  19. 隔离出来的“陋室铭”
  20. 千里马android framework实战开发-binder驱动之oneway导致的transaction failed

热门文章

  1. [部署系列之一]轻松搞定水晶报表9.2打包
  2. Web前端-BOM之Navigator对象
  3. 小红书七夕营销攻略,玩出新花样(内附小红书推广方案干货)
  4. kill linux 苹果_Linux 下的KILL函数的用法
  5. MySQL查询之内存临时表
  6. 环境搭建以及一些命令的记录
  7. 论文解读:A Hierarchical Framework for Relation Extraction with Reinforcement Learning
  8. 微信小程序相关操作示例
  9. 第六章 XML 拨号方案
  10. 南京计算机图书,计算机中心附近图书馆