python3爬虫初探(五)之从爬取到保存
想一想,还是写个完整的代码,总结一下前面学的吧。
import requests import re# 获取网页源码 url = 'http://www.ivsky.com/tupian/xiaohuangren_t21343/' data = requests.get(url).text#正则表达式三部曲 #<img src="http://img.ivsky.com/img/tupian/t/201411/01/xiaohuangren-009.jpg" width="135" height="135" alt="卑鄙的我小黄人图片"> regex = r'<img src="(.*?.jpg)"'#匹配网址 pa = re.compile(regex)#转为pattern对象 ma = re.findall(pa, data)#findall 方法找到所有的符合pa的对象,添加到一个列表中并返回 #print(ma)#图片网址列表 print('本次爬取共获取图片'+str(len(ma))+'张')#列表长度,即找到图片个数i = 0#这里的i, 只是为了给图片命名。。。 for imgurl in ma:i += 1print('正在爬取'+imgurl)imgdata = requests.get(imgurl).contentwith open(str(i)+'.jpg', 'wb') as f:f.write(imgdata)print('爬取完毕!')
放几张程序输出的图。
python3爬虫初探(五)之从爬取到保存相关推荐
- python3爬虫系列16之多线程爬取汽车之家批量下载图片
python3爬虫系列16之多线程爬取汽车之家批量下载图片 1.前言 上一篇呢,python3爬虫系列14之爬虫增速多线程,线程池,队列的用法(通俗易懂),主要介绍了线程,多线程,和两个线程池的使用. ...
- Python3爬虫数据入数据库---把爬取到的数据存到数据库,带数据库去重功能
这是python3实战入门系列的第三篇文章,要学习这一篇需要了解前两篇,要不学起来比较费劲 python3实战入门python爬虫篇001---网页爬虫,图片爬虫,文章爬虫,Python爬虫爬取新闻网 ...
- python3爬虫之使用Scrapy框架爬取英雄联盟高清桌面壁纸
使用Scrapy爬虫抓取英雄联盟高清桌面壁纸 源码地址:https://github.com/snowyme/loldesk 开始项目前需要安装python3和Scrapy,不会的自行百度,这里就不具 ...
- python3爬虫系列之使用requests爬取LOL英雄图片
我们最终目的就是要把抓取到的图片保存到本地,所以先写一个保存图片的方法(可以保存任何二进制文件).注意在windows下文件命名包含/ | ?可能会发生错误,有的英雄皮肤名称确实包含/,所以这里使用正 ...
- python3爬虫实战(一)爬取创业邦创投库
从创业邦网站拉取创业公司数据 入口链接:http://www.cyzone.cn/event/list-764-0-1-0-0-0-0/,要求抓取前30页. 抓取以下信息:公司名称,详情URL,当前融 ...
- Python爬虫初探(九)——爬虫之Beautifulsoup4实战(爬取豆瓣信息)
前面两章咱们介绍了Beautifuisoup4模块的简单使用,今天就用它来爬取豆瓣信息.话不多说,咱们开始吧. 一.拿到url地址 二.获取豆瓣数据 三.保存文件 需求: 爬取标题.评分.详情页的地址 ...
- 初探Scrapy爬虫框架之百度网页爬取
初探Scrapy爬虫框架之百度网页爬取 scrapy框架及百度网页爬取与保存 一.scrapy框架简介 二.自己初使用的心得体会 1.爬虫之前明确目标 2.scrapy框架的简单使用流程 3.scra ...
- [Python3网络爬虫开发实战] --分析Ajax爬取今日头条街拍美图
[Python3网络爬虫开发实战] --分析Ajax爬取今日头条街拍美图 学习笔记--爬取今日头条街拍美图 准备工作 抓取分析 实战演练 学习笔记–爬取今日头条街拍美图 尝试通过分析Ajax请求来抓取 ...
- Python爬虫新手入门教学(十五):爬取网站音乐素材
前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. Python爬虫.数据分析.网站开发等案例教程视频免费在线观看 https://space. ...
- python爬取大众点评数据_python爬虫实例详细介绍之爬取大众点评的数据
python 爬虫实例详细介绍之爬取大众点评的数据 一. Python作为一种语法简洁.面向对象的解释性语言,其便捷性.容易上手性受到众多程序员的青睐,基于python的包也越来越多,使得python ...
最新文章
- 李彦宏喊你来坐出租车,无人驾驶的那种;百度还要继续搞芯片,联手华为的那种...
- vertx.FileResolver文件解析
- python取前三位_Python 实现取多维数组第n维的前几位
- 傲梦python笔试题_python笔试题
- POJ 3422 Kaka's Matrix Travels
- 理解Java集合框架里面的的transient关键字
- 中文数字转换为阿拉伯数字
- 2019.1.5 DOM
- android设置webview缓存目录,Android基础入门教程——7.5.5 WebView缓存问题
- android入门问题--R文件丢失
- 一道笔试题的解法和联想
- Solr schema编写指导
- 深入解析Windows操作系统(笔记1)
- mysql compute_compute by 的使用
- 苹果手机壳_手机壳推荐:iPhone12手机壳苹果保护壳平价个性推荐
- View 5应用之二:瘦客户机上的虚拟桌面
- Format函数详解
- shopnc 设置mysql_shopnc 手机网站配置
- 实力肯定!Coremail邮件网关荣获金融信创优秀解决方案奖
- 拳王虚拟项目公社:小白无脑可操作的自动化虚拟资源项目,虚拟资源自动发货的实操玩法
热门文章
- 【dijkstra模板】旅游规划 (25 分)
- C语言满分代码:L1-056 猜数字 (20分)
- java入门应该学什么_初学Java应该掌握哪些基础知识?
- Python元组介绍
- mysql按字段多条组合_MySQL按分组把字段值组合成一个结果
- linux chrome 管理员,Linux下google chrome浏览器flash无法启用的解决
- php add 返回id,PHP curl_multi_close函数
- java new的是构造函数_Java构造函数
- php 隐藏的id,隐藏你的 ID 吧!
- git 使用_Git使用总结