python爬虫下载文件到指定文件夹_python - 图片爬虫时候遇到问题 urllib.request.urlretrieve 下载到指定文件夹不成功?...
问 题
如果下载到D盘也是没有问题的,下载到我建立的目录下就有问题(主要是我想在D盘建立以URL这个问号前面的数字为名字的目录如(http://v.yupoo.com/photos/196...')中的46975340就是不行,因为有很多链接,每个链接的这个数字不同,我想用这个数字作为文件夹的名字,存放这个链接下载下来的图片)
源码如下:
import urllib.request
import re
import os
py抓取页面图片并保存到本地
获取页面信息
def getHtml(url):
html = urllib.request.urlopen(url).read()
return html
通过正则获取图片
def getImg(html):
reg = 'src="(.+?\.jpg)"'
imgre = re.compile(reg)
imglist = re.findall(imgre,html)
# print(imglist)
return imglist
for i in range(len(url_all)):
循环把图片存到本地
html = getHtml(url_all[i])
list=getImg(html.decode())
print (url_all[1])
x = 0
for imgurl in list:
print(x)
filename = os.path.dirname(url_all[i])
filename2 = os.path.basename(filename)
os.mkdir('d:\%s'% filename2)
local='D:\%s\%s.jpg' %(filename2,x)
print (local)
urllib.request.urlretrieve(imgurl,local)
x+=1
print("done")
执行报错:(win10的64位系统,python3.6)
File "C:Python36liburllibrequest.py", line 258, in urlretrieve
tfp = open(filename, 'wb')
FileNotFoundError: [Errno 2] No such file or directory: 'd:\46975340\0.jpg'
经测试
最后一句这么写是可以输出的: urllib.request.urlretrieve(imgurl,'d:\%s.jpg'% str(i*10+x))
经测试 前面两句都没有问题,加第三句:
local='d:\%s\%s.jpg' %(filename2,x)
print (local)
urllib.request.urlretrieve(imgurl,local)
报错信息如下: (和上面一样)
File "C:Python36liburllibrequest.py", line 258, in urlretrieve
tfp = open(filename, 'wb')
FileNotFoundError: [Errno 2] No such file or directory: 'd:\46975340\0.jpg'
请教给位大大,这个路径到底有什么问题没有?应该怎么写。
解决方案
在保存之前,先检查一下目录是否存在,不存在则建立
if not os.path.exists(file_path):
os.mkdir(file_path)
扫一扫关注IT屋
微信公众号搜索 “ IT屋 ” ,选择关注与百万开发者在一起
python爬虫下载文件到指定文件夹_python - 图片爬虫时候遇到问题 urllib.request.urlretrieve 下载到指定文件夹不成功?...相关推荐
- 已解决urllib.request.urlretrieve下载文件报错403
已解决(python使用urlopen/urlretrieve下载文件时出现403 forbidden)urllib.error.HTTPError: HTTP Error 403: Forbidde ...
- Crawler:爬虫基于urllib.request库实现获取指定网址上的所有图片
Crawler:爬虫基于urllib.request库实现获取指定网址上的所有图片 目录 输出结果 核心代码 输出结果 核心代码 # coding=gbk import urllib.request ...
- python爬虫图片工具安卓版下载_python图片爬虫(图片爬虫工具) 1.1绿色版
python图片爬虫(图片爬虫工具)是一款专门为互联.it行业的小伙伴们打造的爬虫工具,可以帮大家对软件进行优化.seo的人一定会用的上哦,有兴趣的赶紧下载了哦!python图片爬虫代码如下: #-* ...
- 爬虫实战17:多线程爱丝APP图片爬虫
# -*- coding: utf-8 -*- import os import json import requests import time from multiprocessing impor ...
- python查找关键字在目录的某些文件哪个位置 行数_Python目录爬虫扫描各种文件并搜索关键字...
我正在尝试创建一个目录爬虫来搜索文件夹及其所有子文件夹中的所有文件中的特定关键字.这就是我目前所拥有的(在本例中,我要查找关键字"olofx"):import os rootDir ...
- python爬取淘宝商品做数据挖掘_Python 3爬虫 数据清洗与可视化实战 Python数据抓取技术 python3网络爬虫教程书籍 运用Python工具获取电商平台页面数据挖掘书籍...
A8 书 名:Python 3爬虫 数据清洗与可视化实战 作 译 者:零一,韩要宾,黄园园 出版时间:2018-03 千 字 数:200 版 次:01-01 页 数:212 开 ...
- 【python爬虫】游民星空福利和壁纸帖图片爬虫
学习python中,写个爬虫小程序,基于2.7版本 代码源码贴在我的Github:https://github.com/qqxx6661/python/blob/master/gamerskyPic1 ...
- python最简单的爬取邮箱地址_python简单爬虫,抓取邮箱
最近,老师给了一个练习是,实现一个爬虫,就爬大概100个网页,匹配出邮箱. 于是,我花了几天时间,熟悉熟悉了python,就有了下面这个超级简单的爬虫程序.各种毛病...... 这里先说明一下,pyt ...
- python爬虫程序框架的理论是什么_Python网络爬虫(scrapy框架简介和基础应用)
一.什么是Scrapy? Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍.所谓的框架就是一个已经被集成了各种功能(高性能异步下载,队列,分布式,解析,持久化等) ...
- python爬取页面内容由京东提_python制作爬虫爬取京东商品评论教程
本篇文章是python爬虫系列的第三篇,介绍如何抓取京东商城商品评论信息,并对这些评论信息进行分析和可视化.下面是要抓取的商品信息,一款女士文胸.这个商品共有红色,黑色和肤色三种颜色, 70B到90D ...
最新文章
- Bad owner or permissions on xx/.ssh/config
- 微软亚洲研究院副院长周明离职,将加入创新工场
- Markdown 编辑器的使用记录 (Typora)
- 让模糊图片变视频,找回丢失的时间维度,MIT这项新研究简直像魔术
- C#委托,事件理解入门 (译稿)
- USB-WiFi在x210板子上的移植
- mkimage command not found
- Getmemory函数详解--内存操作的理解
- AJAX技术文案沙雕,vue-router 中使用 keep-alive 控制 ajax 请求的缓存策略(二)
- 渗透测试基础-XSS漏洞简析
- 统计分析 -- t分布
- arcgis pro利用python进行空间插值
- IceSword V1.22 Final 冰刃
- [导入]中国民营企业500强
- 三菱fx5u modbus tcp fb块用法_一文教会你,如何掌握三菱FX5U PLC基础知识
- UIPinchGestureRecognizer 放大、缩小手势
- 用ajax表单全部提交
- jsjquery获取url域名及参数的方法
- AM1808 OMAPL138 研发
- Python基础数据类型详解:字典(补充)
热门文章
- web测试实践作业进度报告三
- linux和window是服务器时间同步
- 玩转windows内置linux子系统_1.安装
- [渣译文] SignalR 2.0 系列: SignalR简介
- 用python调用ICTCLAS50进行中文分词
- [转]前向纠错(FEC)的RTP荷载格式
- flash应用中的一个安全隐患
- 点击场景中的物件无法定位到Hierarchy
- 重构Webpack系列之五 ---- Plugins
- whoosh读取+html,django-haystack+jieba+whoosh实现全文检索