python爬虫一：必应图片（从网页源代码中找出图片链接然后下载）

这里讲解最简单的爬虫：从网页源代码中找出图片链接然后下载

代码：

#coding=utf-8
#必应图片爬虫
import re
import os
import urllib.request
url = 'http://cn.bing.com/images/search?q=usb+pen&FORM=HDRSC2'
coding = 'utf-8'
thepath = 'D:\\'def get():try:html = urllib.request.urlopen(url).read().decode(coding)except:print('error')print(url)returntitle = re.search("<title>.*</title>", html).group()title = title[7:-20]pic_url = re.findall('http://.{1,100}.jpg|http://.{1,100}.png|http://.{1,100}.jpeg',str(html),re.IGNORECASE)pic_url = list(set(pic_url))path = thepath + titletry:os.mkdir(path)except:returni = 1for each in pic_url:try:pic= urllib.request.urlopen(each,timeout=10).read()except:continuefile = path + '\\' + title + str(i) + '.jpg'fp = open(file,'wb')fp.write(pic)fp.close()i=i+1if not os.listdir(path):os.removedirs(path)print('error')print(url)get()

解释：

（1）urlopen是打开url对应的网页，获取源代码

（2）title是网页标题，利用正则表达式从源代码中获取标题

（3）pic_url是图片url的列表，方法比较简单，直接取出以http://开头以jpg结尾的字符串，中间的长度在1-100之间，因为不同图片的url在网页源代码中是隔开的，所以这个简单的正则表达式匹配以jpg结尾的url的准确率很高，如果是jpeg等等，只要用re1|re2就行，但是对于一些奇怪的url，不以图片后缀作为图片url的后缀，那就找不到它

（4）path是要创建的文件夹路径，文件夹名字就是title

（5）再用urlopen就可以直接打开图片url下载图片，所有图片都用title1,title2...命名

（6）最后一步，如果创建了文件夹但是没有下载图片，就把文件夹删掉

python爬虫一：必应图片（从网页源代码中找出图片链接然后下载）相关推荐

python爬虫基础教程115_Python解析网页源代码中的115网盘链接实例
本文实例讲述了python解析网页源代码中的115网盘链接的方法.分享给大家供大家参考.具体方法分析如下: 其中的1.txt,是网页http://bbs.pediy.com/showthread.ph ...
Python 爬虫入门(1)获取豆瓣网页源代码
import urllib.request #引入第三方模块 url = "http://www.douban.com" #每一个网页都有一个唯一的名称标识通常称为UR ...
Python爬虫第一步之获取网页源代码
软件使用:Python2.7 +Pycharm,稍后使用Python3.5+notepad++试试 #coding: utf-8 import urllibdef getHtml(url):page ...
Python爬虫：Xpath爬取网页信息（附代码）
Python爬虫:Xpath爬取网页信息(附代码) 上一次分享了使用Python简单爬取网页信息的方法.但是仅仅对于单一网页的信息爬取一般无法满足我们的数据需求.对于一般的数据需求,我们通常需要从一个 ...
Python爬虫:运用多线程、IP代理模块爬取百度图片上小姐姐的图片
Python爬虫:运用多线程.IP代理模块爬取百度图片上小姐姐的图片 1.爬取输入类型的图片数量(用于给用户提示) 使用过百度图片的读者会发现,在搜索栏上输入关键词之后,会显示出搜索的结果,小编想大多 ...
Python爬虫4.2 — ajax(动态网页数据抓取)用法教程
Python爬虫4.2 - ajax[动态网页数据]用法教程综述 AJAX 介绍什么是AJAX 实例说明请求分析获取方式实例说明其他博文链接综述本系列文档用于对Python爬虫技术的学 ...
Python爬虫:利用JS逆向抓取携程网景点评论区图片的下载链接
Python爬虫:利用JS逆向抓取携程网景点评论区图片的下载链接 1. 前言 2. 实现过程 3. 运行结果 1. 前言文章内容可能存在版权问题,为此,小编不提供相关实现代码,只是从js逆向说一说到 ...
python爬虫实战（一）--爬取知乎话题图片
原文链接python爬虫实战(一)–爬取知乎话题图片前言在学习了python基础之后,该尝试用python做一些有趣的事情了–爬虫. 知识准备: 1.python基础知识 2.urllib库使用 ...
python爬虫之入门级实战实例（东方财富人气top100、汉服荟视频下载）
文章目录前言一.东方财富人气top100 1.需求说明 2.数据爬取 ①首页数据 ② 实时趋势(排名) ③历史趋势(排名) 二.汉服荟小姐姐主页的视频爬取 1.需求说明 2. 数据爬取总结前言 ...

python爬虫一：必应图片（从网页源代码中找出图片链接然后下载）

python爬虫一：必应图片（从网页源代码中找出图片链接然后下载）相关推荐

最新文章

热门文章