Python爬虫实例（5）-简单的爬虫，用XML爬取卡车图片

一个简单的爬虫，所用的技巧都是上几篇博文中讲到的。

用于帮助杨烈的课题，搜集几百张卡车的图片。本来想在百度图片，直接输入“卡车”搜索，但是百度图片的网页加载方式没看明白。只是在“卡车之家”这个网站写了一下，聊胜于无。

爬虫旨在数据收集，属于大数据、数据分析等工作的第一步；这也算是我第一次将爬虫技能运用在实际项目当中吧。

但是百度图片的网页加载还是搞不懂，也就导致百度图片无法爬取出来，前段的知识还是需要补充啊。

# -*- coding: utf-8 -*- import requests
import os
from lxml import etree#在本地建立一个文件夹，命名为pic_truck，用于存放下载的图片
folder = 'pic_truck'
if not os.path.exists(folder):os.makedirs(folder)#定义下载函数，用于下载图片
def download(url):response = requests.get(url, headers = header)name = url.split('/')[-1]f = open(folder + '/' + name + '.jpg', 'wb')f.write(response.content)f.close()return True#分析该网站的图片url，非常的简单，因此给定range，循环调用函数即可
for i in range(538000, 538947):url = 'https://product.360che.com/Pic/' + str(i) + '.html#pic'header = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}#print(url)response = requests.get(url, headers = header)  html = response.textxml = etree.HTML(html)src_list = xml.xpath('//div[@class="imgc1"]/img/@src')src_num = len(src_list)print(src_num)for i in range(src_num):print(src_list[i])download(src_list[i])print('OK')

另外，突然意识到了一个爬虫实战的小技巧：
在百度中检索“爬虫图片”这个关键词，会调出很多爬取图片的例子，把这些例子做个200道，基本上那就差不多了吧。

加油吧，正确每天都刷个5-10个的，嘻嘻，每次刷完之后就在csdn博客上记录。

Python爬虫实例（5）-简单的爬虫，用XML爬取卡车图片相关推荐

python爬电影排名用os bs4_Pyhton网络爬虫实例_豆瓣电影排行榜_BeautifulSoup4方法爬取...
-----------------------------------------------------------学无止境------------------------------------- ...
【python实现网络爬虫（5）】第一个Scrapy爬虫实例项目（Scrapy原理及Scrapy爬取名言名句网站信息）
Scrapy介绍总共有五部分组成的:具体的流程可看图示引擎.调度器.下载器.蜘蛛和项目管道爬取流程针对于每个URL, Scheduler -> Downloader -> Spid ...
扇贝python_Python爬虫入门经典 | 简单一文教你如何爬取扇贝单词
现在的博主正在发呆,无意之中打开了扇贝Python必背词汇的网址.那么既然打开了,再加上博主挺无聊的.那么就尝试爬取一下这个网页! 一.网页分析我们打开此网站之后,通过以往爬取网页的经验,会发现此网 ...
爬虫实例：链家网房源数据爬取
初接触python爬虫,跟着视频学习一些很基础的内容,小小尝试了一下,如有错误感谢指正. 库和方法介绍: (1)requests requests是python的工具包,用于发出请求,,是用来获取网站 ...
爬虫学习笔记（二）——使用 requests 爬取百度图片
一.抓取首页图片静态页面流程: 1.1.找到目标数据这里用狗的图片来举例,接下来我们就要分析然后爬取这个页面所有狗的图片的规律 1.2.分析请求流程先访问page页获取网页的源代码 # 网页的 ...
python微信公众号推送_python爬虫_微信公众号推送信息爬取的实例
问题描述利用搜狗的微信搜索抓取指定公众号的最新一条推送,并保存相应的网页至本地. 注意点搜狗微信获取的地址为临时链接,具有时效性. 公众号为动态网页(JavaScript渲染),使用request ...
python爬虫公众号_python爬虫_微信公众号推送信息爬取的实例
问题描述利用搜狗的微信搜索抓取指定公众号的最新一条推送,并保存相应的网页至本地. 注意点搜狗微信获取的地址为临时链接,具有时效性. 公众号为动态网页(JavaScript渲染),使用request ...
python scrapy 框架的简单使用爬虫苏宁易购图书信息
python scrapy 框架的简单使用&&爬虫苏宁易购图书信息前言第一步: 分析网页 1.1 找到要爬取的数据位置分类信息图书信息价格信息 1.2 分析如何获取数据正则 ...
python微信爬取教程_python爬虫_微信公众号推送信息爬取的实例
问题描述利用搜狗的微信搜索抓取指定公众号的最新一条推送,并保存相应的网页至本地. 注意点搜狗微信获取的地址为临时链接,具有时效性. 公众号为动态网页(JavaScript渲染),使用request ...

Python爬虫实例（5）-简单的爬虫，用XML爬取卡车图片

Python爬虫实例（5）-简单的爬虫，用XML爬取卡车图片相关推荐

最新文章

热门文章