Python爬虫实例(5)-简单的爬虫,用XML爬取卡车图片
一个简单的爬虫,所用的技巧都是上几篇博文中讲到的。
用于帮助杨烈的课题,搜集几百张卡车的图片。本来想在百度图片,直接输入“卡车”搜索,但是百度图片的网页加载方式没看明白。只是在“卡车之家”这个网站写了一下,聊胜于无。
爬虫旨在数据收集,属于大数据、数据分析等工作的第一步;这也算是我第一次将爬虫技能运用在实际项目当中吧。
但是百度图片的网页加载还是搞不懂,也就导致百度图片无法爬取出来,前段的知识还是需要补充啊。
# -*- coding: utf-8 -*- import requests
import os
from lxml import etree#在本地建立一个文件夹,命名为pic_truck,用于存放下载的图片
folder = 'pic_truck'
if not os.path.exists(folder):os.makedirs(folder)#定义下载函数,用于下载图片
def download(url):response = requests.get(url, headers = header)name = url.split('/')[-1]f = open(folder + '/' + name + '.jpg', 'wb')f.write(response.content)f.close()return True#分析该网站的图片url,非常的简单,因此给定range,循环调用函数即可
for i in range(538000, 538947):url = 'https://product.360che.com/Pic/' + str(i) + '.html#pic'header = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}#print(url)response = requests.get(url, headers = header) html = response.textxml = etree.HTML(html)src_list = xml.xpath('//div[@class="imgc1"]/img/@src')src_num = len(src_list)print(src_num)for i in range(src_num):print(src_list[i])download(src_list[i])print('OK')
另外,突然意识到了一个爬虫实战的小技巧:
在百度中检索“爬虫 图片”这个关键词,会调出很多爬取图片的例子,把这些例子做个200道,基本上那就差不多了吧。
加油吧,正确每天都刷个5-10个的,嘻嘻,每次刷完之后就在csdn博客上记录。
Python爬虫实例(5)-简单的爬虫,用XML爬取卡车图片相关推荐
- python爬电影排名用os bs4_Pyhton网络爬虫实例_豆瓣电影排行榜_BeautifulSoup4方法爬取...
-----------------------------------------------------------学无止境------------------------------------- ...
- 【python实现网络爬虫(5)】第一个Scrapy爬虫实例项目(Scrapy原理及Scrapy爬取名言名句网站信息)
Scrapy介绍 总共有五部分组成的:具体的流程可看图示 引擎.调度器.下载器.蜘蛛和项目管道 爬取流程 针对于每个URL, Scheduler -> Downloader -> Spid ...
- 扇贝python_Python爬虫入门经典 | 简单一文教你如何爬取扇贝单词
现在的博主正在发呆,无意之中打开了扇贝Python必背词汇的网址.那么既然打开了,再加上博主挺无聊的.那么就尝试爬取一下这个网页! 一.网页分析 我们打开此网站之后,通过以往爬取网页的经验,会发现此网 ...
- 爬虫实例:链家网房源数据爬取
初接触python爬虫,跟着视频学习一些很基础的内容,小小尝试了一下,如有错误感谢指正. 库和方法介绍: (1)requests requests是python的工具包,用于发出请求,,是用来获取网站 ...
- 爬虫学习笔记(二)——使用 requests 爬取百度图片
一.抓取首页图片 静态页面 流程: 1.1.找到目标数据 这里用狗的图片来举例,接下来我们就要分析然后爬取这个页面所有狗的图片的规律 1.2.分析请求流程 先访问page页获取网页的源代码 # 网页的 ...
- python微信公众号推送_python爬虫_微信公众号推送信息爬取的实例
问题描述 利用搜狗的微信搜索抓取指定公众号的最新一条推送,并保存相应的网页至本地. 注意点 搜狗微信获取的地址为临时链接,具有时效性. 公众号为动态网页(JavaScript渲染),使用request ...
- python爬虫公众号_python爬虫_微信公众号推送信息爬取的实例
问题描述 利用搜狗的微信搜索抓取指定公众号的最新一条推送,并保存相应的网页至本地. 注意点 搜狗微信获取的地址为临时链接,具有时效性. 公众号为动态网页(JavaScript渲染),使用request ...
- python scrapy 框架的简单使用爬虫苏宁易购图书信息
python scrapy 框架的简单使用&&爬虫苏宁易购图书信息 前言 第一步: 分析网页 1.1 找到要爬取的数据位置 分类信息 图书信息 价格信息 1.2 分析如何获取数据 正则 ...
- python微信爬取教程_python爬虫_微信公众号推送信息爬取的实例
问题描述 利用搜狗的微信搜索抓取指定公众号的最新一条推送,并保存相应的网页至本地. 注意点 搜狗微信获取的地址为临时链接,具有时效性. 公众号为动态网页(JavaScript渲染),使用request ...
最新文章
- 算法实验--主函数只有五行的Floyed的算法以及最短路径输出
- 索引的匹配方式有哪些?
- MSM8909平台 LED背光的控制
- 重新想象 Windows 8 Store Apps (27) - 选取器: 联系人选取窗口, 自定义联系人选取窗口...
- python-matplotlib
- Android平台类加载流程源码分析
- 行业牛人和开源软件改变技术世界
- 从源头入手,一分钟秒懂为什么要搞微服务架构?(转)
- Myeclipse2017破解:成功解决me Trial expired 0 days ago mgeclipse It's now time to buy the best IDE for yo
- CrystalReports水晶报表中的组
- mike21换成计算机名称,[转载]mike21基本介绍
- libpng 处理png图片
- 小胖月安卓版,随机选号、叫号功能,互动功能
- cad转pdf格式简易步骤
- EasyClick 易点云测
- 熔断机制什么意思_[财经]熔断机制的由来介绍 熔断机制什么意思 - 南方财富网...
- 山东艾思软件科技有限公司-公司介绍
- (20下)张量网络中的有效哈密顿量思想
- 技术的发展与互联网的发展
- HDU 6082 度度熊与邪恶大魔王(01背包)