一个简单的爬虫,所用的技巧都是上几篇博文中讲到的。

用于帮助杨烈的课题,搜集几百张卡车的图片。本来想在百度图片,直接输入“卡车”搜索,但是百度图片的网页加载方式没看明白。只是在“卡车之家”这个网站写了一下,聊胜于无。

爬虫旨在数据收集,属于大数据、数据分析等工作的第一步;这也算是我第一次将爬虫技能运用在实际项目当中吧。

但是百度图片的网页加载还是搞不懂,也就导致百度图片无法爬取出来,前段的知识还是需要补充啊。

# -*- coding: utf-8 -*- import requests
import os
from lxml import etree#在本地建立一个文件夹,命名为pic_truck,用于存放下载的图片
folder = 'pic_truck'
if not os.path.exists(folder):os.makedirs(folder)#定义下载函数,用于下载图片
def download(url):response = requests.get(url, headers = header)name = url.split('/')[-1]f = open(folder + '/' + name + '.jpg', 'wb')f.write(response.content)f.close()return True#分析该网站的图片url,非常的简单,因此给定range,循环调用函数即可
for i in range(538000, 538947):url = 'https://product.360che.com/Pic/' + str(i) + '.html#pic'header = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}#print(url)response = requests.get(url, headers = header)  html = response.textxml = etree.HTML(html)src_list = xml.xpath('//div[@class="imgc1"]/img/@src')src_num = len(src_list)print(src_num)for i in range(src_num):print(src_list[i])download(src_list[i])print('OK')

另外,突然意识到了一个爬虫实战的小技巧:
在百度中检索“爬虫 图片”这个关键词,会调出很多爬取图片的例子,把这些例子做个200道,基本上那就差不多了吧。

加油吧,正确每天都刷个5-10个的,嘻嘻,每次刷完之后就在csdn博客上记录。

Python爬虫实例(5)-简单的爬虫,用XML爬取卡车图片相关推荐

  1. python爬电影排名用os bs4_Pyhton网络爬虫实例_豆瓣电影排行榜_BeautifulSoup4方法爬取...

    -----------------------------------------------------------学无止境------------------------------------- ...

  2. 【python实现网络爬虫(5)】第一个Scrapy爬虫实例项目(Scrapy原理及Scrapy爬取名言名句网站信息)

    Scrapy介绍 总共有五部分组成的:具体的流程可看图示 引擎.调度器.下载器.蜘蛛和项目管道 爬取流程 针对于每个URL, Scheduler -> Downloader -> Spid ...

  3. 扇贝python_Python爬虫入门经典 | 简单一文教你如何爬取扇贝单词

    现在的博主正在发呆,无意之中打开了扇贝Python必背词汇的网址.那么既然打开了,再加上博主挺无聊的.那么就尝试爬取一下这个网页! 一.网页分析 我们打开此网站之后,通过以往爬取网页的经验,会发现此网 ...

  4. 爬虫实例:链家网房源数据爬取

    初接触python爬虫,跟着视频学习一些很基础的内容,小小尝试了一下,如有错误感谢指正. 库和方法介绍: (1)requests requests是python的工具包,用于发出请求,,是用来获取网站 ...

  5. 爬虫学习笔记(二)——使用 requests 爬取百度图片

    一.抓取首页图片 静态页面 流程: 1.1.找到目标数据 这里用狗的图片来举例,接下来我们就要分析然后爬取这个页面所有狗的图片的规律 1.2.分析请求流程 先访问page页获取网页的源代码 # 网页的 ...

  6. python微信公众号推送_python爬虫_微信公众号推送信息爬取的实例

    问题描述 利用搜狗的微信搜索抓取指定公众号的最新一条推送,并保存相应的网页至本地. 注意点 搜狗微信获取的地址为临时链接,具有时效性. 公众号为动态网页(JavaScript渲染),使用request ...

  7. python爬虫公众号_python爬虫_微信公众号推送信息爬取的实例

    问题描述 利用搜狗的微信搜索抓取指定公众号的最新一条推送,并保存相应的网页至本地. 注意点 搜狗微信获取的地址为临时链接,具有时效性. 公众号为动态网页(JavaScript渲染),使用request ...

  8. python scrapy 框架的简单使用爬虫苏宁易购图书信息

    python scrapy 框架的简单使用&&爬虫苏宁易购图书信息 前言 第一步: 分析网页 1.1 找到要爬取的数据位置 分类信息 图书信息 价格信息 1.2 分析如何获取数据 正则 ...

  9. python微信爬取教程_python爬虫_微信公众号推送信息爬取的实例

    问题描述 利用搜狗的微信搜索抓取指定公众号的最新一条推送,并保存相应的网页至本地. 注意点 搜狗微信获取的地址为临时链接,具有时效性. 公众号为动态网页(JavaScript渲染),使用request ...

最新文章

  1. 算法实验--主函数只有五行的Floyed的算法以及最短路径输出
  2. 索引的匹配方式有哪些?
  3. MSM8909平台 LED背光的控制
  4. 重新想象 Windows 8 Store Apps (27) - 选取器: 联系人选取窗口, 自定义联系人选取窗口...
  5. python-matplotlib
  6. Android平台类加载流程源码分析
  7. 行业牛人和开源软件改变技术世界
  8. 从源头入手,一分钟秒懂为什么要搞微服务架构?(转)
  9. Myeclipse2017破解:成功解决me Trial expired 0 days ago mgeclipse It's now time to buy the best IDE for yo
  10. CrystalReports水晶报表中的组
  11. mike21换成计算机名称,[转载]mike21基本介绍
  12. libpng 处理png图片
  13. 小胖月安卓版,随机选号、叫号功能,互动功能
  14. cad转pdf格式简易步骤
  15. EasyClick 易点云测
  16. 熔断机制什么意思_[财经]熔断机制的由来介绍 熔断机制什么意思 - 南方财富网...
  17. 山东艾思软件科技有限公司-公司介绍
  18. (20下)张量网络中的有效哈密顿量思想
  19. 技术的发展与互联网的发展
  20. HDU 6082 度度熊与邪恶大魔王(01背包)

热门文章

  1. ifame 实现页面预载,页面不闪(load)
  2. 绑定新浪微博API 实现验证 登录 返回接口获取信息
  3. Java实现发送邮件(定时自动发送邮件)
  4. 2017lol服务器维修,LOL2017年8月15日更新维护到几点 8.15更新内容
  5. 图像质量评价学习笔记02:IQA模型性能评价指标(PLCC、SROCC、KROCC、RMSE)
  6. 2022-07-10 第七小组 闫馨月 学习笔记
  7. 云物大智题库--云计算
  8. 矩阵奇异值计算的一种新方法——基于R语言实现
  9. 什么是vue全家桶?
  10. Python快慢指针法