爬虫——首次实现爬取图像

前言：早在写论文期间想利用爬虫技术爬取图像相关图像数据，作为大数据、深度学习的数据资源。着手学习python，但由于各种原因最终没有实现，而是用了最笨的鼠标右键-保存操作，现在来弥补这一遗憾。文章主要参考岚漾忆雨博主的Python爬虫之——爬取妹子图片。

一、平台

本项目实现平台为Win10，Pycharm，这里就不具体介绍了。

二、准备条件

学习python相关基础知识后，发现距离掌握爬虫技术还是有一定差距，主要是对爬虫技术中涉及到几个第三方库认识不够。但是在实现本项目后发现，如果你的正则表达学习的够好，那么你完全可以不依靠第三方库来实现（此处待写完本博再斟酌）。

准备的第三方库为：

requests
beautifulsoup4

这两个库在这里不做解释，需大家自己搜资料学习，因为简单解释对于完成本项目显得徒劳，因此需要深入学习。

三、具体实现过程

原理就刻板的叙述了，其大体过程就是使用python编程按照个人目的，自动获取网页上的图像信息，并保存下来。

本文爬取的目标是：http://www.haijun360.com/news/QZJ/QZJ.html

具体分为以下几个阶段:

获取HTML页面信息；
处理HTML页面数据，提取所需信息；
保存提取到得到信息。

第1、2步可以循环使用，直到找到所需信息为止。

1.获取HTML页面信息

个人感觉爬虫的关键技术主要集中在第一步，第一步体现了和网站运维人员的斗智斗勇。简单说就是你要把自己的爬虫程序伪装成浏览器，这样才不会被对方服务器发现。其中对于初学者主要涉及get及post请求两种，在将自己伪装成浏览器的技术方面会涉及到headers，继而是cookie，然后就是动态token，及验证码等。

最简单的是模拟浏览器的方法是，是使用浏览器的User-Agent，即headers={'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'},不同的浏览器，可能会不同，可以在网页代码中查看（F12打开网页代码），如下图所示：

#coding=utf-8import requestsurl = 'www.baidu.com'headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'}html = requests.get(url,headers=header)

代码中的url可以替换为你想爬取的目标网站，以上代码完成了爬虫的第一步（这是爬取没有不设防的网站，也是最简单的的）。

接下来可以采用bs4的Beautifulsoup来解析响应的html.

2.处理HTML页面数据，提取所需信息

解析获取到的HTML，方法很多，可以将其转换成不同的格式，也可以通过不同的方法来解析，如正则表达、xpath，Beautifulsoup等。这里采用Beautifulsoup，简单....

soup = BeautifulSoup(html.text,'html.parser')pages = soup.find_all('table',class_='weiquan')pic_str = page.find('a').attrs['href']

这里仅仅截取程序中的一段代码，使用时针对个人的情况采用Beautiful中的find及find_all函数。具体使用方法，可以用百度查找，有很多相关的介绍。

3.保存提取到得到信息

第二步提取到了相关网页的url或者是需要下载的图片的url，那么可以通过python3的file函数来保存数据。

with open(filename,'wb+') as f:f.write(html.content)

open的具体参数可以在相关文档上查找。其中的html.content为网页提取到的内容。

以上是学习pyhton爬虫的相关心得，时间有限，写的比较粗糙，其中不免有错，欢迎读者提问。

大数据——python爬虫相关推荐

金融大数据Python爬虫——(按时间爬取、一次性批量爬取多页、一次性批量爬取多家公司多页)爬取百度新闻标题、网址、日期和新闻来源(数据爬取、清洗)
好几个月没写博文了,有空来玩玩爬虫,之前接触了一个爬虫的项目,感触挺深的,当时有个爬取巨潮网的操作,网上的代码天花乱坠,最后还是要靠自己,今天这篇算是入门级别,欢迎收藏评论.
【AI案例】（二）搭建大数据Python生态知识体系
文章目录 1. 软件在大数据方向的应用 2. 大数据方向应用: 3. 大数据的应用流程 4. 传统数据分析的痛点: 5. 大数据的应用流程与生态圈 6. 大数据技术框架应用 7. Flink框架应用 ...
2021-04-01裁判文书网数据python爬虫更新下载
长期持续更新数据 2020-11-08裁判文书网数据python爬虫更新下载添加链接描述截至3月已从数据库中下载1亿1200万条裁判文书数据,有需要数据的伙伴可以(｡･∀･)ﾉﾞ嗨前台QQ7900- ...
2020-11-08裁判文书网数据python爬虫更新下载
2020年9月1日更新文书网2020年8月31日晚更新之后就需要手机注册验证登录了,所以,账号是个问题. 分析 1. 登录比较简单哦,主要难题是多账号的登录及session的更新维护. 2.其它 ...
大数据Python爬取B站电影排行榜——爬取信息
大数据Python爬取B站电影排行榜-信息爬取前言一.配置环境二.爬取B站电影排行榜top100 1.找到B站电影排行榜top100网页 2.用URL进行爬取信息三.建立Excel表并导出总 ...
python智慧树期末_智慧树大数据python期末答案
智慧树大数据python期末答案中国加入wto后亚洲经济重心迅速向日本向中国转移掀起了本轮经济全球化的库兹涅佐夫号航母着舰区是航母斜角甲板,斜角甲板上面有好的戏剧语言不仅能够推动什么发展同时还能揭示 ...
Python+大数据-Python学习(七)
Python+大数据-Python学习(七) 1.文件的基本操作文件打开的格式: file = open(文件路径,读写模式) - open默认打开的式r模式文件路径:可以写相对路径,也可以写 ...
Python+大数据-Python学习(五)
Python+大数据-Python学习(五) 1.函数的基本使用函数是一个被命名的.独立的.完成特定功能的代码段,其可能给调用它的程序一个返回值.被命名的:在Python中,大部分函数都是有名函数 ...
抖音APP数据python爬虫——个人粉丝视频
抖音APP数据python爬虫--个人粉丝视频学习分享,勿触底线. 最近有改进了,之前获取_signature参数的方式有点low.现在用pm2部署一下node接口美滋滋. 代码就不放了,可以去最后 ...
mysql scrapy 重复数据_大数据python（scrapy）爬虫爬取招聘网站数据并存入mysql后分析...
基于Scrapy的爬虫爬取腾讯招聘网站岗位数据视频(见本头条号视频) 根据TIOBE语言排行榜更新的最新程序语言使用排行榜显示,python位居第三,同比增加2.39%,为什么会越来越火,越来越受欢迎 ...

大数据——python爬虫