大数据——python爬虫
爬虫——首次实现爬取图像
前言:早在写论文期间想利用爬虫技术爬取图像相关图像数据,作为大数据、深度学习的数据资源。着手学习python,但由于各种原因最终没有实现,而是用了最笨的鼠标右键-保存操作,现在来弥补这一遗憾。文章主要参考岚漾忆雨博主的Python爬虫之——爬取妹子图片。
一、平台
本项目实现平台为Win10,Pycharm,这里就不具体介绍了。
二、准备条件
学习python相关基础知识后,发现距离掌握爬虫技术还是有一定差距,主要是对爬虫技术中涉及到几个第三方库认识不够。但是在实现本项目后发现,如果你的正则表达学习的够好,那么你完全可以不依靠第三方库来实现(此处待写完本博再斟酌)。
准备的第三方库为:
requests
beautifulsoup4
这两个库在这里不做解释,需大家自己搜资料学习,因为简单解释对于完成本项目显得徒劳,因此需要深入学习。
三、具体实现过程
原理就刻板的叙述了,其大体过程就是使用python编程按照个人目的,自动获取网页上的图像信息,并保存下来。
本文爬取的目标是:http://www.haijun360.com/news/QZJ/QZJ.html
具体分为以下几个阶段:
- 获取HTML页面信息;
- 处理HTML页面数据,提取所需信息;
- 保存提取到得到信息。
第1、2步可以循环使用,直到找到所需信息为止。
1.获取HTML页面信息
个人感觉爬虫的关键技术主要集中在第一步,第一步体现了和网站运维人员的斗智斗勇。简单说就是你要把自己的爬虫程序伪装成浏览器,这样才不会被对方服务器发现。其中对于初学者主要涉及get及post请求两种,在将自己伪装成浏览器的技术方面会涉及到headers,继而是cookie,然后就是动态token,及验证码等。
最简单的是模拟浏览器的方法是,是使用浏览器的User-Agent,即headers={'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'},不同的浏览器,可能会不同,可以在网页代码中查看(F12打开网页代码),如下图所示:
#coding=utf-8import requestsurl = 'www.baidu.com'headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'}html = requests.get(url,headers=header)
代码中的url可以替换为你想爬取的目标网站,以上代码完成了爬虫的第一步(这是爬取没有不设防的网站,也是最简单的的)。
接下来可以采用bs4的Beautifulsoup来解析响应的html.
2.处理HTML页面数据,提取所需信息
解析获取到的HTML,方法很多,可以将其转换成不同的格式,也可以通过不同的方法来解析,如正则表达、xpath,Beautifulsoup等。这里采用Beautifulsoup,简单....
soup = BeautifulSoup(html.text,'html.parser')pages = soup.find_all('table',class_='weiquan')pic_str = page.find('a').attrs['href']
这里仅仅截取程序中的一段代码,使用时针对个人的情况采用Beautiful中的find及find_all函数。具体使用方法,可以用百度查找,有很多相关的介绍。
3.保存提取到得到信息
第二步提取到了相关网页的url或者是需要下载的图片的url,那么可以通过python3的file函数来保存数据。
with open(filename,'wb+') as f:f.write(html.content)
open的具体参数可以在相关文档上查找。其中的html.content为网页提取到的内容。
以上是学习pyhton爬虫的相关心得,时间有限,写的比较粗糙,其中不免有错,欢迎读者提问。
大数据——python爬虫相关推荐
- 金融大数据Python爬虫——(按时间爬取、一次性批量爬取多页、一次性批量爬取多家公司多页)爬取百度新闻标题、网址、日期和新闻来源(数据爬取、清洗)
好几个月没写博文了,有空来玩玩爬虫,之前接触了一个爬虫的项目,感触挺深的,当时有个爬取巨潮网的操作,网上的代码天花乱坠,最后还是要靠自己,今天这篇算是入门级别,欢迎收藏评论.
- 【AI案例】(二)搭建大数据Python生态知识体系
文章目录 1. 软件在大数据方向的应用 2. 大数据方向应用: 3. 大数据的应用流程 4. 传统数据分析的痛点: 5. 大数据的应用流程与生态圈 6. 大数据技术框架应用 7. Flink框架应用 ...
- 2021-04-01裁判文书网数据python爬虫更新下载
长期持续更新数据 2020-11-08裁判文书网数据python爬虫更新下载添加链接描述 截至3月已从数据库中下载1亿1200万条裁判文书数据,有需要数据的伙伴可以(。・∀・)ノ゙嗨前台QQ7900- ...
- 2020-11-08裁判文书网数据python爬虫更新下载
2020年9月1日更新 文书网2020年8月31日晚更新之后就需要手机注册验证登录了,所以,账号是个问题. 分析 1. 登录 比较简单哦,主要难题是多账号的登录及session的更新维护. 2.其它 ...
- 大数据Python爬取B站电影排行榜——爬取信息
大数据Python爬取B站电影排行榜-信息爬取 前言 一.配置环境 二.爬取B站电影排行榜top100 1.找到B站电影排行榜top100网页 2.用URL进行爬取信息 三.建立Excel表并导出 总 ...
- python智慧树期末_智慧树大数据python期末答案
智慧树大数据python期末答案 中国加入wto后亚洲经济重心迅速向日本向中国转移掀起了本轮经济全球化的库兹涅佐夫号航母着舰区是航母斜角甲板,斜角甲板上面有好的戏剧语言不仅能够推动什么发展同时还能揭示 ...
- Python+大数据-Python学习(七)
Python+大数据-Python学习(七) 1.文件的基本操作 文件打开的格式: file = open(文件路径,读写模式) - open默认打开的式r模式 文件路径:可以写相对路径,也可以写 ...
- Python+大数据-Python学习(五)
Python+大数据-Python学习(五) 1.函数的基本使用 函数是一个被命名的.独立的.完成特定功能的代码段,其可能给调用它的程序一个返回值.被命名的:在Python中,大部分函数都是有名函数 ...
- 抖音APP数据python爬虫——个人粉丝视频
抖音APP数据python爬虫--个人粉丝视频 学习分享,勿触底线. 最近有改进了,之前获取_signature参数的方式有点low.现在用pm2部署一下node接口美滋滋. 代码就不放了,可以去最后 ...
- mysql scrapy 重复数据_大数据python(scrapy)爬虫爬取招聘网站数据并存入mysql后分析...
基于Scrapy的爬虫爬取腾讯招聘网站岗位数据视频(见本头条号视频) 根据TIOBE语言排行榜更新的最新程序语言使用排行榜显示,python位居第三,同比增加2.39%,为什么会越来越火,越来越受欢迎 ...
最新文章
- Duplicate class xxx
- 函数传参和实际应用—JS学习笔记2015-6-5(第49天)
- 为什么搜索与推荐场景用AUC评价模型好坏?
- 软件工程学习总结(1)——软件测试工具详解
- $watch, $watchCollection, $watchGroup的使用
- 网站性能测试工具--MS Web Application Stress Tool
- 【浙江大学PAT真题练习乙级】1001 害死人不偿命的(3n+1)猜想(15分)真题解析
- 用户体验设计师、UI 设计师和交互设计师之间的区别,如何挑选图书?
- Android apk 系统签名
- 《Sre google运维解密》笔记
- 针对复杂问题的知识图谱问答最新进展
- java编写一个可切换的界面_java web 项目实现手动中英文切换
- android pie_Android Pie中的新安全功能,以及为什么对它们感到兴奋
- WHM系列:WHM数据迁移(WHM→WHM)
- 【雷达通信】雷达探测项目仿真附Matlab代码
- 微信引流最有效的方法
- 深入解读逻辑回归LogisticRegression:适用于初学者
- hp服务器下的虚拟机安装系统安装,hp 服务器安装linux系统安装
- 对待客户,除了服务要好以外,态度也一定要强硬
- 7 幸运数字的因子个数