小白都能学会的python网络爬虫专栏

https://blog.csdn.net/c1007857613/category_12127982.html


序言

本人从事爬虫相关工作已8年以上,从一个小白到能够熟练使用爬虫,中间也走了些弯路,希望以自身的学习经历,让大家能够轻而易举的,快速的,掌握爬虫的相关知识并熟练的使用它,避免浪费更多的无用时间,甚至走很大的弯路。欢迎大家留言,一起交流讨论


前言

随着大数据,人工智能等领域的快速发展,数据的重要性日益凸显,那么如何获取数据呢?——网络爬虫。作为获取数据,特别是网络公开数据的重要工具,网络爬虫也逐步渗入到我们工作和生活的方方面面,比如抢票软件,招聘网站等等,这些都给我们的生活带来了极大的便利。因此,不论你是想从事大数据,数据分析等相关行业,还是做科学研究写论文,又或者是想通过程序自动的帮助你收集网络上的一些数据,已完成老板交代的任务,等等,了解并掌握网络爬虫的相关知识对你的工作和发展都有百利而无一害。


【本节学习目标】:了解爬虫的相关基础知识,能说上一二,是后续学习的基础。


1 爬虫概述——初步认识

1.1 爬虫就在我们身边

之前对爬虫没有了解过的童鞋可能会觉得爬虫是一个技术层面上的东西,离我们的生活和工作都很遥远,其实不然。试想一下,如有你看上了一些好看的图片或者电影,但由于数据量较多,下载时间较长,人工去一个个下载,是一个工作量很大的事情。又或者,如果你老板交代给你一个任务,收集中国目前所有上市公司的名单信息,那是不是要一个个去找,然后一个个复制到excel中,如果要求的公司信息越多,那不就越复杂了。

那遇到以上情况,怎么办呢?如果你是土豪,直接去买相关的数据,当然没问题!又或者你就是单纯的想锻炼下自己的手指,就是想手动去获取也无可厚非。但如果又你是普通的打工仔,想保护下我们那纤细的手指,又想白嫖的话,就可以使用爬虫来帮你做这些工作,你只需要喝着咖啡,抖着腿,看着电视,刷着抖音,看看靓仔靓女。

当然,爬虫的用途或者说应用远不止如此,爬虫的应用其实已经渗入到了我们工作和生活的方方面面,很多应用场景大家都见过,只是不知道它是爬虫而已。比如,最常见的爬虫应用,就是我们使用到的搜索引擎,搜索引擎的本质就是一个爬虫,将网络上各个地方的数据抓取过来,从而我们可以通过一个搜索入口就能搜索到各个网站的信息。

龙券网,是一个提供搜索各大电商平台优惠券信息的网站,其原理也是通过爬虫将各大电商平台上的商品优惠信息抓取过来。

历史价格查询,这是一个微信小程序,你可以在该应用中查询某个商品的历史价格信息,这样你知道你当前买的这个商品是比之前贵还是便宜(不是打广告哈,确实挺实用,尤其这些商家喜欢搞些什么双十一,双十二活动,通过它你知道商家到底有没有优惠,还是给你偷偷涨价了呢)。言归正传,这个应用也是爬虫应用的一个充分体现,其商品的价格信息也是通过爬虫不断抓取过来,然后绘制了各个商品的价格走势。

我已经举了很多个爬虫的栗子了,手都酸了,你能帮我举一下吗?哈哈哈

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~举栗子中~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

各大招聘网站(招聘信息就是从各大公司网址抓取过来的)、抢票软件(车票信息从12306等官方售票网站抓取过来的)、舆情监测、金融投资风险分析等等。

所以说,爬虫和我们并不遥远,爬虫其中就在我们身边!


1.2 爬虫是什么

爬虫(spider,又称网络爬虫,网络蜘蛛),从字面上来看,爬虫就像是一只蜘蛛,在互联网上不断爬行,不断的抓取数据。

从爬虫的本质上来看,爬虫就是一段程序,该程序的作用或者说目的就是自动的向网站/网络发送请求,获取并提取有用的数据。

从技术层面来说就是通过程序模拟浏览器请求站点的行为,把站点返回的HTML代码/JSON数据/二进制数据(图片、视频) 爬到本地,进而提取自己需要的数据,存放起来使用。这段话,可能很多小可爱不是很理解,但如果我们把浏览器怎么显示网络数据的过程理解一下的话就容易懂了。

你有没有想过,在你的电脑上为何能够看到别的网站的信息,你的浏览器是在你自己的电脑上,要访问的网站是在对方的机器上。我们结合上面这个示意图来理解,当我们打开一个网站或者在浏览器中输入网址访问时,比如百度网,浏览器会自动帮我们向百度网发送一个请求,百度的网站服务器收到这个请求后会做出请求响应,并把数据返回给浏览器,浏览器接收到数据后再显示出来,所以我们打开一个网站能够看到该网站的信息。当然其中返回的数据不是普通的文字,可能是带有格式的文字、链接等(html格式)、可能是json格式,可能是图片、视频(二进制格式)等等。(这段加粗的文字请重点理解,理解了这个,对爬虫的理解也就差不多)

     所以啊,在回过头来理解爬虫就简单了,爬虫就是通过一段程序,来模拟浏览器向目标网站或网页发送请求的这个过程,来拿到其返回的数据,这样就完成对某个网站数据的抓取。


总结

本章主要对网络爬虫做了一个初步的介绍,适合对网络爬虫不是很了解的初学者阅读。

如对文章内容有疑问或者需要全套的学习资料(配套PPT和本课程的所有项目源码)的,欢迎大家留言。

(一)python网络爬虫(理论+实战)——爬虫的初步认识相关推荐

  1. python3 [爬虫入门实战]爬虫之scrapy安装与配置教程

    python3 [爬虫入门实战]爬虫之scrapy安装与配置教程 标签: python爬虫scrapy 2017-07-08 15:38 77人阅读 评论(0) 收藏 举报 分类: python3爬虫 ...

  2. python网络爬图_Python爬虫爬图片需要什么

    Python爬虫爬图片需要什么?下面用两种方法制作批量爬取网络图片的方法: 第一种方法:基于urllib实现 要点如下: 1.url_request = request.Request(url) 2. ...

  3. 百度新闻爬虫搜索引擎实战---爬虫篇(2)

    爬虫部分 新闻链接爬取(2) 书接上回,我们获取到了使用动态加载技术加载的新闻链接,但是,有些不是动态加载的新闻链接,我们还没有处理.我们将doc类型文档拷贝下来,放入HBuilder X编辑器中,然 ...

  4. 百度新闻爬虫搜索引擎实战---爬虫篇(1)

    爬虫部分 首先,我们得爬取百度新闻的信息. 爬虫分为两部分: 获取新闻链接 通过链接爬取新闻信息 新闻链接爬取(1) 1.获取新闻链接 1.1 分析请求 打开chrome浏览器,输入百度新闻链接,按F ...

  5. python3 [爬虫入门实战]爬虫之scrapy爬取织梦者网站并存mongoDB

    主要爬取了编程栏目里的其他编程里的36638条数据 过程是自己一步一步的往下写的,有不懂的也是一边找笔记,一边百度,一边调试. 遗憾:没有进行多栏目数据的爬取,只爬了一个栏目的数据,希望有想法的有钻研 ...

  6. python3 [爬虫入门实战]爬虫之mongoDB数据库的安装配置与可视化

    从安装过程到可视化工具可查看数据信息,历时两天,昨天坐了一天的火车,今天早上才到的青岛–> 来放松心情. 前天说是要学习如何使用mongoDB的链接与安装. 到今天过去了将一天, 不过还是在函兮 ...

  7. 第一篇个人博客:python爬虫的实战——书籍下载链接查找

    爬虫的实战 #爬虫实战内容简介 此次爬虫实战,为了完成小组项目中的一小部分功能--对于书籍资料的查找.我们是对于书籍网站进行访问,然后查找到想要的书籍,并且查找到下载地址.这个时候就需要对HTML进行 ...

  8. python网络编程实战_Python 异步网络编程实战

    近年来 Python 的发展的非常迅速,"简单"."高效"是 Python 吸引人的一大特色.在国内 Python 开发需求越来越大,Python 具有丰富强大 ...

  9. (二)python网络爬虫(理论+实战)——爬虫分类和基本流程

     小白都能学会的python网络爬虫专栏: https://blog.csdn.net/c1007857613/category_12127982.html 序言 本人从事爬虫相关工作已8年以上,从一 ...

最新文章

  1. duilib基本布局学习(模仿百度网盘)及绑定按钮事件
  2. java命令运行class文件提示错误:找不到或无法加载主类
  3. java 栈 队列 接口_Java队列接口
  4. linux windows 动态库导出查看 ld -r
  5. 刚开始用 Go 做项目开发时都会面临哪些问题?
  6. 【Vue】—项目的目录结构介绍
  7. java程序的开发工具是jdk,分享面经
  8. mysql父子节点分层_mysql 递归实例 父子节点层级递归
  9. 负载均衡技术沙龙2期圆满结束(现场图文、PPT)
  10. java修改文件后缀_java批量修改文件后缀的方法介绍
  11. Big FAT32 Format Pro(U盘格式化工具)官方正式版V2.0 | u盘无法格式化怎么办 | 万能u盘修复工具下载 | 突破FAT文件系统4GB的限制
  12. c语言累加和求平均数程序,c语言编程:连续输入若干个正整数,求其和及其平均值,直到输入0结束....
  13. Python笔记001-类的特殊方法
  14. java 地牢猎手,地牢猎手5新手必看速成攻略
  15. 【LCA】BZOJ1776-[Usaco2010 Hol]cowpol 奶牛政坛
  16. Office 2016 Pro Plus \ Project 专业版 \ Visio 专业版 \ 64 位vol版本方便KMS小马oem
  17. 虚拟化搭建云服务器,服务器虚拟化系统平台搭建
  18. laravel 微博登录
  19. uniapp实现app跳转app
  20. html实现ppt效果页面,CSS3+JavaScript实现翻页幻灯片效果

热门文章

  1. 使用全局变量有什么好处?有什么坏处?_一起来了解下:喝贡菊花茶有什么好处、喝菊花茶的好处和坏处...
  2. 阿里云盘的目录文件列表程序Alist
  3. 三菱伺服器J3、J4、JE中文调试软件
  4. 标书导出html,小白不会做标书?老手有这些经验要告诉你!
  5. Java 使用IE浏览器下载文件,文件名乱码问题
  6. DPlayer播放器
  7. 今天组里新入职一个31岁的校招生
  8. 团队活动 激励还是鸡肋?
  9. 遥感解译实验样本标注规范
  10. php自带加密解密函数