Python网络爬虫简单教程——第一部

感谢,如需转载请注明文章出处:https://blog.csdn.net/weixin_44609873/article/details/103384984


Python 网络爬虫简单教程——第一部

Python 网络爬虫简单教程——第二部

Python 网络爬虫简单教程——第三部


在开始教程之前,我们先来聊一聊网络爬虫

一、那么啥子是网络爬虫呢?

网络爬虫 (又被称为网页蜘蛛,网络机器人,在 FOAF 社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动抓取万维网信息的程序或者脚本。还有一些不常用却生动风趣的名字蚂蚁、蠕虫等。

网络爬虫程序 访问互联网,并沿着任何网页中的所有 URL 爬到其它网页,重复此过程,并把爬过的所有网页收集回来。

简单来说网络爬虫的作用就六个字:爬取网页内容。

人们得知一件新事情之后,总是富有好奇的,这也是创作的来源 ————爬虫能干什么的呢?

这个问题很有趣,因为它与我们日常生活是息息相关的。
这里举两个例子:

  1. Google
    大家知道为什么谷歌搜索速度比百度快吗?这是因为谷歌搜索引擎效率更高,那么更深层的来说其实就是谷歌这厮爬虫放的多,它每天放出无数爬虫到各个网站,把他们的信息抓回来,然后化好淡妆排着小队等你来检索。

  2. 抢票软件
    这个大家一定都用过,不知道你们是不是也这样,反正每逢佳节我的手机总是异常繁忙,但不是忙于亲朋好友互捧祝福,而是忙于 “在吗?,借手抢一票哈/高兴/高兴。” 其实啊,抢票也是爬虫作的祟,它就相当于撒出去无数个蜘蛛分身,每一个分身都帮助你不断刷新,12306 网站的火车一旦有余票。马上帮您拍下来,然后对你喊:土豪快来付款!

二、网络爬虫与我们

说了这么多你肯定会问那我们能用爬虫做什么呢?

1、我想看一些电子书,可是不给免费下载,这时候我爬下来不舒服吗,它不香吗(当然这样不好,大家要支持正版。)

2、发工资了,你想陪女票(友情提示:女票可省略emmm )看一场浪浪漫漫的电影,但影片多如点点繁星,到底看什么呢?不想看烂片,又不知怎么选,那就去豆瓣逛逛,豆瓣好东西啊,有简介、有评分、还有影评,可以做参考。
比如我想要获取评分在8.5分以上的电影名称、简介以及该电影的部分热评。从而缩小范围做出选择。
  这个时候,爬虫就显得短小而精悍,小小爬虫却也能从浩如烟海的电影资源里找出你想要的东西,从而免去了你的眼花缭乱。(爬虫:“我没说我这么牛啊”)

通过上面的内容相信大家对网络爬虫都有了一定的了解,那么下面将开始进行互相探讨学习的环节

三、爬虫准备工作

进行开发之前软件工具和软件环境对软件产品有很大影响, 在数据爬虫领域,python 无疑是最好的选择。容易上手且库源丰富。

  • 编程语言 python3
  • 编译软件 PyCharm

python 可应用于多平台包括 window 、Linux 和 Mac OS X ,环境搭建去百度搜教程,这里不多赘述了,推荐去菜鸟看看python 环境搭建
pycharm官网 没有可以去下载一个支持多种系统,很好用,猿们必备的。

今天先开个头,下部将对爬虫进行更加深入的探讨。
我也只是个菜鸟,咱一起加油!!!`

谢谢观看!

Python网络爬虫简单教程——第一部相关推荐

  1. python商业爬虫教程_廖雪峰老师的Python商业爬虫课程 Python网络爬虫实战教程 体会不一样的Python爬虫课程...

    廖雪峰老师的Python商业爬虫课程 Python网络爬虫实战教程 体会不一样的Python爬虫课程 1.JPG (53.51 KB, 下载次数: 1) 2019-8-9 08:15 上传 2.JPG ...

  2. python网络爬虫系列教程_Python网络爬虫系列教程连载 ----长期更新中,敬请关注!...

    感谢大家长期对Python爱好者社区的支持,后期Python爱好者社区推出Python网络爬虫系列教程.欢迎大家关注.以下系列教程大纲,欢迎大家补充.视频长期连载更新中 --------------- ...

  3. python网络爬虫系列教程——python中pyquery库应用全解

    全栈工程师开发手册 (作者:栾鹏) python教程全解 python网络爬虫lxml库的应用全解. 在线安装方法:cmd中输入"pip install pyquery" 离线安装 ...

  4. python网络爬虫系列教程——python中lxml库应用全解(xpath表达式)

    全栈工程师开发手册 (作者:栾鹏) python教程全解 python网络爬虫lxml库的应用全解. 在线安装方法:cmd中输入"pip install lxml" 离线安装,下载 ...

  5. python网络爬虫系列教程——python中requests库应用全解

    全栈工程师开发手册 (作者:栾鹏) python教程全解 python中requests库的基础应用,网页数据挖掘的常用库之一.也就是说最主要的功能是从网页抓取数据. 使用前需要先联网安装reques ...

  6. python爬虫实例教程-Python网络爬虫实例教程(视频讲解版)

    第1章 网络爬虫概述 1 1.1 认识网络爬虫 1 1.1.1 网络爬虫的含义 1 1.1.2 网络爬虫的主要类型 2 1.1.3 简单网络爬虫的架构 3 1.1.4 网络爬虫的应用场景 3 1.2 ...

  7. python爬虫教程书籍-Python网络爬虫实例教程(视频讲解版)

    第1章 网络爬虫概述 1 1.1 认识网络爬虫 1 1.1.1 网络爬虫的含义 1 1.1.2 网络爬虫的主要类型 2 1.1.3 简单网络爬虫的架构 3 1.1.4 网络爬虫的应用场景 3 1.2 ...

  8. python爬虫教程-Python网络爬虫实例教程(视频讲解版)

    第1章 网络爬虫概述 1 1.1 认识网络爬虫 1 1.1.1 网络爬虫的含义 1 1.1.2 网络爬虫的主要类型 2 1.1.3 简单网络爬虫的架构 3 1.1.4 网络爬虫的应用场景 3 1.2 ...

  9. python网络爬虫系列教程——python网络数据爬虫误区,让你的爬虫更像人类

    1 前言 近期,有些朋友问我一些关于如何应对反爬虫的问题.由于好多朋友都在问,因此决定写一篇此类的博客.把我知道的一些方法,分享给大家.博主属于小菜级别,玩爬虫也完全是处于兴趣爱好,如有不足之处,还望 ...

最新文章

  1. JS魔法堂:mmDeferred源码剖析
  2. vim php psr2 插件,将vim打造成c++超级ide(vim插件安装)
  3. 正确实现用spring扫描自定义的annotation
  4. Javascript、Jquery获取浏览器和屏幕各种高度宽度[mark]
  5. JFreeChart插件使用
  6. 两概率分布交叉熵的最小值是多少?
  7. 智能算法的研究与实现
  8. win10电脑安装android,5步教你如何在Win10 PC上安装Android 10
  9. 【Paddle 经验分享】利用PaddleHub 2.x 完成文本分类训练的坑
  10. python延时队列_如何通过Python实现RabbitMQ延迟队列
  11. C#LeetCode刷题之#561-数组拆分 I(Array Partition I)
  12. Python str字符串常用到的函数
  13. ajax jsonjar包,json-lib.jar
  14. 通过AccessKey调用阿里云CDN接口刷新CDN资源案例
  15. plc 上位机编译算法_基于西门子PLC的Socket通信深度剖析
  16. Elasticsearch聚合 之 Histogram 直方图聚合
  17. 排序算法专题-快速排序
  18. AJAX TabContainer 样式设置
  19. SPSS倾向评分匹配(PSM)插件安装与资源分享
  20. mysql 重置密码_mysql忘记密码如何重置密码,以及修改root密码的三种方法

热门文章

  1. 企业数字化转型之传统IT架构改造
  2. GeoHash代码实现--java
  3. ABAP在Eclipse中做abap cds视图(marc表增强字段增强)
  4. MATLAB面板布局—便捷美观
  5. yii2 如何用命名空间方式使用第三方类库
  6. oracle 的dual是什么东西
  7. 市场上还有多少沈昌宇 揭秘庄家操盘手法
  8. SQL实现一对多、多对多建表与查询
  9. HTML(表单标签<form>)
  10. 基于STM32的智能车/平衡小车/蓝牙小车