一起学爬虫(Python) — 19 年轻人,进来学自动化

首先要了解爬虫

  • 1.什么是爬虫
    • 1.自言自语
  • 2.为什么要学爬虫
    • 1.为了赚钱
    • 2.为了私欲
  • 3.爬虫违法吗?
    • 如何避免踩坑
  • 爬虫的分类
  • 爬与反爬
  • robots.txt协议
  • http协议和https协议
    • 常用请求头信息(先知道有这个东西)
    • 常用响应头信息(同上,都要通过抓包工具查看)
  • 加密方式(大致知道就好)
  • 结尾

1.什么是爬虫

1.自言自语

深思良久…
所以为什么要问这个问题呢?
传统!
每学一门技术之前都要了解我学的是什么,为什么要学,好学吗……
但是小泽不要这么学,为什么呢?
如果跟别人一样的话,那有那么多优质的文章摆在前面,像我这种刚开始学习的,肯定比不过人家的啦。
所以,我要用我自己的方法,把原本可能比较难理解的东西,简单细化的分享给大家,同时也帮助自己巩固知识和提高学习的兴趣,独乐乐不如众乐乐嘛~
众所周知,学习是快乐的。

爬虫就是…模拟我们去点击浏览器收集数据的过程,如果我们去下载图片就要一下一下点,但是用爬虫的话就可以批量快捷的下载自己需要的东西。

2.为什么要学爬虫

1.为了赚钱

这个理由很充分吧,钱钱钱钱钱,没有可是万万不能的!

在日常生活中,有些人可以为了钱杀人放火,抢劫绑架,拐卖人口,贩卖毒品……
但是这些行为带来的后果往往是冰冷的绞刑架,是生命的付诸东流,是没有复活币的Game Over!
但是大部分人老老实实本本分分一辈子,还是难以过上有钱人的生活。高考是公平的,但在这个时代又不是那么公平,它影响了数万家庭的观念,给现代的孩子施加了沉重的压力,似乎只要学习不好就低人一等一样。
我安慰过很多因为成绩差所以觉得自己比别人笨的学弟学妹,还有很多没有被发现的“差学生”也有可能正在承担着这本不应该出现在这个年纪的压力,无处宣泄。
跑题了哈…
我想说的是,钱,真的很重要!赚钱的方式,也同样重要!
那么这跟学爬虫有什么关系呢?
既然能来到这里相信大家都明白往后是一个大数据的时代,谁手中掌握的数据多谁就有主动权,咱也不知道为什么会这样,但总之就是这样(这句是废话)。
而爬虫,能在这里可以用数据变现的时代则可以担当数据收集官这一重要角色!
数据=钱
至于怎么变成钱,懂的都懂(我也不懂)
总之就是目前还可以赚钱,并且比较容易赚钱,所以才学!

2.为了私欲

咳咳,比如说夜深人静的时候……百无聊赖的时候……会想看那么几部动作电影,或者看点养生图片呀之类的,但是又不太方便,自己能找到的又属于看吐了的,没什么新意…咳咳,别想歪喽!
还有呀,平时用百度经常找了半天都是广告,不是自己要的东西,很烦吧?没事,用爬虫!
或者有些歌要付费,有些电影也要付费,这种时候,你就可以用爬虫去把它爬下来(咱还没有到那种地步,反正你得干的过服务器那边的程序员)。
还有什么是比一键收集动作电影更快乐的事呢?如果有,带我一个。

3.爬虫违法吗?

目前来说,法律上没有禁止使用爬虫。
但是也有违法的可能,说不定会进局子哦~
那我来教你怎么违法吧!
爬取一些国家机密…
爬取某些网站声明禁止爬取的数据…
爬取动作片…(应该违法吧,hhh)
但是,大多网站还是喜欢被爬虫爬的(抖M体质)。
为什么呢?
比如说百度,你可以把它理解为一个大爬虫,爬到的网页就会供大家搜索,就相当于增加了流量。
但是如果你毫无节制的去爬人家,那就会被人家打。比如一秒钟下载几百次几千次美女图片,结果人家的服务器被你搞坏了。
所以很多服务器在你爱进行这么多次高频访问的时候就会意识到,你不是人!然后把你咔嚓喽。

如何避免踩坑

  1. 访问人家的网站的时候不要突突突突突突一秒访问几十次
  2. 爬到的信息要看一看,如果觉得不对劲就赶紧删喽

爬虫的分类

  • 通用爬虫:
    抓取系统重要组成部分。抓取的是一整张页面数据。
  • 聚焦爬虫:
    是建立在通用爬虫的基础之上。抓取的是页面中特定的局部内容。
  • 增量式爬虫:
    检测网站中数据更新的情况。只会抓取网站中最新更新出来的数据。

爬与反爬

我们要知道,服务器那边的人又不傻,不会白白让你把他们辛辛苦苦整理出来的东西全都给爬走喽,所以说有爬的人,就有反爬的人。
这是一场没有硝烟的战争。
更像是套娃……
比如说你爬了人家,人家知道你是怎么爬的就针对你爬的方式想出了办法反爬,你又根据别人反爬的方式想出了办法继续爬,别人又根据你继续爬的方式想出了方法反爬,你又根据别人新的反爬的方式想出了新的办法继续爬……
道高一尺魔高一丈,所以不要怕!我们无论遇到什么反爬,微笑着面对他,奥利给!
大多时候都是爬的一方占优势,毕竟服务器如果分太多精力对付你,那就得不偿失了,而你用了那么多方法去一层一层爬出来,效率也会大打折扣,属于两边都可以接受吧。

robots.txt协议

关于这个协议,只要知道是君子协议就好啦。
有些网站会在robots.txt里标注哪些数据是可以爬的,哪些数据是不可以爬的,既然大家都不想进局子,就好好遵守吧,hhh

http协议和https协议

两个都是超文本传输协议,知道一下就好啦,就像是密码本之类的,https则更安全。

常用请求头信息(先知道有这个东西)

  • User-Agent:请求载体的身份标识(伪装身份的道具)

  • Connection:请求完毕后,是断开连接还是保持连接

常用响应头信息(同上,都要通过抓包工具查看)

  • Content-Type:服务器响应回客户端的数据类型

加密方式(大致知道就好)

  • 对称秘钥加密

    • 你给了我一份文件,同时给了我密码,我可以直接打开看
  • 非对称秘钥加密
    • 你给了我一份文件,同时给了我公共密码,我需要用公共密码和我知道的私人密码一起解开
  • 证书秘钥加密
    • 找个靠谱的中介

结尾

今天就先了解这些吧,学习编程的话,不要学得那么死,如果不是要深造就学到会用就可以,也不要担心我英语不好呀,我数学不好呀什么的,敲多了总会熟练的~
明天就开始实战喽!在努力之前先放松一个晚上吧~

一起学爬虫(Python) — 01相关推荐

  1. 老司机带你学爬虫——Python爬虫技术分享

    什么是"爬虫"? 简单来说,写一个从web上获取需要数据并按规定格式存储的程序就叫爬虫: 爬虫理论上步骤很简单,第一步获取html源码,第二步分析html并拿到数据.但实际操作,老 ...

  2. 01-为什么要学爬虫-python小白爬虫入门教程

    学习目的以及需求 需求来自于:抓取的某个网站或者某个应用的内容,提取有用的价值 实现手段 模拟用户在浏览器或者应用(app)上的操作,实现自动化的程序 爬虫应用场景(利用爬虫能做什么?) 大家最熟悉的 ...

  3. python初学者web还是爬虫-还在纠结学爬虫还是数据分析,不如看看这篇文章

    原标题:还在纠结学爬虫还是数据分析,不如看看这篇文章 身为职场人,收集上万条表格数据做商业分析,裁剪上千张图片,发送数百封邮件...这些都是经常会遇到的场景.我一直期待能有个工具解放我,直到我遇到了P ...

  4. python好学嘛-爬虫Python入门好学吗?学什么?

    爬虫Python入门好学吗?学爬虫需要具备一定的基础,有编程基础学Python爬虫更容易学.但要多看多练,有自己的逻辑想法.用Python达到自己的学习目的才算有价值.如果是入门学习了解,开始学习不难 ...

  5. 爬虫python代码-Python爬虫入门(01) -- 10行代码实现一个爬虫

    跟我学习Python爬虫系列开始啦.带你简单快速高效学习Python爬虫. 一.快速体验一个简单爬虫 以抓取简书首页文章标题和链接为例 简书首页 就是以上红色框内文章的标签,和这个标题对应的url链接 ...

  6. 路飞学城—Python爬虫实战密训班 第三章

    路飞学城-Python爬虫实战密训班 第三章 一.scrapy-redis插件实现简单分布式爬虫 scrapy-redis插件用于将scrapy和redis结合实现简单分布式爬虫:- 定义调度器- 定 ...

  7. python是什么意思中文、好学吗-爬虫Python入门好学吗?学什么?

    爬虫Python入门好学吗?学爬虫需要具备一定的基础,有编程基础学Python爬虫更容易学.但要多看多练,有自己的逻辑想法.用Python达到自己的学习目的才算有价值.如果是入门学习了解,开始学习不难 ...

  8. python爬虫代码-Python爬虫入门(01) -- 10行代码实现一个爬虫

    跟我学习Python爬虫系列开始啦.带你简单快速高效学习Python爬虫. 一.快速体验一个简单爬虫 以抓取简书首页文章标题和链接为例 简书首页 就是以上红色框内文章的标签,和这个标题对应的url链接 ...

  9. 从业老学姐Python经验分享,别再相信培训机构“爬虫好学”的鬼话了,少走弯路!

    嗨~我是小鱼 前言 相信很多小伙伴在学习编程时都会去网络上搜索资料,寻找一些前辈的学习方法.这样的开始未尝不可,但是,在搜索的过程中你会惊讶的发现,网络上铺天盖地的"三个月速成python& ...

  10. 一起学爬虫(Python) — 10

    一起学爬虫(Python) - 19 年轻人,进来学自动化 高效爬取美丽的图片 任务目标 任务流程 step1:复制 step2:粘贴 step3:重学异步 什么是异步 勤奋的小明 理解小明 理解~~ ...

最新文章

  1. PortraitFCN算法详解
  2. ContextMenu长按事件
  3. 十分钟学会用Go编写Web中间件
  4. python cursor函数_执行从python返回cursor的db2plsql函数
  5. 4. Phpstorm svn
  6. hyperledger fabric超级账本java sdk样例e2e代码流程分析
  7. 美食杂志排行榜_百度知道
  8. 基于exosip 编写呼叫流程实例
  9. 基于JSP网上拍卖平台系统
  10. Java 12 新特性
  11. MATLAB调试滤波器,matlab 滤波器
  12. Opencv批量修改图片尺寸并保存
  13. ref修改dom样式遇到的问题
  14. 一文读懂APS系统的核心算法和数学理论
  15. 【数据库原理与应用MySQL版】实验指导
  16. VR系列--资料汇总
  17. APMServ启动失败解决方法
  18. SQL Developer 19.2.1下载安装
  19. 经验分享:Flutter尽然还能有这种操作!赶紧收藏备战金三银四!
  20. 目标检测论文解读复现之十八:基于注意力机制的光线昏暗条件下口罩佩戴检测

热门文章

  1. t分布em参数估计matlab,参数估计的MATLAB实现.ppt
  2. 产品生命周期管理PLM系统概述——睿思成研发管理咨询(www.wiserdm.com)
  3. 0xc0000005 系统应用日志_异常代码: 0xc0000005
  4. ctype-Python的外部函数库(一)(摘抄Python官方文档)
  5. 企业级代码静态测试工具Helix QAC——关键特性
  6. 将CS5463存放的数据转换成float类型
  7. 关于C++ .h文件和.cpp文件的知识梳理
  8. 获取当前屏幕各种高度
  9. 微分方程的数值解法—四阶龙格库塔(Runge-Kutta)的推导以及C代码实现
  10. 混合式app开发框架