爬虫《百炼成佛》

爬虫是什么?

爬虫:通过编写程序来获取到互联网上的资源百度
爬虫:通过编写程序来获取到互联网上的资源百度
需求:用程序模拟浏览器。输入一个网址.从该网址中获取到资源或者内容#python搞定以上需求。特别简单
需求:用程序模拟浏览器.输入一个网址.从该网址中获取到资源或者内容python搞定以上需求.特别简单

爬虫入门

1.1 第一式 小爬虫
第一个小爬虫案例:爬取一个网址主页内容
1.1 手刃一个小爬虫
第一个小爬虫案例:爬取一个网址主页内容

from urllib.request import urlopenurl = 'http://www.baidu.com'
resp = urlopen(url)
with open("baidu.html", mode="w", encoding="utf-8") as f:f.write(resp.read().decode("utf-8"))print("恭喜你离成佛又近啦一步,爬取成功")

1.2、web请求剖析

#1.服务器渲染:在服务器那边直接把数据和html整合在一起.统一返回给浏览器#在页面源代码中能看到数据
#1。服务器渲染:在服务器那边直接把数据和html整合在一起.统一返回给浏览器#在页面源代码中能看到数据
#2.客户端渲染:
#2。客户端渲染:

#第一次请求只要一个html骨架。第二次请求拿到数据。进行数据展示.
#第一次请求只要一个html骨架.第二次请求拿到数据.进行数据展示.

#在页面源代码中,看不到数据
#在页面源代码中,看不到数据
#熟练使用浏览器抓包工具
#熟练使用浏览器抓包工具

1.3、http协议

HTTP协议
协议:就是两个计算机之间为了能够流畅的进行沟通而设置的一个君子协定.常见的协议有TCP/IP. SOAP协议, HTTP协议,SMTP协议等等….…
片TTP协议, Hyper Text Transfer Protocol(超文本传输协议)的缩写,是用于从万维网(WWW:World Wide Web)服务器传输超文本到本地浏览器的传送协议.直白点儿,就是浏览器和服务器之间的数据交互遵守的就是HTTP协议.
HTTP协议把一条消息分为三大块内容.无论是请求还是响应都是三块内容
请求

1请求行->请求方式请求url地址协议
2请求头-> 放一些服务器要使用的附加信息
3请求体->一般放一些请求参数

响应

1状态行->协议状态码
2响应头->放一些客户端要使用的一些附加信
3响应体->服务器返回的真正客户端要用的内容CHTML, json)等

请求头中最常见的一些重要内容(爬虫需要):

  1. User-Agent:请求载体的身份标识(用啥发送的请求)
  2. Referer:防盗链(这次请求是从哪个页面来的?反爬会用到)
  3. cookie:本地字符串数据信息(用户登录信息,反爬的token)

    响应头中一些重要的内容:|
    1.cookie:本地字符串数据信息(用户登录信息,反爬的token)
    2.各种神奇的莫名其妙的字符串(这个需要经验了,一般都是token字样,防止各种攻击和反爬)

请求方式:
GET: 显示提交
POST:隐示提交

有没有发现爬虫很简单
持续更行中
看下篇 、requests 请求更加精彩

python 爬虫《百炼成佛》爬虫入门 (爬虫介绍)第一个爬虫程序相关推荐

  1. python爬虫开发数据库设计入门经典_Python3实现的爬虫爬取数据并存入mysql数据库操作示例...

    本文实例讲述了Python3实现的爬虫爬取数据并存入mysql数据库操作.分享给大家供大家参考,具体如下: 爬一个电脑客户端的订单.罗总推荐,抓包工具用的是HttpAnalyzerStdV7,与chr ...

  2. 使用 Python 简单获取电影天堂的电影数据 [第一个爬虫小测试]

    一.要求 得到电影天堂的最新下载页面下的相关数据 点击打开 : 存储为 csv 格式的表格文件 二.可能遇到的bug和解决 使用正则表达式匹配到没有"<>"的情况 请求 ...

  3. C++入门之创建第一个控制台程序

    对于大部分的C++学习者来说,第一个"hello word"程序是控制台应用程序.笔者当年也是,本例用于介绍如何用visual studio 2017来创建一个简单的控制台应用程序 ...

  4. python爬虫如何从一个页面进入另一个页面-爬虫入门(一)——如何打开一个网页...

    做了一段时间自然语言处理的项目,体会到了爬虫的乐趣,甚至一度产生了学好爬虫真的可以为所欲为的美妙错觉.因此决定开个坑,记录自己的爬虫学习过程,也督促自己学习更高深的爬虫姿势.目前我只用到了最基础的爬虫 ...

  5. python爬虫实践 —— 一、入门篇

    Scrapy爬虫实践 -- 一.入门篇 前言 一.选择爬虫框架--Scrapy 二.Scrapy安装 1.引入库 2.安装 3.验证 三.Scrapy的第一个爬虫工程 1. 使用框架创建新工程 2. ...

  6. python爬虫教程-Python爬虫五大零基础入门教程

    这个博主的这个爬虫学习系列教程,很详细啊,从入门到实战.进阶等都有详细的文档介绍,对爬虫感兴趣的小伙伴推荐一看. 实验楼的爬虫教程不是太多,但是都有详细的讲解和代码,而且有在线开发环境,对于学习者是非 ...

  7. python爬虫入门教程(三):淘女郎爬虫 ( 接口解析 | 图片下载 )

    2019/10/28更新 网站已改版,代码已失效(其实早就失效了,但我懒得改...)此博文仅供做思路上的参考 代码使用python2编写,因已失效,就未改写成python3 爬虫入门系列教程: pyt ...

  8. python scrapy教程实例_爬虫框架Scrapy的第一个爬虫示例入门教程

    原标题:爬虫框架Scrapy的第一个爬虫示例入门教程 我们使用dmoz.org这个网站来作为小抓抓一展身手的对象. 首先先要回答一个问题. 问:把网站装进爬虫里,总共分几步? 答案很简单,四步: 新建 ...

  9. python爬虫框架教程_Python爬虫实战(十二):爬虫框架Scrapy的第一个爬虫示例入门教程...

    本文主要向大家介绍了Python爬虫实战的爬虫框架Scrapy的第一个爬虫示例入门教程,通过具体的内容向大家展现,希望对大家学习Python爬虫实战有所帮助. 我们使用dmoz.org这个网站来作为小 ...

最新文章

  1. 机器学习视觉图像算法工程师--面试笔试--常考知识点乱找总结
  2. [BUUCTF-pwn]——[ZJCTF 2019]Login
  3. R语言观察日志(part10)--file函数
  4. diy感应usb摄像头拍照_DIY无线感应充电器
  5. JSON –拯救杰克逊
  6. oracle_sqlserver和mysql获取表外键的方法_mysql、sqlserver、oracle三种数据库维护索引、外键、字段语法总结...
  7. MiOJ 3. 大数相减(字符串减法)
  8. Linux RAID磁盘阵列
  9. java 创建水果_简单的java水果商店后台
  10. 【java】监听器的使用
  11. C++11基于范围的for循环
  12. 推动Web开放生态持续发展 百度正式发布Lavas解决方案
  13. QT界面窗口的显示和隐藏,关闭
  14. python把正整数翻译成英文_python实现在线翻译
  15. Android 腾讯Bugly热更新笔记
  16. 【嵌入式操作系统-2】Cortex-M7处理器编程者模型
  17. 吴恩达机器学习MATLAB代码笔记(1)梯度下降
  18. 读书笔记 | 张五常 经济解释 (卷一) 科学说需求
  19. oracle导seq_ORACLE SEQUENCE用法(转)
  20. 全国专科计算机学院排名2015,2021全国专科学校排名 最新高职高专院校排行榜

热门文章

  1. Python + seleniume 清除chrome浏览器历史记录
  2. 渗透测试流程 - 渗透测试的9个步骤
  3. 华为mate30pro和华为p40pro哪个好
  4. 三火龙加身战无不胜 TES国际首秀告捷
  5. u盘安装成功计算机里找不到文件夹,插上U盘后,显示成功安装设备驱动程序,但是磁盘里不显示优盘...
  6. 学习前端的第三十二天——ES6
  7. r34300u和r53500u 哪个好
  8. Confluence团队协同工具使用文档
  9. thinkphp3.2 微信 Native扫码支付功能
  10. 加密与解密 、 AIDE入侵检测系统 、 扫描与抓包案例