python爬虫知识_Python 爬虫技术分享

什么是“爬虫”？www.xihefangpei.com

简单来说，写一个从web上获取需要数据并按规定格式存储的程序就叫爬虫；

爬虫理论上步骤很简单，第一步获取html源码，第二步分析html并拿到数据。但实际操作，老麻烦了~

用Python写“爬虫”有哪些方便的库

常用网络请求库：requests、urllib、urllib2、

urllib和urllib2是Python自带模块，requests是第三方库

常用解析库和爬虫框架：BeautifulSoup、lxml、HTMLParser、selenium、Scrapy

HTMLParser是Python自带模块；

BeautifulSoup可以将html解析成Python语法对象，直接操作对象会非常方便；

lxml可以解析xml和html标签语言，优点是速度快；

selenium调用浏览器的driver，通过这个库你可以直接调用浏览器完成某些操作，比如输入验证码；

Scrapy很强大且有名的爬虫框架，可以轻松满足简单网站的爬取；

“爬虫”需要掌握哪些知识

1）超文本传输协议HTTP：HTTP协议定义了浏览器怎样向万维网服务器请求万维网文档，以及服务器怎样把文档传送给浏览器。常用的HTTP方法有GET、POST、PUT、DELETE。\

【插曲:某站长做了一个网站，奇葩的他把删除的操作绑定在GET请求上。百度或者谷歌爬虫爬取网站链接，都是用的GET请求，而且一般用浏览器访问网页都是GET请求。在谷歌爬虫爬取他网站的信息时，该网站自动删除了数据库的全部数据】

2）统一资源定位符URL： URL是用来表示从因特网上得到的资源位置和访问这些资源的方法。URL给资源的位置提供一种抽象的识别方法，并用这种方法给资源定位。只要能够对资源定位，系统就可以对资源进行各种操作，如存取、更新、替换和查找其属性。URL相当于一个文件名在网络范围的扩展。

3）超文本标记语言HTTP：HTML指的是超文本标记语言，是使用标记标签来描述网页的。HTML文档包含HTML标签和纯文本，也称为网页。Web 浏览器的作用是读取 HTML 文档，并以网页的形式显示出它们。浏览器不会显示 HTML 标签，而是使用标签来解释页面的内容。简而言之就是你要懂点前端语言，这样描述更直观贴切。

4）浏览器调试功能：学爬虫就是抓包，对请求和响应进行分析，用代码来模拟

**进阶爬虫**

熟练了基本爬虫之后，你会想着获取更多的数据，抓取更难的网站，然后你就会发现获取数据并不简单，而且现在反爬机制也非常的多。

a.爬取知乎、简书，需要登录并将下次的请求时将sessions带上，保持登录姿态；

b.爬取亚马逊、京东、天猫等商品信息，由于信息量大、反爬机制完善，需要分布式【这里就难了】爬取，以及不断切换USER_AGENT和代理IP；

c.滑动或下拉加载和同一url加载不同数据时，涉及ajax的异步加载。这里可以有简单的返回html代码、或者json数据，也可能有更变态的返回js代码然后用浏览器执行，逻辑上挺简单、但是写代码那叫一个苦哇；

d.还有点是需要面对的，验证码识别。这个有专门解析验证码的平台.....不属于爬虫范畴了，自己处理需要更多的数据分析知识。

e.数据储存，关系数据库和非关系数据库的选择和使用，设计防冗余数据库表格，去重。大量数据存储数据库，会变得很头疼，

f.编码解码问题，数据的存储涉及一个格式的问题，python2或者3也都会涉及编码问题。另外网页结构的不规范性，编码格式的不同很容易触发编码异常问题。下图一个简单的转码规则

****一些常见的限制方式****

a.Basic Auth：一般会有用户授权的限制，会在headers的Autheration字段里要求加入；

b.Referer：通常是在访问链接时，必须要带上Referer字段，服务器会进行验证，例如抓取京东的评论；

c.User-Agent：会要求真是的设备，如果不加会用编程语言包里自有User-Agent，可以被辨别出来；

d.Cookie：一般在用户登录或者某些操作后，服务端会在返回包中包含Cookie信息要求浏览器设置Cookie，没有Cookie会很容易被辨别出来是伪造请求；也有本地通过JS，根据服务端返回的某个信息进行处理生成的加密信息，设置在Cookie里面；

e.Gzip：请求headers里面带了gzip，返回有时候会是gzip压缩，需要解压；

f.JavaScript加密操作：一般都是在请求的数据包内容里面会包含一些被javascript进行加密限制的信息，例如新浪微博会进行SHA1和RSA加密，之前是两次SHA1加密，然后发送的密码和用户名都会被加密；

g.网站自定义其他字段：因为http的headers可以自定义地段，所以第三方可能会加入了一些自定义的字段名称或者字段值，这也是需要注意的。

真实的请求过程中，其实不止上面某一种限制，可能是几种限制组合在一次，比如如果是类似RSA加密的话，可能先请求服务器得到Cookie，然后再带着Cookie去请求服务器拿到公钥，然后再用js进行加密，再发送数据到服务器。所以弄清楚这其中的原理，并且耐心分析很重要。

**总结**

爬虫入门不难，但是需要知识面更广和更多的耐心\

一句话概括爬虫——爬虫本质就是cosplay，将爬虫模拟成各种【USER_AGENT】浏览器，甚至还模拟成别人【ip代理】的浏览器。

本作品采用《CC 协议》，转载必须注明作者和本文链接

python爬虫知识_Python 爬虫技术分享相关推荐

花一千多学python值吗_Python爬虫应该怎么学？程序猿花了一周整理的学习技巧，请收下...
原标题:Python爬虫应该怎么学?程序猿花了一周整理的学习技巧,请收下 Python爬虫为什么受欢迎如果你仔细观察,就不难发现,懂爬虫.学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多, ...
python实习目的_python爬虫系列---为什么要学习爬虫
(0)为什么要学习爬虫最近刷抖音看到一个话题是"为什么要找程序员老公?",其中一条理由是:写个python网络投票爬虫,稳稳让自家孩子成为幼儿园最美宝宝.当然这算是爬虫的其中一个 ...
python官网学习爬虫资料_Python爬虫学习？
1 爬虫是互联网上最常见的一种东西了吧. 爬虫这东西每天都在网上爬大量的信息,各大搜索引擎厂商每天都有上百万的爬虫在网络上活动,这些爬虫的作用就是给搜索引擎采集互联网上最新的内容,采集来的内容经过分类 ...
python爬虫设计模式_Python爬虫进阶一之爬虫框架概述
综述爬虫入门之后,我们有两条路可以走. 一个是继续深入学习,以及关于设计模式的一些知识,强化Python相关知识,自己动手造轮子,继续为自己的爬虫增加分布式,多线程等功能扩展.另一条路便是学习一些优 ...
python爬虫难点_Python爬虫技巧
在本文中,我们将分析几个真实网站,来看看我们在<用Python写网络爬虫(第2版)>中学过的这些技巧是如何应用的.首先我们使用Google演示一个真实的搜索表单,然后是依赖JavaScr ...
python爬虫要点_Python爬虫知识点梳理
学任何一门技术,都应该带着目标去学习,目标就像一座灯塔,指引你前进,很多人学着学着就学放弃了,很大部分原因是没有明确目标,所以,在你准备学爬虫前,先问问自己为什么要学习爬虫.有些人是为了一份工作,有些 ...
python网页结构分析_Python爬虫基础之网页组成解析
当我们用浏览器访问网站时,每个网页的大不相同,你是否想过它为什么会呈现多种不同的样式呢?就让我们一起了解一下网页的基本组成.结构和节点等内容吧! 网页的组成网页可以分为三大部分--HTML.CSS和 ...
python爬虫代理服务器_Python爬虫之服务器：代理IP万能
最近很多同学租服务器用来学习爬虫,对于大部分小白来说,爬虫非常复杂.技术门槛很高.但我们可以通过爬虫获取大量的价值数据,经分析可以发挥巨大的价值,比如:豆瓣.知乎,爬取优质答案,筛选出各话题下热门内容 ...
python简单爬虫手机号_Python爬虫：大家用公共的手机号干了啥？
说明:本文所提供的思路和代码都只用于个人测试研究之用,并未对目标网站造成实质性干扰,而且全部细节已经全部告知网站开发者,也请大家不要用于恶意用途. 在我的微信公众号"免费的临时手机号,用这些 ...

python爬虫知识_Python 爬虫技术分享

python爬虫知识_Python 爬虫技术分享相关推荐

最新文章

热门文章