什么是“爬虫”?

简单来说,写一个从web上获取需要数据并按规定格式存储的程序就叫爬虫;

爬虫理论上步骤很简单,第一步获取html源码,第二步分析html并拿到数据。但实际操作,老麻烦了~

用Python写“爬虫”有哪些方便的库

常用网络请求库:requests、urllib、urllib2、

urllib和urllib2是Python自带模块,requests是第三方库

常用解析库和爬虫框架:BeautifulSoup、lxml、HTMLParser、selenium、Scrapy

HTMLParser是Python自带模块;

BeautifulSoup可以将html解析成Python语法对象,直接操作对象会非常方便;

lxml可以解析xml和html标签语言,优点是速度快;

selenium调用浏览器的driver,通过这个库你可以直接调用浏览器完成某些操作,比如输入验证码;

Scrapy很强大且有名的爬虫框架,可以轻松满足简单网站的爬取; 这个python学习(q-u-n):二二七,四三五,四五零 期待大家一起交流讨论,讲实话还是一个非常适合学习的地方的。软件各种入门资料

“爬虫”需要掌握哪些知识

1)超文本传输协议HTTP:HTTP协议定义了浏览器怎样向万维网服务器请求万维网文档,以及服务器怎样把文档传送给浏览器。常用的HTTP方法有GET、POST、PUT、DELETE。

【插曲:某站长做了一个网站,奇葩的他把删除的操作绑定在GET请求上。百度或者谷歌爬虫爬取网站链接,都是用的GET请求,而且一般用浏览器访问网页都是GET请求。在谷歌爬虫爬取他网站的信息时,该网站自动删除了数据库的全部数据】

2)统一资源定位符URL: URL是用来表示从因特网上得到的资源位置和访问这些资源的方法。URL给资源的位置提供一种抽象的识别方法,并用这种方法给资源定位。只要能够对资源定位,系统就可以对资源进行各种操作,如存取、更新、替换和查找其属性。URL相当于一个文件名在网络范围的扩展。

3)超文本标记语言HTTP:HTML指的是超文本标记语言,是使用标记标签来描述网页的。HTML文档包含HTML标签和纯文本,也称为网页。Web 浏览器的作用是读取 HTML 文档,并以网页的形式显示出它们。浏览器不会显示 HTML 标签,而是使用标签来解释页面的内容。简而言之就是你要懂点前端语言,这样描述更直观贴切。

4)浏览器调试功能:学爬虫就是抓包,对请求和响应进行分析,用代码来模拟

进阶爬虫

熟练了基本爬虫之后,你会想着获取更多的数据,抓取更难的网站,然后你就会发现获取数据并不简单,而且现在反爬机制也非常的多。

a.爬取知乎、简书,需要登录并将下次的请求时将sessions带上,保持登录姿态;

b.爬取亚马逊、京东、天猫等商品信息,由于信息量大、反爬机制完善,需要分布式【这里就难了】爬取,以及不断切换USER_AGENT和代理IP;

c.滑动或下拉加载和同一url加载不同数据时,涉及ajax的异步加载。这里可以有简单的返回html代码、或者json数据,也可能有更变态的返回js代码然后用浏览器执行,逻辑上挺简单、但是写代码那叫一个苦哇;

d.还有点是需要面对的,验证码识别。这个有专门解析验证码的平台.....不属于爬虫范畴了,自己处理需要更多的数据分析知识。

e.数据储存,关系数据库和非关系数据库的选择和使用,设计防冗余数据库表格,去重。大量数据存储数据库,会变得很头疼,

f.编码解码问题,数据的存储涉及一个格式的问题,python2或者3也都会涉及编码问题。另外网页结构的不规范性,编码格式的不同很容易触发编码异常问题。下图一个简单的转码规则

一些常见的限制方式

a.Basic Auth:一般会有用户授权的限制,会在headers的Autheration字段里要求加入;

b.Referer:通常是在访问链接时,必须要带上Referer字段,服务器会进行验证,例如抓取京东的评论;

c.User-Agent:会要求真是的设备,如果不加会用编程语言包里自有User-Agent,可以被辨别出来;

d.Cookie:一般在用户登录或者某些操作后,服务端会在返回包中包含Cookie信息要求浏览器设置Cookie,没有Cookie会很容易被辨别出来是伪造请求;也有本地通过JS,根据服务端返回的某个信息进行处理生成的加密信息,设置在Cookie里面;

e.Gzip:请求headers里面带了gzip,返回有时候会是gzip压缩,需要解压;

f.JavaScript加密操作:一般都是在请求的数据包内容里面会包含一些被javascript进行加密限制的信息,例如新浪微博会进行SHA1和RSA加密,之前是两次SHA1加密,然后发送的密码和用户名都会被加密;

g.网站自定义其他字段:因为http的headers可以自定义地段,所以第三方可能会加入了一些自定义的字段名称或者字段值,这也是需要注意的。

真实的请求过程中,其实不止上面某一种限制,可能是几种限制组合在一次,比如如果是类似RSA加密的话,可能先请求服务器得到Cookie,然后再带着Cookie去请求服务器拿到公钥,然后再用js进行加密,再发送数据到服务器。所以弄清楚这其中的原理,并且耐心分析很重要。

总结

爬虫入门不难,但是需要知识面更广和更多的耐心

老司机带你学爬虫——Python爬虫技术分享相关推荐

  1. 老司机带你快速实现Python下载与安装

    目录 一.新手下载与安装Python的步骤: 二.老司机下载与安装Python的步骤: 先来看一下新手是怎么下载安装的: 一.新手下载与安装Python的步骤: 1.打开Python官网:https: ...

  2. Python爬虫是个啥?学了Python爬虫有什么用?

    什么是Python爬虫 Python爬虫即使用Python程序开发的网络爬虫(网页蜘蛛,网络机器人),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.爬虫指一段自动抓取互联网信息的程序,从互 ...

  3. 路飞学城—Python爬虫实战密训班 第三章

    路飞学城-Python爬虫实战密训班 第三章 一.scrapy-redis插件实现简单分布式爬虫 scrapy-redis插件用于将scrapy和redis结合实现简单分布式爬虫:- 定义调度器- 定 ...

  4. 天津python培训,学完Python爬虫能找什么样的工作?

    Python被广泛认为是初学者最容易学习的编程语言之一,也是使用最广泛的一种编程语言.所以python找工作也就容易了很多.那学完python爬虫到底能找什么样的工作呢.诚筑说的小编今天就简单告诉你p ...

  5. 师傅带徒弟学:Python正则表达式-关东升-专题视频课程

    师傅带徒弟学:Python正则表达式-163人已学习 课程介绍         Python中正则表达式应用非常广泛,如:数据挖掘.数据分析.网络爬虫.输入有效性验证等.Python也提供了re模块利 ...

  6. python爬虫项目实战教学视频_('[Python爬虫]---Python爬虫进阶项目实战视频',)

    爬虫]---Python 爬虫进阶项目实战 1- Python3+Pip环境配置 2- MongoDB环境配置 3- Redis环境配置 4- 4-MySQL的安装 5- 5-Python多版本共存配 ...

  7. java 获取ip地址_老杜带你学Java【第二课】

    上期链接:老杜带你学Java[第一课] 01 写在前面 欢迎来到杜老师的「零基础学Java」课堂~今后,我们就是Java软件工程师了.(此处应该有掌声???)本专题为<零基础学Java>专 ...

  8. 师傅带徒弟学:Python游戏开发引擎cocos2d-python-关东升-专题视频课程

    师傅带徒弟学:Python游戏开发引擎cocos2d-python-299人已学习 课程介绍         Python语言之所以受欢迎,很大的原因是有很多可以使用的库,Python社区也有很多游戏 ...

  9. 师傅带徒弟学:Python Web之Flask框架-关东升-专题视频课程

    师傅带徒弟学:Python Web之Flask框架-317人已学习 课程介绍         Python Web是Python语言一个重要的应用方面,Python Web有很多,其中Flask和Dj ...

最新文章

  1. HDU 6015 Skip the Class
  2. java web 嵌套播放器_网页嵌套播放器
  3. BugkuCTF多种方法解决
  4. 张季跃201771010139《面向对象程序设计(java)》第一周学习总结(改)
  5. [LeetCode] 搜索旋转排序数组
  6. selenium查找文本_在Selenium中查找具有链接文本和部分链接文本的元素
  7. 国科大prml11-降维
  8. 知乎热问:进入内核态究竟是什么意思?
  9. HTML学习笔记:iframe框架演示
  10. mysql数据库事务的概念_如何理解数据库事务中的一致性的概念?
  11. I2C通信读写数据过程
  12. 【渝粤教育】电大中专电商运营实操 (16)作业 题库
  13. [转]批处理详细教程
  14. 【职场心灵鸡汤】以多年来拿最佳的心路历程来复盘【如何成为优秀的5%】
  15. matlab gram schmidt,如何在 MATLAB 中用 行代码实现 Gram-Schmidt 正交化
  16. 【LeetCode】86. 分隔链表
  17. 车载网络结构(车内)-基础概念
  18. 怎样进行https证书检查
  19. 如何建立一个网站?规划、设计、目的、原则、宣传(三)
  20. 一步步演示Avantage软件如何处理XPS谱图!

热门文章

  1. 【C++】Google Protocol Buffer(protobuf)详解(一)
  2. 【linux】可执行程序执行时报错-sh: ./mxc_v4l2_tvin.out: No such file or directory的解决方法
  3. js 等待某个函数执行完_JS 函数的执行时机
  4. Java学习总结:14
  5. java学习总结:3
  6. 网络设置计算机,怎么重置电脑网络设置
  7. 台式电脑键盘按键错乱_Win7系统键盘数字错乱了应该如何解决?
  8. angular 字符串转换成数字_蓝盟IT外包,Python算法的一般技术和嵌入式库|python|字符串|key|算法|调用...
  9. NODEJS 使用 XLSX模块导出excel文件
  10. js将字符串作为函数名调用函数