一些经典的Python爬虫和网络编程面试题,非常实用的,给大家介绍一下!

1、动态加载又对及时性要求很高怎么处理?

  1. Selenium+Phantomjs
  2. 尽量不使用 sleep 而使用 WebDriverWait

2、分布式爬虫主要解决什么问题?

(1)ip

(2)带宽

(3)cpu

(4)io

3、什么是 URL?

URL,即统一资源定位符,也就是我们说的网址,统一资源定位符是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的 URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。

4、python 爬虫有哪些常用技术?

Scrapy,Beautiful Soup, urllib,urllib2,requests

5、简单说一下你对 scrapy 的了解?

scrapy 是一个快速(fast)、高层次(high-level)的基于 python 的 web 爬虫构架。

用来下载、并解析 web 页面, 其 parse->yield item->pipeline 流程是所有爬虫的固有模式。

构造形式主要分spider.pypipeline.py item.py decorator.py middlewares.py setting.py。

6、Scrapy 的优缺点?

(1)优点:scrapy 是异步的

采取可读性更强的 xpath 代替正则强大的统计和 log 系统,同时在不同的 url 上爬行支持 shell 方式,方便独立调试写 middleware,方便写一些统一的过滤器,通过管道的方式存入数据库

(2)缺点:基于 python 的爬虫框架,扩展性比较差

基于 twisted 框架,运行中的 exception 是不会干掉 reactor,并且异步框架出错后是不会停掉其他任务的,数据出错后难以察觉。

7、scrapy 和 request?

(1)scrapy 是封装起来的框架,他包含了下载器,解析器,日志及异常处理,基于多线程, twisted 的方式处理,对于固定单个网站的爬取开发,有优势,但是对于多网站爬取 100 个网站,并发及分布式处理方面,不够灵活,不便调整与括展。

(2)request 是一个 HTTP 库, 它只是用来,进行请求,对于 HTTP 请求,他是一个强大的库,下载,解析全部自己处理,灵活性更高,高并发与分布式部署也非常灵活,对于功能可以更好实现.

8、五层网络模型?

应用层—http ftp dns nfs

传输层—tcp --udp

网络层—ip icmp igmp

链路层—data link

物理层—media

设置 ip 和掩码

   Ifconfig eth0 192.168.13.225 netmask 255.255.255.0

设置网关

route add default gw 192.168.5.1

9、什么是 2MSL?

2MSL 即两倍的 MSL,TCP 的 TIME_WAIT 状态也称为 2MSL 等待状态,当 TCP 的一端发起主动关闭,在发出最后一个 ACK 包后,即第 3 次握手完成后发送了第四次握手的 ACK包后就进入了 TIME_WAIT 状态,必须在此状态上停留两倍的 MSL 时间,等待 2MSL 时间主要目的是怕最后一个 ACK 包对方没收到,那么对方在超时后将重发第三次握手的 FIN包,主动关闭端接到重发的 FIN 包后可以再发一个 ACK 应答包。在 TIME_WAIT 状态时两端的端口不能使用,要等到 2MSL 时间结束才可继续使用。当连接处于 2MSL 等待阶段时任何迟到的报文段都将被丢弃。不过在实际应用中可以通过设置 SO_REUSEADDR 选项达到不必等待 2MSL 时间结束再使用此端口。

10、创建一个简单 tcp 服务器需要的流程?

1.socket 创建一个套接字

2.bind 绑定 ip 和 port

3.listen 使套接字变为可以被动链接

4.accept 等待客户端的链接

5.recv/send 接收发送数据

11、TTL,MSL,RTT?

(1)MSL:报文最大生存时间”,他是任何报文在网络上存在的最长时间,超过这个时间报文将被丢弃。

(2)TTL:TTL 是 time to live 的缩写,中文可以译为“生存时间”,这个生存时间是由源主机设置初始值但不是存的具体时间,而是存储了一个 ip 数据报可以经过的最大路由数,每经过一个处理他的路由器此值就减 1,当此值为 0 则数据报将被丢弃,同时发送 ICMP 报文通知源主机。RFC 793 中规定 MSL 为 2 分钟,实际应用中常用的是 30 秒,1 分钟和 2 分钟等。TTL 与 MSL 是有关系的但不是简单的相等的关系,MSL要大于等于 TTL。

(3)RTT: RTT 是客户到服务器往返所花时间(round-trip time,简称 RTT),TCP 含有动态估算 RTT 的算法。TCP 还持续估算一个给定连接的 RTT,这是因为 RTT受网络传输拥塞程序的变化而变化。

12、常用的反爬虫措施?

1.添加代理

2.降低访问频率

User-Agent动态 HTML 数据加载验证码处理Cookie

13、关于 HTTP/HTTPS 的区别

HTTPS 和 HTTP 的区别:

(1)https 协议需要到 ca 申请证书,一般免费证书很少,需要交费。

(2)http 是超文本传输协议,信息是明文传输,https 则是具有安全性的 ssl 加密传输协议

(3)http 和 https 使用的是完全不同的连接方式用的端口也不一样,前者是 80,后者是 443。

(4)http 的连接很简单,是无状态的

(5)HTTPS 协议是由 SSL+HTTP 协议构建的可进行加密传输、身份认证的网络协议 要比http 协议安全

应用场合:

(1)http:适合于对传输速度,安全性要求不是很高,且需要快速开发的应用。如 web 应用,小的手机游戏等等.

(2)https:https 应该用于任何场景!

14、HTTPS 有什么优点和缺点

优点:

1、使用 HTTPS 协议可认证用户和服务器,确保数据发送到正确的客户机和服务器;

2、HTTPS 协议是由 SSL+HTTP 协议构建的可进行加密传输、身份认证的网络协议,要比 http 协议安全,可防止数据在传输过程中不被窃取、改变,确保数据的完整性。

3、HTTPS 是现行架构下最安全的解决方案,虽然不是绝对安全,但它大幅增加了中间人攻击的成本

缺点:

1.HTTPS 协议的加密范围也比较有限,在黑客攻击、拒绝服务攻击、服务器劫持等方面几乎起不到什么作用

2.HTTPS 协议还会影响缓存,增加数据开销和功耗,甚至已有安全措施也会受到影响也会因此而受到影响。

3.SSL 证书需要钱。功能越强大的证书费用越高。个人网站、小网站没有必要一般不会用。

4.HTTPS 连接服务器端资源占用高很多,握手阶段比较费时对网站的相应速度有负面影响。

5.HTTPS 连接缓存不如 HTTP 高效。

15、HTTPS 是如何实现安全传输数据的

HTTPS 其实就是在 HTTP 跟 TCP 中间加多了一层加密层 TLS/SSL。SSL 是个加密套件,负责对 HTTP 的数据进行加密。TLS 是 SSL 的升级版。现在提到 HTTPS,加密套件基本指的是 TLS。原先是应用层将数据直接给到 TCP 进行传输,现在改成应用层将数据给到TLS/SSL,将数据加密后,再给到 TCP 进行传输。

16、get 和 post 请求有什么区别

  1. 区别:
  2. get:
  3. 从指定的服务器中获取数据。
  4. GET 请求能够被缓存
  5. GET 请求会保存在浏览器的浏览记录中
  6. 以 GET 请求的 URL 能够保存为浏览器书签
  7. GET 请求有长度限制
  8. GET 请求主要用以获取数据
  9. post:
  10. POST 请求不能被缓存下来
  11. POST 请求不会保存在浏览器浏览记录中
  12. 以 POST 请求的 URL 无法保存为浏览器书签
  13. POST 请求没有长度限制
  14. POST 请求会把请求的数据放置在 HTTP 请求包的包体中,POST 的安全性比 GET的高.可能修改变服务器上的资源的请求.
  15. 应用场合:
  16. post:
  17. 请求的结果有持续性的副作用(数据库内添加新的数据行)
  18. 若使用 GET 方法,则表单上收集的数据可能让 URL 过长。
  19. 要传送的数据不是采用 7 位的 ASCII 编码。
  20. get:
  21. 请求是为了查找资源,HTML 表单数据仅用来帮助搜索。
  22. 请求结果无持续性的副作用。
  23. 收集的数据及 HTML 表单内的输入字段名称的总长不超过 1024 个字符
  24. HTTP 请求会有哪些信息发送到后台服务器。
  25. 请求行 (请求方式、资源路径和 HTTP 协议版本)POST /demo/login HTTP/1.1
  26. 请求消息头
  27. 消息正文(也叫实体内容) username=xxxx&password=1234

17、描述下 scrapy 框架运行的机制?

(1)从 start_urls 里获取第一批 url 并发送请求,请求由引擎交给调度器入请求队列,获取完毕后,调度器将请求队列里的请求交给下载器去获取请求对应的响应资源,并将响应交给自己编写的解析方法做提取处理:1. 如果提取出需要的数据,则交给管道文件处理;

(2)如果提取出 url,则继续执行之前的步骤(发送 url 请求,并由引擎将请求交给调度器入队列…),直到请求队列里没有请求,程序结束。

18、为什么选择redis 数据库?

1) scrapy 是一个 Python 爬虫框架,爬取效率极高,具有高度定制性,但是不支持分布式。而 scrapy-redis 一套基于 redis 数据库、运行在 scrapy 框架之上的组件,可以让scrapy 支持分布式策略,Slaver 端共享 Master 端 redis 数据库里的 item 队列、请求队列和请求指纹集合。

2) 为什么选择 redis 数据库,因为 redis 支持主从同步,而且数据都是缓存在内存中的,所以基于 redis 的分布式爬虫,对请求和数据的高频读取效率非常高

19、实现模拟登录的方式有哪些?

1) 使用一个具有登录状态的 cookie,结合请求报头一起发送,可以直接发送 get 请求,访问登录后才能访问的页面。

2) 先发送登录界面的 get 请求,在登录页面 HTML 里获取登录需要的数据(如果需要的话),然后结合账户密码,再发送 post 请求,即可登录成功。然后根据获取的 cookie信息,继续访问之后的页面。

20、简单介绍下 scrapy 的异步处理

scrapy 框架的异步机制是基于 twisted 异步网络框架处理的,在 settings.py 文件里可以设置具体的并发量数值(默认是并发量 16)。

Python程序员关于爬虫的一些常见面试题相关推荐

  1. html5退出全屏触发的方法_好程序员web前端分享HTML5常见面试题集锦二

    web前端分享HTML5常见面试题集锦第二篇,希望对大家有所帮助. 1. 方法1: html,body{height: 100%;} body{ margin: 0;display: flex; ju ...

  2. 程序员面试系列,MySQL常见面试题?

    原文链接 一.索引相关的面试题 (1)索引失效的情况有哪些 在MySQL查询时,以下情况可能会导致索引失效,无法使用索引进行高效的查询: 数据类型不匹配:如果查询条件中的数据类型与索引列的数据类型不匹 ...

  3. python五种可视化工具及六道常见面试题

    2017-12-26  吊炸天的  [Python五种可视化工具] 在 Python 中,将数据可视化有多种选择,正是因为这种多样性,何时选用何种方案才变得极具挑战性.本文包含了一些较为流行的工具以及 ...

  4. 《作文精编大全》,Python程序员用爬虫制作的

    文章目录 ⛳️ 实战场景 ⛳️ 采集列表页 ⛳️ 提取列表作文地址 ⛳️ 提取作文 8 内容 ⛳️ 实战场景 本篇博客又是一个 Python 爬虫实战,目标站点时作文吧,一个充满作文的站点 zuowe ...

  5. Python程序员自制爬虫小程序, 瞬间爬取十几万美女图片

    最近对python爬虫感兴趣,于是也依葫芦画瓢试着用爬虫爬取之前喜欢的网站上的美女图片,其中每一套图都是一张一个页面,存一套图如果是手动得点翻几十个页面,但现在用爬虫的话,就很方便了,只需输入套图的i ...

  6. Python程序员面试中,被常问的七道题!(详细解题思路)

    俗话说的好,打仗之前知晓敌方的军情越多,获胜的把握也会越大,知己知彼方能百战不殆嘛!换个角度来说,如今的面试不正是和古代打战一样嘛,知晓的越多,成功几率也就越大. 如今,Python是个非常受欢迎的编 ...

  7. python面试48题及答案_python常见面试题

    面试问题: 1.python的垃圾回收机制:主要使用引用计数(reference counting)来跟踪和回收垃圾.在引用计数的基础上,通过"标记-清除"(mark and sw ...

  8. 阿里HR有多敬业,Python程序员:恐怖,晚上11点接到阿里HR面试电话

    晚上11点你在做什么?想必大多数养身派已经入睡或者准备睡觉,习惯熬夜的夜猫子们则刷着手机网上冲浪欲罢不能.这个时间点有电话进来,要么是推销诈骗,要么是真有急事,现在还有一种可能是HR的面试电话.就有一 ...

  9. Python程序员常犯的十个错误

    不管是在学习还是工作过程中,人都会犯错.虽然Python的语法简单.灵活,但也一样存在一些不小的坑,一不小心,不管是初学者还是资深Python程序员都有可能会栽跟头. 常见错误1:错误地将表达式作为函 ...

  10. Python 程序员最常犯的十个错误

    常见错误1:错误地将表达式作为函数的默认参数 在Python中,我们可以为函数的某个参数设置默认值,使该参数成为可选参数.虽然这是一个很好的语言特性,但是当默认值是可变类型时,也会导致一些令人困惑的情 ...

最新文章

  1. 线程和进程的自己觉得好的文章以及自我理解
  2. Angular 2 Pipe
  3. kvm热添加和热迁移
  4. JavaScrip调用腾讯地图
  5. Matlab | 空间域水印技术:LSB(Least Significant Bit):计算峰值信噪比PSNR(matlab源代码)
  6. JavaWeb -- Struts2 ResultType细化, 国际化
  7. ASP.NET Core技术研究-全面认识Web服务器Kestrel
  8. Java性能调优调查结果(第三部分)
  9. Computer Vision Review Incompletely
  10. C++中size_t的学习
  11. Linux命令行打开不了发行光盘RHEL_6.3 i386 Disc 1
  12. oracle财务系统表,Oracle财务管理系统:会计业务周期
  13. DDoS Perl IrcBot v1.0分析复现与处置
  14. Vue项目-2首页开发(header)
  15. 腾达ac5第三方固件_腾达AC9的刷固件指南
  16. 对电化学极化曲线(LSV/Tafel)的数据进行自动化处理并可视化作图/画图(科研投稿)
  17. ui设计一般用什么软件(ui学哪些软件)
  18. 盘点那些欺骗我感情的数学定理
  19. Java虚拟机学习与总结(一)
  20. Sheldon Numbers

热门文章

  1. C语言用梯形法求定积分
  2. java 设置字符串编码_Java字符编码设置总结
  3. html5 input valid,javascript – 如果inputElement.validity.valid == false,如何显示HTML5验证?...
  4. priya-dwivedi关于人脸情绪识别
  5. matlab求合同矩阵,matlab-线性代数 判断 合同矩阵
  6. Excel - VLOOKUP 函数的精确查找和近似查找
  7. (转)Apple Push Notification Services in iOS 6 Tutorial: Part 1/2
  8. 《自為墓誌銘·〔明〕張岱》原文|譯文|注釋|賞析
  9. home目录权限linux,linux 文件/文件夹权限
  10. Error staring Tomcat Cannot connect to VM错误解决办法