职场人没有不知道:金三银四,金九银十 的说法儿吧,今天干货奉上,100个Python面试高频题目。

一. 遇到过得反爬虫策略以及解决方法?

1.通过headers反爬虫

2.基于用户行为的发爬虫:(同一IP短时间内访问的频率)

3.动态网页反爬虫(通过ajax请求数据,或者通过JavaScript生成)

4.对部分数据进行加密处理的(数据是乱码)

解决方法:

对于基本网页的抓取可以自定义headers,添加headers的数据

使用多个代理ip进行抓取或者设置抓取的频率降低一些,

动态网页的可以使用selenium + phantomjs 进行抓取

对部分数据进行加密的,可以使用selenium进行截图,使用python自带的pytesseract库进行识别,但是比较慢最直接的方法是找到加密的方法进行逆向推理。

二. urllib 和 urllib2 的区别?

  • urllib 和urllib2都是接受URL请求的相关模块,但是urllib2可以接受一个Request类的实例来设置URL请求的headers,urllib仅可以接受URL。urllib不可以伪装你的User-Agent字符串。
  • urllib提供urlencode()方法用来GET查询字符串的产生,而urllib2没有。这是为何urllib常和urllib2一起使用的原因。

三. 列举网络爬虫所用到的网络数据包,解析包?

  • 网络数据包 urllib、urllib2、requests
  • 解析包 re、xpath、beautiful soup、lxml

四. 简述一下爬虫的步骤?

  1. 确定需求;
  2. 确定资源;
  3. 通过url获取网站的返回数据;
  4. 定位数据;
  5. 存储数据。

五. 遇到反爬机制怎么处理?

反爬机制:

headers方向

判断User-Agent、判断Referer、判断Cookie。

将浏览器的headers信息全部添加进去

注意:Accept-Encoding;gzip,deflate需要注释掉

六. 常见的HTTP方法有哪些?

  • GET:请求指定的页面信息,返回实体主体;
  • HEAD:类似于get请求,只不过返回的响应中没有具体的内容,用于捕获报头;
  • POST:向指定资源提交数据进行处理请求(比如表单提交或者上传文件),。数据被包含在请求体中。
  • PUT:从客户端向服务端传送数据取代指定的文档的内容;
  • DELETE:请求删除指定的页面;
  • CONNNECT:HTTP1.1协议中预留给能够将连接方式改为管道方式的代理服务器;
  • OPTIONS:允许客户端查看服务器的性能;
  • TRACE:回显服务器的请求,主要用于测试或者诊断。

七. 说一说redis-scrapy中redis的作用?

它是将scrapy框架中Scheduler替换为redis数据库,实现队列管理共享。

优点:

  1. 可以充分利用多台机器的带宽;
  2. 可以充分利用多台机器的IP地址。

八. 遇到的反爬虫策略以及解决方法?

  1. 通过headers反爬虫:自定义headers,添加网页中的headers数据。
  2. 基于用户行为的反爬虫(封IP):可以使用多个代理IP爬取或者将爬取的频率降低。
  3. 动态网页反爬虫(JS或者Ajax请求数据):动态网页可以使用 selenium + phantomjs 抓取。
  4. 对部分数据加密处理(数据乱码):找到加密方法进行逆向推理。

九. 如果让你来防范网站爬虫,你应该怎么来提高爬取的难度 ?

  1. 判断headers的User-Agent;
  2. 检测同一个IP的访问频率;
  3. 数据通过Ajax获取;
  4. 爬取行为是对页面的源文件爬取,如果要爬取静态网页的html代码,可以使用jquery去模仿写html。

十. scrapy分为几个组成部分?分别有什么作用?

分为5个部分;Spiders(爬虫类),Scrapy Engine(引擎),Scheduler(调度器),Downloader(下载器),Item Pipeline(处理管道)。

  • Spiders:开发者自定义的一个类,用来解析网页并抓取指定url返回的内容。
  • Scrapy Engine:控制整个系统的数据处理流程,并进行事务处理的触发。
  • Scheduler:接收Engine发出的requests,并将这些requests放入到处理列队中,以便之后engine需要时再提供。
  • Download:抓取网页信息提供给engine,进而转发至Spiders。
  • Item Pipeline:负责处理Spiders类提取之后的数据。
  • 比如清理HTML数据、验证爬取的数据(检查item包含某些字段)、查重(并丢弃)、将爬取结果保存到数据库中

接下来的面试题也会继续为大家更新!伙伴们有补充的,欢迎下方留言哈!

blob字段乱码怎么处理_金九银十,你准备好了吗?没点Python面试题干货怎么行?(一)...相关推荐

  1. 与基础事务管理器的通信失败 存货申请_金九银十跳槽季,恶补分布式事务

    随着微服务架构在各个企业的渗透,大家都在纷纷的将技术架构转型,从单体式应用变成微服务架构式,从单机部署变分布式部署,我们的应用也变成了分布式应用.在分布式应用中,一切就变得复杂了,如何保障数据的一致性 ...

  2. java输入输出流_金九银十准备季:Java异常+Java IO与NIO面试题(含答案)

    写在前面:2020年面试必备的Java后端进阶面试题总结了一份复习指南在Github上,内容详细,图文并茂,有需要学习的朋友可以Star一下! GitHub地址:abel-max/Java-Study ...

  3. 2021年的“金九银十”你准备好了吗?,腾讯、字节、百度、阿里、快手等一线互联网公司面试真题分享

    前言 职场的"金三银四"跳槽季过去了,但是紧接着,眼下"金九银十"又来了. 不同的是今年比往年「冷」一些,形式更加严峻一些,大家多多少少可能都听到或看到一些信息 ...

  4. 备战金九银十涨薪季,1000道软件测试面试题和面试经验分享

    小编热衷于收集整理资源,记录踩坑到爬坑的过程.希望能把自己所学,实际工作中使用的技术.学习方法.心得及踩过的一些坑,记录下来.也希望想做软件测试的你一样,通过我的分享可以少走一些弯路,可以形成一套自己 ...

  5. 金三银四、金九银十 面试宝典 Spring、MyBatis、SpringMVC面试题 超级无敌全的面试题汇总(超万字的面试题,让你的SSM框架无可挑剔)

    Spring.MyBatis.SpringMVC 框架 - 面试宝典 又到了 金三银四.金九银十 的时候了,是时候收藏一波面试题了,面试题可以不学,但不能没有!

  6. 备战金九银十,全网最权威最全面的800+面试题,你值得拥有

    又到了每年的金九银十,一年一度的招聘盛会开始了. 想转行的,想跳槽涨薪的,想换一份更舒服更美好的工作的现在可以准备起来了. 软件测试作为IT届最亲民的门槛最低的准入行业,每年在这个时候会迎来很多的小白 ...

  7. wsdl 架构验证警告:来自命名空间_金九银十,正在面试吗?面试官必问:JVM架构解读,查漏补缺...

    来源:www.codeceo.com 前言 每个Java开发人员都知道字节码由JRE(Java运行时环境)执行.但许多人不知道JRE是Java Virtual Machine(JVM)的实现,它分析字 ...

  8. 耗时108天,终于有人把金九银十面试必问的1309道Java面试题全部整理出来了

    就目前大环境来看,跳槽成功的难度比往年高很多.一个明显的感受:互联网行业竞争越来越严峻,面试也是越来越难,不少大厂,如阿里.腾讯.华为的招聘名额明显减少,面试门槛却一再拔高,其实,要想生存下去,势必要 ...

  9. 金九银十中,看看这31道Android面试题

    阅读目录 1.如何对 Android 应用进行性能分析 2.什么情况下会导致内存泄露 3.如何避免 OOM 异常 4.Android 中如何捕获未捕获的异常 5.ANR 是什么?怎样避免和解决 ANR ...

最新文章

  1. PyTorch 自动微分示例
  2. 13分页和shell命令行模式
  3. 【Android 应用开发】Android 返回堆栈管理 ( 默认启动模式 | 栈顶复用启动模式 | 栈内复用启动模式 | 单实例启动模式 | CLEAR_TOP 标识 )
  4. 深度解读谷歌开源的最精确自然语言解析器SyntaxNet
  5. 全球规模最大的全浸没式液冷数据中心落户杭州余杭
  6. 树莓派debian配置lamp【解决apache不显示php】
  7. xstat博客主题php,WordPress博客主题:Diaspora 简约文艺范主题
  8. mybatis源码_MyBatis架构和源码
  9. dell电脑重装linux系统,重装系统出现问题,如何解决?
  10. flask和ajax通信详细步骤与完整代码
  11. c语言必背数据结构_数据结构(C语言)考试重点必背
  12. 【转】教你何时开启水果机上的HDR拍照
  13. 互联网晚报 | 1月11日 星期二 | 恒大集团退租深圳总部大楼;荣耀发布首款折叠旗舰手机;虎牙拿下5年LPL独播权...
  14. python的数据模型_python高级(一)—— python数据模型(特殊方法)
  15. 微信商户现金红包api php
  16. 26. The Greenhouse Effect and Its Consequences 温室效应及其后果
  17. NAACL 2018 | 最佳论文:艾伦人工智能研究所提出新型深度语境化词表征
  18. 按月分表(create table)
  19. 今天七夕给大家送个“对象”吧!拿走不谢!
  20. Wordpress 网站添加打赏插件

热门文章

  1. html 的empty属性,你未必知道的CSS小知识:你知道table里的empty-cells属性吗?
  2. 【Paper】2021_Analysis of the Consensus Protocol of Heterogeneous Agents with Time-Delays
  3. 【控制】遗传算法(GA,Genetic Algorithm)及 Matlab 实现 代码详细版
  4. DFTug - Architecture Your Test Design
  5. 计算机硬盘登记表,硬盘固件的 P 表与 G 表
  6. 使用screen后台运行python(基于centOS7.2)
  7. elasticsearch 6.6 安装(CentOS 7.5) 修订
  8. ORA-04031:oracle无法分配共享内存
  9. 基于用户画像的实时异步化视频推荐系统
  10. 搜索和搜索形式(SEARCHING and its forms)