1、动态加载又对及时性要求很高怎么处理?
    1,selenium+Phantomjs
    2,尽量不适用sleep而是用WebDriverWait

2、分布式爬虫主要解决什么问题?
    1,ip        2,宽带    3,cpu    4,io

3、什么是URL?
    URL,即统一资源定位符,也就是常见的网址,统一资源定位符是对可以从互联网是得到的资源的位置和访问方法的一种简介的表示
    是互联网上标准资源的地址。互联网是的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。

4、python爬虫有那些常用技术?
    Scrapy    Beautiful Soup    urllib        urllib2        requests

5、简单说一下你对scrapy的了解?
    scrapy是一个快速(fast),高层次(high-leve)的基于python 的web爬虫框架,
    用来下载,并解析web页面,其parse->yield item->pipeline流程是所有爬虫的固有模式,
    构造形式主要分 spider pypipeline.py itme.py decorator.py middlewares.py setting.py

6、scrapy的优缺点?
    1,优点:scrapy是异步的
        采取可读性更强的xpath代替正则强大的统计和log系统(日志文件),同事在不同的url上爬行支持shell方式,方便独立调试写middleware(中间件),
        方便写一些同意的过滤器,通过管道的方式存入数据库
            log系统:
            log是日志文件,通常是系统或者某些软件对已完成的某种处理的记录,以便将来做为参考,

2、缺点:基于python 的爬虫框架,扩展性比较差
        基于twisted框架,运行中的exception( 异常处理机制)是不会干掉reactor(异步应用基础库),并且一步框架出错后是不会停掉其他任务的,数据出错后难以察觉,
            twisted框架:
            twisted是一个封装好的网络通信的库,可以帮助我们快速进行网络编程
            注意,python3中,字符串必须转码成utf8的格式,否则无法发送。比如str(“test”).encode(“utf8”)即可

7、scrapy和request?
    1,scrapy是封装起来的框架,它包含了下载器,解析器,日志异常处理,基于多线程,twisted的方式处理,
    对于单个固定的网站爬取开发,有优势,但是对于多网站爬取100个网站,并发及分布式处理方面,不够灵活,不便调整与扩展,
    2,request是一个HTTP库,它只是用来,进行请求,对于HTTP请求,他是一个强大的库,下载,解析全部自己处理,灵活性更高,
    高并发与分布式部署也非常灵活,对于功能可以更好实现,

8、五层网络模型?
    应用层—http ftp dns nfs
    传输层—tcp --udp
    网络成—ip icmp igmp
    链路层—data link
    物理层—media
    设置ip和掩码
        ifconfig eth0 102.168.13.225 netmash 255.255.255.0
    设置网关
        route add default gw 192.168.5.1

9、常用反爬措施?
    1、添加代理
    2、降低访问频率
    3、User-Agent动态 HTML数据加载验证码处理Cookie

10、git和post请求有什么区别?
    区别:
        GET:
            从指定的服务器中获取数据,GET请求能够被缓存,会保存在浏览器的浏览记录中,
            以GET请求的URL能够保存为浏览器书签,GET请求有长度限制,GET请求主要用以获取数据
        POST:
            POST请求不能被缓存,不会呗保存在浏览器记录中,请求的URL无法村委浏览器书签,
            POST请求没有长度限制,POST请求会把请求的数据防止在HTTP请求包的包体中
            POST的安全性比GET的高,可能修改变服务器上的资源请求
    应用场合:
        POST:
            请求的结果有持续性的副作用(数据库内添加新的数据行),
            若使用GET方法,则表单上的数据肯能让URL过长,
            要传送的数据不是采用7位的ASCLL编码,
        GET:
            请求是为了查找资源,HTML表单数据仅用来帮助搜索,
            请求结果无持续性的副作用,
            收集的数据及HTML表单内的输入字段的名称总长不能超过1024个字符
        HTTP请求会有那些信息发送到后台服务器:
            请求行(请求方式,资源路径和HTTP协议版本)POST/demo/login HTTP/1.1
            请求消息头
            消息正问(也叫实体内容) username=xxxx&password=1234
            
11、描述下scrapy框架运行的机制?
    1,从start_url里获取第一批url并发送请求,请求由引擎交给调度器入请求队列,获取完毕后,调度器将请求队列里的请求交给下载器
    去获取请求对应的响应资源,并将响应交给自己编写的解析方法做提取处理:如果提取所需要的数据,则交给管道文件处理,
    2,如果提取出url,则继续执行之前的步骤(发送url请求,并由引擎将请求交给调度器加入队列),知道请求队列里没有请求,程序结束,

12、实现登录的方式有那些?
    1,使用一个具有登录状态的cookie,结合请求头一起发送,可以直接发送get请求,访问登录后才能访问的页面,
    2,先发送登录解密的get请求,在登录页面HTML里获取登录需要的数据,然后结合账号密码,在发送post请求,即可登录成功
    然后根据获取的cookie信息,继续访问之后的页面,

13、简单介绍下scrapy的异步处理
    scrapy框架的异步机制是基于twisted异步网络框架处理的,在settings.py文件里可以设置具体的并发数量值-默认值16

scrapy常用问题相关推荐

  1. python常用命令汇总-Python爬虫框架Scrapy常用命令总结

    本文实例讲述了Python爬虫框架Scrapy常用命令.分享给大家供大家参考,具体如下: 在Scrapy中,工具命令分为两种,一种为全局命令,一种为项目命令. 全局命令不需要依靠Scrapy项目就可以 ...

  2. scrapy常用设置参考手册

    内置设置参考 以下是所有可用Scrapy设置的列表,按字母顺序排列,以及它们的默认值和适用范围. 范围(如果可用)显示设置的使用位置,如果它与任何特定组件相关联.在那种情况下,将显示该组件的模块,通常 ...

  3. scrapy常用设置参考手册 1

    内置设置参考 以下是所有可用Scrapy设置的列表,按字母顺序排列,以及它们的默认值和适用范围. 范围(如果可用)显示设置的使用位置,如果它与任何特定组件相关联.在那种情况下,将显示该组件的模块,通常 ...

  4. scrapy常用命令

    创建项目 D:\tmp\scrapy>scrapy startproject testproject New Scrapy project 'testproject', using templa ...

  5. Python爬虫框架Scrapy学习笔记

    scrapy.png 本文主要内容针对Scrapy有初步了解的同学.结合作者的实际项目中遇到的一些问题,汇成本文. 之后会写一些具体的爬虫demo, 放到 https://github.com/han ...

  6. scrapy常用工具备忘

    scrapy常用的命令分为全局和项目两种命令,全局命令就是不需要依靠scrapy项目,可以在全局环境下运行,而项目命令需要在scrapy项目里才能运行. 一.全局命令 ##使用scrapy -h可以看 ...

  7. Scrapy爬虫框架入门

    一.scrapy框架简介 scrapy和前面学的BeautifulSoup库.Re库其实都是函数功能库,但是scrapy由于有着一些固定的结构,更像是一个框架,所以称之为爬虫框架,所谓爬虫框架,指的是 ...

  8. 爬虫之scrapy框架的数据持久化存储/保存为scv,json文件

    文章目录 前情回顾 selenium+phantomjs/chrome/firefox execjs模块使用 今日笔记 scrapy框架 小试牛刀 猫眼电影案例 知识点汇总 数据持久化存储(MySQL ...

  9. 常用的python标准库有哪些?

    常用的python标准库,个人认为分为三类: 7大编程常用,第三方库以及常用的科学计算库. 常用的7大库有: os 操作系统 time 时间 random 随机 pymysql 连接数据库 threa ...

最新文章

  1. POJ 1185 炮兵阵地(状态压缩DP)
  2. LiveVideoStack线上交流分享 (九) —— B站的QUIC实践简介
  3. c语言ie编程,IEC语言:梯形图(共章).ppt
  4. 随记-Git相关操作
  5. 常用Linux命令--CPU和GPU查看
  6. win10窗口设置眼睛保护色
  7. 解决——》Mysql导出excel时,数值型变成科学计数法
  8. xp系统计算机蓝屏,Xp系统出现蓝屏代码 0x0000007b解决方法
  9. 网络流 24 题, 餐巾计划问题 (最小费用流 )
  10. 论文 PPT 画图导出 PDF 注意事项
  11. dlut1216-位运算(异或)水题
  12. 2018.11.5 PION模拟赛
  13. EChat(简易聊天项目)八、Socket实现即时通信(包括部分修改)
  14. Mysql:<foreach> </foreach>
  15. 一个女孩的就业之路 ------来自猫扑(mop.com)
  16. C#调用Halcon并输出圆心坐标
  17. lob 索引 oracle,解决了困惑已久的Oracle全文索引问题
  18. 使用MATLAB求解方程求根——学习笔记
  19. veryCD关闭之后,我们该何去何从。别急,找这里。
  20. 如何在NSIS中执行BAT文件

热门文章

  1. godaddy 开通免费空间
  2. 贴几张我们用irrlicht做的游戏截图 jpg图片效果有点差,看起来是不是有点像劲舞团?...
  3. 360优化开机速度后慢了_为什么用360清理完电脑开机速度变慢了
  4. linux下malloc申请大内存,Linux malloc大内存的方法
  5. QQ邮箱拦截解决办法
  6. 判断互质数的九种方法(两种定义+三种质数+两种相邻+两种裂项)
  7. ios中html怎么横屏,iOS如何实现强制转屏、强制横屏和强制竖屏的实例代码
  8. 2018 IAP内购--自动订阅类型与非自动订阅类型
  9. 计算机毕业设计android平台的出租打车软件app
  10. 分布式架构驭数而行,海量数据方能有备无患