1. User-Agent表示用户代理,是HTTP协议中的一个字段
  2. URL地址由协议头, 服务器地址, 文件路径三部分组成
  3. 搜索引擎是通用爬虫最重要的应用领域

** 协议头指定使用的传输协议
** 服务器地址
指存放资源的服务器的主机名或者IP地址,其目的在于标识互联网上的唯一一台计算机,并通过这个地址找到这台计算机
** 端口**是在地址和冒号后面的数字,用于表示一台计算机上运行的不同程序
** IP地址用来给Internet上的每一台计算机编号

  1. 路径是由0个或者多个" / "符号隔开的字符串
  2. Accept-Encoding:指出浏览器可以接受的编码方式
  3. Accept-Charset:指出浏览器可以接受的字符编码
  4. Content-Type:指定POST请求中用来表示的内容类型
  5. 若想修改/添加Request对象中的headers可以使用add_header()方法
  6. urllib.request中的ProxyHandler()方法可以设置代理服务器

URLErroer产生的原因主要由以下几种:

  1. 没有连接网络
  2. 服务器连接失败
  3. 找不到指定的服务器
    HTTPError是URLError的子类
    响应码无法处理的请求内容就会抛出这个异常
  1. Request类的对象表示一个请求,一旦请求发送完毕,该请求包含的内容就被释放掉
  2. Session类的对象不会马上被释放掉
  3. Response类用于动态地响应客户端发送的请求
  4. XML和JSON是结构化数据
  5. [u4e00-u9fa5]匹配中文
  6. Xpath即为XML路径语言,通过"/"进行分隔
  7. 谓语都写在[]中
  8. JSON是一种轻量级的数据交换格式
  9. JSONPath是一种信息抽取类库,用于从JSON文档中抽取指定信息
  10. 序列化(encoding):将一个Python对象编码转换为JSON字符串的过程
  11. 反序列化(decoding):将JSON字符串编码转换成Python对象的过程
  12. MySQL是一种开源的关系型数据库,使用最常用的数据库管理语言(SQL)进行数据库管理
  13. MongoDB是一个基于分布式文件存储的数据库,属于当前NoSQL数据库中比较热门的一种

数据库表示一个集合的物理容器
集合就是一组文档,类似于关系数据库中的表
文档是一组由键/值对组成的对象,对应着关系型数据库的行

  1. MySQL的基本组成单元是表, MongoDB的基本组成单元是集合

爬虫期末考试笔记(填空题)相关推荐

  1. 爬虫期末考试笔记(选择题)

    常用获取数据的方式? 企业产生的数据 数据平台购买的数据 政府.机构公开的数据 数据管理公司的数据 爬虫的概念? 网络爬虫又称为网页蜘蛛.网络机器人是一种按照一定的规则自动请求万维网网站并提取网络数据 ...

  2. 南昌大学《嵌入式系统》期末考试试卷真题(含答案)

    南昌大学<嵌入式系统>期末考试试卷真题(含答案) 填空题(每空 2 分,共 20 分) 判断题(每题 1 分,共 10 分,对的打√,错的打×) 简答题(共 40 分)

  3. 软件体系结构期末考试复习题(题中页码 与软件体系结构原理、方法与实践第2版 张友生编著 匹配)

    软件体系结构期末考试复习题(题中页码 与软件体系结构原理.方法与实践第2版 张友生编著 匹配) 一.选择题← 不属于软件体系结构的核心模型的最基本的元素是 A构件   B连接件   C配置   D角色 ...

  4. 电子电路期末考试复习预测题二(2)(内附详细解析)

    电子电路期末考试复习预测题二(2) 目录 电子电路期末考试复习预测题二(2) 复习题二 试题库(4)交流电路 试题库(5)交流电路 试题库(6)交流电路 试题库(7)交流电路 试题库(8)暂态电路 复 ...

  5. JAVA习题大全之java期末考试复习预测题一

    JAVA习题大全 目录 JAVA习题大全 java期末考试复习预测题A java期末考试复习预测题B java期末考试复习预测题C java期末考试复习预测题D java期末考试复习预测题E java ...

  6. 复旦大学2016--2017学年第二学期(16级)高等代数II期末考试第七大题解答

    七.(本题10分)  设 $n$ 阶复方阵 $A$ 的特征多项式为 $f(\lambda)$, 复系数多项式 $g(\lambda)$ 满足 $(f(\lambda),g'(\lambda))=1$. ...

  7. 湖南工业大学c语言在线作业答案,湖南工业大学C语言期末考试复习题(机房题库)...

    C语言期末考试复习题(机房题库) 2.下列各选项中,合法的c语言关键字是( ). A. integex B. sin C. string D. void参考答案: D 3.C语言的程序一行写不下时,应 ...

  8. Bailian2932 期末考试第三题——最大最小数之差【文本+进制】

    2932:期末考试第三题--最大最小数之差 总时间限制: 1000ms 内存限制: 65536kB 描述 输入一串长度不超过20的字符串,提取出其中可以表示十六进制数的数字和字母(数字0到9,及字母a ...

  9. 神经网络与深度学习期末考试满分过题库!

    神经网络与深度学习期末考试满分过题库! 文章如有侵权请联系博主文章立即删除 TensorFlow的特点有哪些( E ) A.灵活性 B.可移植性 C.高效 D.多语言支持 E.以上全部都是 下列有关张 ...

最新文章

  1. Redis的API调用工具类
  2. 运用双腾讯云搭建《饥荒》多人联机服务器
  3. ECMALL SEO 问题的解决方法
  4. 使用tracert命令查看某一个网站的ip地址
  5. Codeforces Round #533 (Div. 2)题解
  6. hadoop-0.21.0 在Windows环境下的部署(2)Hadoop配置
  7. 经典插花的教训 PKU 1157
  8. 02繁花嗅Django笔记
  9. MyEclipse配置Tomcat(图解)
  10. 笨办法学 Python · 续 练习 4:处理命令行参数
  11. SQL Server 2008 数据库快照
  12. fabric.js 不同类型 不同控件_如何模拟不同类型的阻尼
  13. MySQL数据库学习资料(六)
  14. 软件盗版受害者解决方法
  15. 可拖动组件 v-drag vue
  16. arcgis出界址点成果表_勘测定界界址点坐标成果表(TXT文件)
  17. conda 查看已有环境
  18. HTML5期末大作业:旅游网站设计——中国风的旅游网站(9页) HTML+CSS+JavaScript 学生DW网页设计作业成品 web课程设计网页规划与设计 计算机毕设网页设计源码...
  19. Appium自动化框架从0到1之 测试用例封装
  20. dos系统的界面字体设置

热门文章

  1. 读书笔记--删除数据时的提示效果在项目中的应用
  2. Adlik Deer版本发布,模型推理加速就靠它啦
  3. 面试yan-原理性函数
  4. 北京汽车加速海外业务发展
  5. 装配式成品支架技术要求解读
  6. Markus Persson:Minecraft 游戏背后的奇才
  7. 电子数据司法鉴定的网络平台设计
  8. 网站每天更新几十篇上百篇文章是怎么做到的?
  9. Spring学习手札(三)理解IoC 拯救不开心
  10. 关于某大型企业应用集成现状的思考