1 Robots协议

Robots协议(爬虫协议)全称网络爬虫排除标准,网站通过Robots协议告诉搜索引擎哪些页面可以抓取(Allow:/),哪些不能抓取(Disallow:/)。这个协议是国际互联网界遵守的道德规范。

在进行爬虫时要对自己的爬虫行为自我管理,过快或者过于密集的网络爬虫会对服务器产生巨大的压力。因此要遵守Robots协议,约束爬虫速度;使用爬到的数据时遵守网站的知识产权。

2 Python爬虫的流程

① 获取网页

给网站发送一个请求,网站返回整个网页的数据

② 解析网页(提取数据)

从整个网页的数据中提取想要的数据

③ 存储数据

3 三个流程的技术实现

① 获取网页

基础技术:request、urllib、selenium(模拟浏览器)

进阶技术:多进程多线程抓取、登录抓取、突破IP封禁和服务器抓取

② 解析网页(提取数据)

基础技术:re正则表达式、BeautifulSoup和lxml

进阶技术:解决中文乱码

③ 存储数据

基础技术:存入txt文件和存入csv文件

进阶技术:存入mysql数据库和存入MongoDB数据库

Python网络爬虫从入门到实践 -- chapter 1 -- 网络爬虫入门相关推荐

  1. python编程从入门到实践 第18章Django入门 2022年最新

    说明:这篇文章只是记录自己自学本书的一个痕迹,日后来看作为一个念想.至于做为公开,是希望对一些同样跟我一样的朋友有一点点帮助,当然我本人就是小白,帮助可能也不大哈哈. 这篇文章记录了<pytho ...

  2. python从入门到实践笔记_Python编程从入门到实践二至七章笔记

    Python 第二章变量和简单数据类型 一. 改变字符大小写 1. 首字母大写 .title() 或者 .capitaliza() 输入: print("xiao ming!".t ...

  3. python从入门到实践笔记_Python编程 从入门到实践 #笔记#

    变量 命名规则 只能包含字母.数字.下划线 不能包含空格,不能以数字开头 不能为关键字或函数名 字符串 用单引号.双引号.三引号包裹 name = "ECLIPSE" name.t ...

  4. python教程从入门到实践第八章_python:从入门到实践--第八章:函数

    定义:函数是带名字的代码块,用于完成具体的工作 定义函数: def greet_user():#关键字def来告诉python你要定义一个函数,这是函数定义,以冒号结尾,括号必不可少,因为可能在括号内 ...

  5. python--从入门到实践--chapter 15 16 17 生成数据/下载数据/web API

    1.随机漫步 random_walk.py from random import choice class RandomWalk():def __init__(self, num_points=500 ...

  6. python--从入门到实践--chapter 12 pygame_Alien_Invasion

    安装pygame包,把安装好的包copy一份到pycharm工程目录下,不然找不到pygame包 抄一遍书上的代码: settings.py class Settings():def __init__ ...

  7. python--从入门到实践--chapter 10 文件及错误

    文件的读写: with open(filename, 'a', encoding='utf-8') as file: with :后面不必写close文件 第二个参数:'a' 追加:'w' 写:'r' ...

  8. python--从入门到实践--chapter 11 代码测试unittest

    编写的代码需要测试是否有Bug 1.函数测试 city_functions.py def city_country(city, country):return str(city) + ',' + st ...

  9. python--从入门到实践--chapter 9 类

    类的定义格式: class Name(Father_class):def __init__(self, para, ...):self.para = xdef __init__(self, para, ...

最新文章

  1. 如何从PostgreSQL json中提取数组
  2. grep 显示搜索的关键字相关的行信息
  3. mysql数据库 day02
  4. Spark面试术语总结
  5. 更改项目文件夹图标(程序图标)
  6. 基于Nodejs的前端灰度发布方案_20190228
  7. Site-Site Ipsec ×××配置和验证
  8. 机器学习之amp;amp;Andrew Ng课程复习--- 聚类——Clustering
  9. 【收集资料】OpenGL学习
  10. 路由器端口转发linux服务器端口映射,路由器端口映射怎么设置?
  11. Python实现批量网站URL存活检测
  12. 专家视点:杜绝木马的干扰-防范后门的技巧(转)
  13. 正确认识计算机专业,如何正确认识计算机科学与技术专业
  14. python时区转换_Python pytz时区转换
  15. 【PyG 教程】PyG 自定义构造 GNN
  16. netstat查看网络状态(windows)
  17. 5个主流的HTML5开发工具
  18. 【Vue】通过computed为筛选列表数组进行排序(图文+完整代码示例)
  19. 2019年人工智能产业发展调研报告
  20. el-date-picker的时间段限制(只允许选择当月的最后一天和下月的第一天)

热门文章

  1. Android OpenSL ES 对象结构
  2. MySQL(四)复合查询与联合查询
  3. SOX 音频处理工具基本使用
  4. Go gomaxprocs 调高引起调度性能损耗
  5. 【原创】“三次握手,四次挥手”你真的懂吗?
  6. 计算机基础- -计算机为什么要使用二进制
  7. 高性能视频推理引擎优化技术
  8. 新版SVT-AVS3发布 编码效率提升并提供更灵活的编码工具
  9. Google发布TCC 更好的理解视频中事件逻辑
  10. 探秘云游戏背后实时音视频技术实践