Python网络爬虫从入门到实践 -- chapter 1 -- 网络爬虫入门
1 Robots协议
Robots协议(爬虫协议)全称网络爬虫排除标准,网站通过Robots协议告诉搜索引擎哪些页面可以抓取(Allow:/),哪些不能抓取(Disallow:/)。这个协议是国际互联网界遵守的道德规范。
在进行爬虫时要对自己的爬虫行为自我管理,过快或者过于密集的网络爬虫会对服务器产生巨大的压力。因此要遵守Robots协议,约束爬虫速度;使用爬到的数据时遵守网站的知识产权。
2 Python爬虫的流程
① 获取网页
给网站发送一个请求,网站返回整个网页的数据
② 解析网页(提取数据)
从整个网页的数据中提取想要的数据
③ 存储数据
3 三个流程的技术实现
① 获取网页
基础技术:request、urllib、selenium(模拟浏览器)
进阶技术:多进程多线程抓取、登录抓取、突破IP封禁和服务器抓取
② 解析网页(提取数据)
基础技术:re正则表达式、BeautifulSoup和lxml
进阶技术:解决中文乱码
③ 存储数据
基础技术:存入txt文件和存入csv文件
进阶技术:存入mysql数据库和存入MongoDB数据库
Python网络爬虫从入门到实践 -- chapter 1 -- 网络爬虫入门相关推荐
- python编程从入门到实践 第18章Django入门 2022年最新
说明:这篇文章只是记录自己自学本书的一个痕迹,日后来看作为一个念想.至于做为公开,是希望对一些同样跟我一样的朋友有一点点帮助,当然我本人就是小白,帮助可能也不大哈哈. 这篇文章记录了<pytho ...
- python从入门到实践笔记_Python编程从入门到实践二至七章笔记
Python 第二章变量和简单数据类型 一. 改变字符大小写 1. 首字母大写 .title() 或者 .capitaliza() 输入: print("xiao ming!".t ...
- python从入门到实践笔记_Python编程 从入门到实践 #笔记#
变量 命名规则 只能包含字母.数字.下划线 不能包含空格,不能以数字开头 不能为关键字或函数名 字符串 用单引号.双引号.三引号包裹 name = "ECLIPSE" name.t ...
- python教程从入门到实践第八章_python:从入门到实践--第八章:函数
定义:函数是带名字的代码块,用于完成具体的工作 定义函数: def greet_user():#关键字def来告诉python你要定义一个函数,这是函数定义,以冒号结尾,括号必不可少,因为可能在括号内 ...
- python--从入门到实践--chapter 15 16 17 生成数据/下载数据/web API
1.随机漫步 random_walk.py from random import choice class RandomWalk():def __init__(self, num_points=500 ...
- python--从入门到实践--chapter 12 pygame_Alien_Invasion
安装pygame包,把安装好的包copy一份到pycharm工程目录下,不然找不到pygame包 抄一遍书上的代码: settings.py class Settings():def __init__ ...
- python--从入门到实践--chapter 10 文件及错误
文件的读写: with open(filename, 'a', encoding='utf-8') as file: with :后面不必写close文件 第二个参数:'a' 追加:'w' 写:'r' ...
- python--从入门到实践--chapter 11 代码测试unittest
编写的代码需要测试是否有Bug 1.函数测试 city_functions.py def city_country(city, country):return str(city) + ',' + st ...
- python--从入门到实践--chapter 9 类
类的定义格式: class Name(Father_class):def __init__(self, para, ...):self.para = xdef __init__(self, para, ...
最新文章
- 如何从PostgreSQL json中提取数组
- grep 显示搜索的关键字相关的行信息
- mysql数据库 day02
- Spark面试术语总结
- 更改项目文件夹图标(程序图标)
- 基于Nodejs的前端灰度发布方案_20190228
- Site-Site Ipsec ×××配置和验证
- 机器学习之amp;amp;Andrew Ng课程复习--- 聚类——Clustering
- 【收集资料】OpenGL学习
- 路由器端口转发linux服务器端口映射,路由器端口映射怎么设置?
- Python实现批量网站URL存活检测
- 专家视点:杜绝木马的干扰-防范后门的技巧(转)
- 正确认识计算机专业,如何正确认识计算机科学与技术专业
- python时区转换_Python pytz时区转换
- 【PyG 教程】PyG 自定义构造 GNN
- netstat查看网络状态(windows)
- 5个主流的HTML5开发工具
- 【Vue】通过computed为筛选列表数组进行排序(图文+完整代码示例)
- 2019年人工智能产业发展调研报告
- el-date-picker的时间段限制(只允许选择当月的最后一天和下月的第一天)