一篇文章教你如何使用python爬虫

一、什么是爬虫

通过编写程序，模拟浏览器上网，然后让其去互联网上抓取数据的过程。

1、爬虫带来的风险可以体现在如下2方面：

爬虫干扰了被访问网站的正常运营
爬虫抓取了收到法律保护的特定类型的数据或信息

2、爬虫在使用场景中的分类

通用爬虫：抓取系统重要组成部分。抓取的是一整张页面数据。
聚焦爬虫：是建立在通用爬虫的基础之上。抓取的是页面中特定的局部内容。
增量式爬虫：检测网站中数据更新的情况。只会抓取网站中最新更新出来的数据。

3、反爬机制

门户网站，可以通过制定相应的策略或者技术手段，防止爬虫程序进行网站数据的爬取。

4、反反爬策略

爬虫程序可以通过制定相关的策略或者技术手段，破解门户网站中具备的反爬机制，从而可以获取门户网站中

二、python爬虫request模块

1、requests模块

python中原生的一款基于网络请求的模块，功能非常强大，简单便捷，效率极高。作用：模拟浏览器发请求。

2、request模块如何使用

指定url
UA伪装
请求参数的处理
发起请求
获取响应数据
持久化存储

三、爬虫实战

需求：爬取肯德基餐厅查询http://www.kfc.com.cn/kfccda/index.aspx中指定地点的餐厅数据

import requests
import json# 爬取kfc门店地址
# 爬取url地址
url = 'http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=keyword'# UA伪装
header = {'User-Agent' :'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36'
}
json_list = []
# 输入参数
kw = input("enter the keywords：")
# 组装参数
for page in range(1,7):page = str(page)para = {'cname': '','pid': '','keyword': kw,'pageIndex': page,'pageSize': '10'}# 发送post请求obj = requests.post(url=url,params=para,headers=header).json()json_list.append(obj)#持久化数据
fileName = "address.json"
with open(fileName,'w',encoding="utf-8") as fp:json.dump(json_list,fp=fp,ensure_ascii=False)
print("over")

代码详细地址为：kfc爬取门店代码

一篇文章教你如何使用python爬虫相关推荐

一篇文章教你学会使用SpringBatch 监听器Listener
文章目录一.SpringBatch监听器二.搭建SpringBatch开发环境三.监听器详细介绍 1.JobExecutionListener 2.StepExecutionListener 3 ...
一篇文章教你学会使用SpringBoot实现文件上传和下载
文章目录一.搭建SpringBoot开发环境 1.创建项目 2.配置application.properties参数 3.实体响应类和异常信息类 4.创建FileController 二.接口测试 ...
一篇文章教你学会实现模糊搜索结果的关键词高亮显示
一篇文章教你学会实现模糊搜索结果的关键词高亮显示话不多说,先看效果图: 代码如下: <!DOCTYPE html> <html lang="en">< ...
一篇文章教你学会如何使用CSS中的雪碧图（CSS Sprite）
一篇文章教你学会如何使用CSS中的雪碧图(CSS Sprite) 一.什么是雪碧图? 雪碧图(CSS Sprite)又叫CSS精灵图,是一种网页图片应用处理方式,他允许你将一个页面设计到所有零星图片 ...
硬核来袭！！！一篇文章教你入门Python爬虫网页解析神器——BeautifulSoup详细讲解
文章目录一.BeautifulSoup介绍二.安装三.bs4数据解析的原理四.bs4 常用的方法和属性 1.BeautifulSoup构建 1.1 通过字符串构建 1.2 从文件加载 2.Be ...
NB，用这一篇文章带你了解什么是爬虫？
本文来自:裸睡的猪小詹说:对于学 Python 的小伙伴来说,爬虫是大多数人的入门菜,很是因吹斯汀.那么到底什么是爬虫呢,这篇文章用一个简单的语言来一节入门课.以下为原文. 前段时间我妈突然问我:儿 ...
一篇文章带你从认识Python装饰器到熟练使用
一.简单装饰器装饰器其实就是一个以函数作为参数并返回一个替换函数的可执行函数.本质上就是一个函数,该函数用来处理其他函数,它可以让其他函数在不需要修改代码的前提下增加额外的功能,装饰器的返回值也是一 ...
一篇文章教你整合ssm配置，可以收藏。
所谓的ssm框架就是mybatis+spring+springmvc,下面一篇文章将带你了解如何整合ssm. 我上传了一个免费的解释资源,里面有这篇文章的一些个人解释,说的很幽默,简单的说明了为什么要 ...
手把手教你一项Python爬虫接单（技术+渠道）
假期,闲来无事回顾过去的一年,收益最大的还得是Python爬虫接私单,每每和大家分享都甘之如饴,单看一两个单子可能没什么感觉,但一单接一单,一个月的收获非常可观! 这是近期做的爬虫单子,大家可以先感受 ...

一篇文章教你如何使用python爬虫

一、什么是爬虫

二、python爬虫request模块

三、爬虫实战

一篇文章教你如何使用python爬虫相关推荐

最新文章

热门文章