一、什么是爬虫

通过编写程序,模拟浏览器上网,然后让其去互联网上抓取数据的过程。

1、爬虫带来的风险可以体现在如下2方面:

  • 爬虫干扰了被访问网站的正常运营
  • 爬虫抓取了收到法律保护的特定类型的数据或信息

2、爬虫在使用场景中的分类

  • 通用爬虫: 抓取系统重要组成部分。抓取的是一整张页面数据。
  • 聚焦爬虫: 是建立在通用爬虫的基础之上。抓取的是页面中特定的局部内容。
  • 增量式爬虫: 检测网站中数据更新的情况。只会抓取网站中最新更新出来的数据。

3、反爬机制

  • 门户网站,可以通过制定相应的策略或者技术手段,防止爬虫程序进行网站数据的爬取。

4、反反爬策略

  • 爬虫程序可以通过制定相关的策略或者技术手段,破解门户网站中具备的反爬机制,从而可以获取门户网站中

二、python爬虫request模块

1、requests模块

  • python中原生的一款基于网络请求的模块,功能非常强大,简单便捷,效率极高。 作用:模拟浏览器发请求。

2、request模块如何使用

  • 指定url
  • UA伪装
  • 请求参数的处理
  • 发起请求
  • 获取响应数据
  • 持久化存储

三、爬虫实战

需求:爬取肯德基餐厅查询http://www.kfc.com.cn/kfccda/index.aspx中指定地点的餐厅数据

import requests
import json# 爬取kfc门店地址
# 爬取url地址
url = 'http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=keyword'# UA伪装
header = {'User-Agent' :'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36'
}
json_list = []
# 输入参数
kw = input("enter the keywords:")
# 组装参数
for page in range(1,7):page = str(page)para = {'cname': '','pid': '','keyword': kw,'pageIndex': page,'pageSize': '10'}# 发送post请求obj = requests.post(url=url,params=para,headers=header).json()json_list.append(obj)#持久化数据
fileName = "address.json"
with open(fileName,'w',encoding="utf-8") as fp:json.dump(json_list,fp=fp,ensure_ascii=False)
print("over")

代码详细地址为:kfc爬取门店代码

一篇文章教你如何使用python爬虫相关推荐

  1. 一篇文章教你学会使用SpringBatch 监听器Listener

    文章目录 一.SpringBatch监听器 二.搭建SpringBatch开发环境 三.监听器详细介绍 1.JobExecutionListener 2.StepExecutionListener 3 ...

  2. 一篇文章教你学会使用SpringBoot实现文件上传和下载

    文章目录 一.搭建SpringBoot开发环境 1.创建项目 2.配置application.properties参数 3.实体响应类和异常信息类 4.创建FileController 二.接口测试 ...

  3. 一篇文章教你学会实现模糊搜索结果的关键词高亮显示

    一篇文章教你学会实现模糊搜索结果的关键词高亮显示 话不多说,先看效果图: 代码如下: <!DOCTYPE html> <html lang="en">< ...

  4. 一篇文章教你学会如何使用CSS中的雪碧图(CSS Sprite)

    一篇文章教你学会如何使用CSS中的雪碧图(CSS Sprite) 一.什么是雪碧图? 雪碧图(CSS Sprite)又叫CSS精灵图,是一种网页图片应用处理方式,他允许你将一个页面设计到 所有零星图片 ...

  5. 硬核来袭!!!一篇文章教你入门Python爬虫网页解析神器——BeautifulSoup详细讲解

    文章目录 一.BeautifulSoup介绍 二.安装 三.bs4数据解析的原理 四.bs4 常用的方法和属性 1.BeautifulSoup构建 1.1 通过字符串构建 1.2 从文件加载 2.Be ...

  6. NB,用这一篇文章带你了解什么是爬虫?

    本文来自:裸睡的猪 小詹说:对于学 Python 的小伙伴来说,爬虫是大多数人的入门菜,很是因吹斯汀.那么到底什么是爬虫呢,这篇文章用一个简单的语言来一节入门课.以下为原文. 前段时间我妈突然问我:儿 ...

  7. 一篇文章带你从认识Python装饰器到熟练使用

    一.简单装饰器 装饰器其实就是一个以函数作为参数并返回一个替换函数的可执行函数.本质上就是一个函数,该函数用来处理其他函数,它可以让其他函数在不需要修改代码的前提下增加额外的功能,装饰器的返回值也是一 ...

  8. 一篇文章教你整合ssm配置,可以收藏。

    所谓的ssm框架就是mybatis+spring+springmvc,下面一篇文章将带你了解如何整合ssm. 我上传了一个免费的解释资源,里面有这篇文章的一些个人解释,说的很幽默,简单的说明了为什么要 ...

  9. 手把手教你一项Python爬虫接单(技术+渠道)

    假期,闲来无事回顾过去的一年,收益最大的还得是Python爬虫接私单,每每和大家分享都甘之如饴,单看一两个单子可能没什么感觉,但一单接一单,一个月的收获非常可观! 这是近期做的爬虫单子,大家可以先感受 ...

最新文章

  1. sql移动加权计算利润_一文搞懂股票指数的4种加权方式
  2. python现在第几版-2020 年10月编程语言排行榜,Python 排名逼近第二
  3. Sqoop 同步数据到mysql, Can't parse input data: '\N'
  4. pytorch 训练过程acc_pytorch入门练手:一个简单的CNN模型
  5. 模拟电路技术之基础知识(十)
  6. linux从别的主机下载,从局域网内的其他Linux主机下载文件
  7. 从拉萨骑行到珠峰大本营
  8. ImageView加载本地图片资源
  9. Querydsl使用fetchCount()报错
  10. 重温经典:Windows1.0系统体验和尝试自己编写Windows1.0系统
  11. 再次联手法国力克,雅戈尔打造中国服装“智造”典范
  12. html实现tab 左右滑动
  13. 如何打造一个高效的研发团队
  14. html中video自动循环,HTML5视频自动循环播放方法
  15. 如何解决笔记本键盘突然失灵的问题
  16. Linux搭建学习汇总
  17. 下载iconfont图标
  18. 1.1 机器学习与Python
  19. 12月份参加工作的年假怎么休_请问我的年假可以在12月份休吗?单位说可以12月1日就不用上班了,我可以上到12月28日吗?...
  20. 【区块链与密码学】第9-2讲:群签名的形式化定义

热门文章

  1. 大疆aeb连拍_前后双屏幕:大疆OSMO Action行动相机规格与谍照曝光
  2. Debug Tensorflow: tensorflow.python.framework.errors_impl.InvalidArgumentError: OpKernel ‘ConcatV2‘
  3. C指针原理(17)-C指针基础
  4. codeforces round721 div2. E
  5. 本地一站式极速开发AI模型 百度飞桨EasyDL桌面版来了
  6. 温州大学《深度学习》课程课件(十二、自然语言处理和词嵌入)
  7. 【机器学习基础】数学推导+纯Python实现机器学习算法11:朴素贝叶斯
  8. No Fine-Tuning, Only Prefix-Tuning
  9. 神经网络基础之可视化和交互式指南
  10. 互联网1分钟 |1207