聚焦爬虫:爬取页面中指定的页面内容。
- 编码流程:
- 指定url
- 发起请求
- 获取响应数据
- 数据解析
- 持久化存储

数据解析分类:

  1. 正则
  2. bs4
  3. xpath(***)

数据解析原理概述:
- 解析的局部的文本内容都会在标签之间或者标签对应的属性中进行存储
- 1.进行指定标签的定位
- 2.标签或者标签对应的属性中存储的数据值进行提取(解析)

一、正则解析

常用正则表达式回顾:

<div class="thumb"><a href="/article/121721100" target="_blank">
<img src="//pic.qiushibaike.com/system/pictures/12172/121721100/medium/DNXDX9TZ8SDU6OK2.jpg" alt="指引我有前进的方向">
</a></div>ex = '<div class="thumb">.*?<img src="(.*?)" alt.*?</div>'

项目需求:爬取糗事百科指定页面的热图,并将其保存到指定文件夹中


import requests
import re
import osif __name__ == '__main__':# 创建一个文件夹,用来保存所有的图片if not os.path.exists('./qiutuLibs'):os.mkdir('./qiutuLibs')# 2.UA伪装:将对应的User-Agent封装到一个字典中headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.36'}# 设置一个通用的url模板url = 'https://www.qiushibaike.com/imgrank/page/%d/'for pageNum in range(2,3):# 对应页码的urlnew_url = format(url%pageNum)# 使用通用爬虫对url对应的一整张页面进行爬取page_text = requests.get(url=new_url,headers=headers).text# 使用聚焦爬虫将页面中所有的图片进行解析他/提取ex = '<div class="thumb">.*?<img src="(.*?)" alt.*?</div>'img_src_list = re.findall(ex,page_text,re.S)print(img_src_list)for src in img_src_list:# 拼接出一个完整的图片urlsrc = 'https:' + srcresponse = requests.get(url=src,headers=headers)# 请求到了图片的二进制数据img_data = response.content# 生成图片名称img_name = src.split('/')[-1]# 图片最终存储的路径imgPath = './qiutuLibs/' + img_namewith open(imgPath,'wb') as fp:fp.write(img_data)print(img_name,'下载成功!!!')

二、bs4解析

bs4进行数据解析- 数据解析的原理:- 1.标签定位- 2.提取标签、标签属性中存储的数据值- bs4数据解析的原理:- 1.实例化一个BeautifulSoup对象,并且将页面源码数据加载到该对象中- 2.通过调用BeautifulSoup对象中相关的属性或者方法进行标签定位和数据提取- 环境安装:- pip install bs4- pip install lxml
    - 如何实例化BeautifulSoup对象:- from bs4 import BeautifulSoup- 对象的实例化:- 1.将本地的html文档中的数据加载到该对象中fp = open('./test.html','r',encoding='utf-8')soup = BeautifulSoup(fp,'lxml')- 2.将互联网上获取的页面源码加载到该对象中page_text = response.textsoup = BeatifulSoup(page_text,'lxml')- 提供的用于数据解析的方法和属性:- soup.tagName:返回的是文档中第一次出现的tagName对应的标签- soup.find():- find('tagName'):等同于soup.div- 属性定位:-soup.find('div',class_/id/attr='song')- soup.find_all('tagName'):返回符合要求的所有标签(列表)- select:- select('某种选择器(id,class,标签...选择器)'),返回的是一个列表。- 层级选择器:- soup.select('.tang > ul > li > a'):>表示的是一个层级- oup.select('.tang > ul a'):空格表示的多个层级- 获取标签之间的文本数据:- soup.a.text/string/get_text()- text/get_text():可以获取某一个标签中所有的文本内容- string:只可以获取该标签下面直系的文本内容- 获取标签中属性值:- soup.a['href']

from bs4 import BeautifulSoupif __name__ == '__main__':# 想要将本地的html文档的数据加载到对象中fp = open('./test.html','r',encoding='utf-8')soup = BeautifulSoup(fp,'lxml')# print(soup)# print(soup.a) # soup.tagName返回的是html中第一次出现的tagName标签# find('tagName') : 等同于soup.tagName# print(soup.find('div'))# 属性定位# print(soup.find('div',class_='song'))# print(soup.find_all('a')) # 返回符合要求的所有标签(返回一个列表)# print(soup.select('.tang')) # 返回一个列表# print(soup.select('.tang > ul > li > a')[0]) # 返回一个列表# print(soup.select('.tang > ul a')[0]) # 返回一个列表# 获取标签之间的文本数据# text/get_text():可以获取某一个标签中所有的文本内容print(soup.a.text)print(soup.a.get_text())# string:只可以获取该标签下面直系的文本内容print(soup.a.string)# 获取标签中属性值print(soup.a['href'])

项目需求:使用bs4实现将诗词名句网站中三国演义小说的每一章的内容爬去到本地磁盘进行存储


import requests
from bs4 import BeautifulSoupif __name__ == '__main__':# 对首页的页面数据进行爬取url = 'https://www.shicimingju.com/book/sanguoyanyi.html'# 2.UA伪装:将对应的User-Agent封装到一个字典中headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.36'}page_text = requests.get(url=url,headers=headers).text.encode('ISO-8859-1')# 1.实例化BeautifulSoup对象,需要将页面源码数据加载到该对象中soup = BeautifulSoup(page_text,'lxml')# 2.解析章节标题和详情页的urlli_list = soup.select('.book-mulu > ul > li')print(li_list)fp = open('./sanguo.txt','w',encoding='utf-8')for li in li_list:title = li.a.stringdetail_url = 'https://www.shicimingju.com/' + li.a['href']# 对详情页发起请求,解析出章节内容detail_page_text = requests.get(url=detail_url,headers=headers).text.encode('ISO-8859-1')# 解析成详情页中相关的章节内容detail_soup = BeautifulSoup(detail_page_text,'lxml')div_tag = detail_soup.find('div',class_='chapter_content')# 解析到了章节的内容content = div_tag.text# print(div_tag.text)fp.write(title+':'+content+'\n')print(title,'爬取成功!!!')

三、xpath解析

xpath解析:最常用且最便捷高效的一种解析方式。通用性最强。- xpath解析原理:- 1.实例化一个etree的对象,且需要将被解析的页面源码数据加载到该对象中。- 2.调用etree对象中的xpath方法结合着xpath表达式实现标签的定位和内容的捕获。- 环境的安装:- pip install lxml- 如何实例化一个etree对象:from lxml import etree- 1.将本地的html文档中的源码数据加载到etree对象中:etree.parse(filePath)- 2.可以将从互联网上获取的源码数据加载到该对象中etree.HTML('page_text')- xpath('xpath表达式')- xpath表达式:- /:表示的是从根节点开始定位。表示的是一个层级。- //:表示的是多个层级。可以表示从任意位置开始定位。- 属性定位://div[@class='song'] tag[@attrName="attrValue"]- 索引定位://div[@class="song"]/p[3] 索引是从1开始的。- 取文本:- /text() 获取的是标签中直系的文本内容- //text() 标签中非直系的文本内容(所有的文本内容)- 取属性:/@attrName     ==>img/src

1.项目需求:xpath解析案例-4k图片解析爬取

import requests
from lxml import etree
import osif __name__ == '__main__':url = 'http://pic.netbian.com/4kmeishi/'# UA伪装:将对应的User-Agent封装到一个字典中headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.36'}response = requests.get(url=url,headers=headers)# 手动设定响应数据的编码格式# response.encoding = 'utf-8'page_text = response.text# 数据解析: src的属性值 alt的属性值tree = etree.HTML(page_text)li_list = tree.xpath('//div[@class="slist"]/ul/li')print(li_list)#创建一个文件夹if not os.path.exists('./picLibs'):os.mkdir('./picLibs')for li in li_list:img_src = 'http://pic.netbian.com/' + li.xpath('./a/img/@src')[0]img_name = li.xpath('./a/img/@alt')[0] + '.jpg'# 通用的处理中文乱码的解决方案img_name = img_name.encode('iso-8859-1').decode('gbk')# print(img_src + img_name)# 请求图片进行持久化存储img_data = requests.get(url=img_src,headers=headers).contentimg_path = 'picLibs/' + img_namewith open(img_path,'wb') as fp:fp.write(img_data)print(img_name,'下载成功!!!')

2.项目需求:xpath解析案例-全国城市名称爬取

import requests
from lxml import etreeif __name__ == '__main__':url = 'https://www.aqistudy.cn/historydata/'# UA伪装:将对应的User-Agent封装到一个字典中headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.36'}page_text = requests.get(url=url,headers=headers).texttree = etree.HTML(page_text)# 解析到热门城市和所有城市对应的a标签a_list = tree.xpath('//div[@class="bottom"]/ul/div[2]/li/a | //div[@class="bottom"]/ul/li/a')all_city_names = []for a in a_list:city_name = a.xpath('./text()')[0]all_city_names.append(city_name)print(all_city_names,len(all_city_names))

3.项目需求:批量爬取站长素材免费ppt并保存到本地


import time
import requests
from lxml import etree
import osif __name__ == '__main__':start = time.perf_counter()if not os.path.exists('./ppt'):os.mkdir('./ppt')headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.141 Safari/537.36',}url = 'https://sc.chinaz.com/ppt/free_1.html'response = requests.get(url=url,headers=headers)page_text = response.texttree = etree.HTML(page_text)num = 0urls = tree.xpath('//div[@id="vueWaterfall"]//a/@href')for url in urls:url = 'https://sc.chinaz.com/' + urlpage_text = requests.get(url=url,headers=headers).texttree = etree.HTML(page_text)download_url = tree.xpath('//div[@class="download-url"]/a[1]/@href')[0]print(download_url)response = requests.get(url=download_url,headers=headers).contentwith open('./ppt/' + download_url.split('/')[-1],'wb') as fp:fp.write(response)num = num + 1print('已经下载'+str(num)+'个模板!')print("爬取完成!")end = time.perf_counter()print('共耗时:', end - start, '秒')

数据解析学习笔记(正则解析、bs4解析、xpath解析)相关推荐

  1. 深入浅出图神经网络|GNN原理解析☄学习笔记(四)表示学习

    深入浅出图神经网络|GNN原理解析☄学习笔记(四)表示学习 文章目录 深入浅出图神经网络|GNN原理解析☄学习笔记(四)表示学习 表示学习 表示学习的意义 离散表示与分布式表示 端到端学习 基于重构损 ...

  2. 算法学习 (门徒计划)4-3 专项面试题解析 学习笔记

    算法学习 (门徒计划)4-3 专项面试题解析 学习笔记 前言 LeetCode 1367. 二叉树中的列表 解题思路 示例代码 LeetCode 958. 二叉树的完全性检验 解题思路 示例代码 Le ...

  3. React学习:路由定义及传参、数据复用-学习笔记

    文章目录 React学习:路由定义及传参.数据复用-学习笔记 在React中使用react-router-dom路由 简单例子 路由定义及传参 React学习:路由定义及传参.数据复用-学习笔记 在R ...

  4. 大数据业务学习笔记_学习业务成为一名出色的数据科学家

    大数据业务学习笔记 意见 (Opinion) A lot of aspiring Data Scientists think what they need to become a Data Scien ...

  5. redis基础命令和数据操作命令学习笔记

    redis基础命令和数据操作命令学习笔记 基础命令 安装成功后,redis的启动命令:先修改配置文件.将服务改成默认运行.然后以配置文件启动服务 redis-server config/redis-c ...

  6. python气象数据可视化学习笔记6——利用python地图库cnmaps绘制地图填色图并白化

    文章目录 1. 效果图 2. cnmaps简介及安装 2.1 写在前面 2.2 cnmaps简介和安装 3. 导入库 4. 定义绘图函数 4.1 使用get_adm_maps返回地图边界 4.2 ax ...

  7. 大数据HiveSQL学习笔记三-查询基础语法以及常用函数

    大数据HiveSQL学习笔记三-查询基础语法以及常用函数 一.基础语法 1.SELECT -列名- FROM -表名- WHERE -筛选条件- 如:需要根据城市,性别找出匹配的10个用户 user_ ...

  8. ECharts数据可视化学习笔记和应用

    ECharts数据可视化学习笔记和应用 一.概念 二.Echarts使用 使用步骤 三.Echarts-基础配置 四.柱状图图表1 五.柱状图图表2 六.折线图1 七.折线图2 八.饼状图1 九.饼形 ...

  9. deepstream学习笔记(三):deepstream-imagedata-multistream解析与接入适配yolov5模型测试

    引言 上一节重点介绍了gstreamer架构图与各部分组成原理说明,并且针对deepstream-test1介绍了它的整体功能和画出了管道图,本篇博文将详细介绍deepstream-imagedata ...

最新文章

  1. c语言 大数相加,c/c++开发分享C语言计算大数相加的方法
  2. 基于javafx的五子棋_JavaFX中基于表达式的PathTransitions
  3. android 录音原始文件_音频采集:Android基于AudioRecord的实现
  4. 晶体管游戏 linux,Industrial Linux
  5. hbuilderx的快捷键整理pdf_47个电脑快捷键大全,让你工作提升100倍,一般人我不告诉他...
  6. VS11中添加PagedList引用
  7. java应用安全设计_应用层安全架构设计-访问控制
  8. EasyRecovery如何恢复md文件
  9. jxl读数据库数据生成xls 并下载
  10. Unable to update index for central|http://repo1.maven.org/maven2
  11. 实心和空心哪个抗弯能力强_为什么轮胎不设计成实心的?不怕爆胎 480阅读
  12. Snagit 2020 Windows和macOS苹果版汉化版中文版汉化补丁Snagit中文网Snagit中文官网camsnag.com/snagit
  13. 王倩兮金碧山水作品《绿水青山就是金山银山》
  14. unity 刚体的运动 减速运动
  15. Leadtools Document教程:如何高效将数千个 PDF 文件拆分并转换为单页图像
  16. Python之模拟登录微博下载视频
  17. 学习《华为基本法》(13):市场营销
  18. matlab中匿名(Anonymous)函数及bsxfun函数
  19. labview 加密VI如何破解密码
  20. 高项.十大管理47个过程

热门文章

  1. 计算机二级access选择题技巧,计算机二级access考试注意事项及解题技巧策略
  2. python开发实践教程_Python开发实践教程
  3. smart gesture安装失败_WinCC flexible SMART V3 SP2安装步骤以及常见错误解决方法
  4. ci phpexcel mysql_PHPExcel导入数据到mysql数据库
  5. linux报网络设备繁忙,【分享】linux常用命令
  6. Java:抽象类笔记
  7. 没有理智的欲望会走向毁灭,没有欲望的理智会永守清贫
  8. 在VMware开启此虚拟机时出现内部错误
  9. 常量(const)和只读变量(readonly)
  10. Git 常用命令整理(持续更新)