一. bs4的使用

1.html页面解析的方法

"""
1）正则表达式     -   出神入画的正则；不懂前端(re)
2）通过css选择器选中标签  -   熟悉css选择器；熟悉jQuery(bs4,pyQuery)
3）通过xpath获取标签   -   熟悉html结构和标签(lxml)
"""

from bs4 import BeautifulSoup
import requests
# 准备数据
def get_data():with open('files/安居客.html', encoding='utf-8') as f:return f.read()

2.bs4的使用
1）根据网页内容创建解析器对象

# BeautifulSoup(网页内容, 解析器类型)
# 网页内容  -   html格式的字符串；一般是通过requests或者selenium获取页面数据
# bs4有网页纠错功能soup = BeautifulSoup(get_data(), 'lxml')

2）根据css选择器获取标签

"""
bs对象.select(css选择器) -   获取选择器选中的标签
bs对象.select_one(css选择器) -   获取选择器中的第一个标签
"""
houses_name_els = soup.select('.items-name')
print(houses_name_els)houses_details = soup.select('.favor-pos')

3）根据属性和内容获取标签

# a.标签内容
# 标签对象.string   -   若有子标签则返回None
# 标签对象.get_text()   -   将子标签中的内容与需要取的标签内容一起取到并拼接成一个字符串
# 标签对象.contents -   如果有其中有子标签会将子标签一起取到（返回的是列表）for item in houses_name_els:print(item.string)   # None# print(item.get_text())   # 新都多弗成都奥特莱斯# print(item.contents)   # [<span>新都</span>, '多弗成都奥特莱斯']

# b.标签属性值
# 标签对象.attrs[属性名]
for x in houses_details:print(x.attrs['href'])

# 练习:获取价格和图片
print('=============================')
prices = soup.select('.price')
for x in prices:print(x.get_text())imgs = soup.select('.pic > img')
for x in imgs:print(x.attrs['src'])

# 4）获取标签内容和属性
# a.find_all(attrs={属性1:属性值1, 属性2:属性值2,...})  -  获取指定属性是指定值的所有标签
houses_price = soup.find_all(attrs={'class': 'price'})
for x in houses_price:print(x.get_text())

二. bs4的应用

from bs4 import BeautifulSoup# 准备数据
def get_data():with open('files/安居客.html', encoding='utf-8') as f:return f.read()def analysis_data(data):soup = BeautifulSoup(data, 'lxml')# 获取所有楼盘对应的divhouse_boxs = soup.select('.list-results .item-mod')all_house = []for h_div in house_boxs:name_tag = h_div.select_one('.items-name')price_tag = h_div.select_one('.price')pic_tag = h_div.select_one('.pic>img')house = {'name': name_tag.get_text() if name_tag else None,'price': price_tag.get_text() if price_tag else None,'pic_url': pic_tag.attrs['src'] if pic_tag else None}all_house.append(house)print(all_house)if __name__ == '__main__':analysis_data(get_data())

三. pyQuery的使用

from pyquery import PyQuery
# 准备数据
def get_data():with open('files/安居客.html', encoding='utf-8') as f:return f.read()

1.创建PyQuery对象

# PyQuery(html格式的字符串)
# doc指向html标签
doc = PyQuery(get_data())

2.获取标签

# PyQuery对象(css选择器)     -   选中css选择器选中的标签，返回PyQuery对象
names = doc('.items-name')
print(names)

3.获取标签内容

# PyQuery对象.text()
# 直接操作PyQuery对象会直接作用于这个对象中所有的标签
print(names.text())# 遍历PyQuery对象得到的是这个容器中的每个标签
for x in names:# x  -  标签# PyQuery(x)  -  标签对应的jQuery对象print(x, PyQuery(x).text())

4.获取标签属性

# 1）value属性
# PyQuery对象.val()# 2）普通属性
# PyQuery对象.attr(属性名)
result = doc('.pic>img')
for x in result:print(PyQuery(x).attr('src'))

四. pyQuery的应用

from pyquery import PyQuery# 准备数据
def get_data():with open('files/安居客.html', encoding='utf-8') as f:return f.read()def analysis_data(data):doc = PyQuery(data)all_hous_tag = doc('.key-list.imglazyload>.item-mod')for x in all_hous_tag:pq_x = PyQuery(x)name = pq_x('.items-name').text()area = pq_x('.building-area').text()price = pq_x('.price').text()title = pq_x('.group-mark.soj').text()house = {'name': name,'area': area,'price': price,'title': title}print(house)if __name__ == '__main__':analysis_data(get_data())

小白学习爬虫的第三天之数据解析bs4与pyQuery的使用相关推荐

Python爬虫初学三（网络数据解析）
目录 1.学习正则表达式的原因 2.什么是正则表达式 3.正则表达式匹配规则 4.正则实现步骤 5.Pattern 对象 6.正则模块常量 7.Match 对象 8.search 9.findall和 ...
第三章：数据解析---聚焦爬虫
文章目录第三章:数据解析---聚焦爬虫注:本页示例所用的test.html文档一.编码流程二.数据解析分类三.数据解析原理概述四.bs4要点 1.bs4数据解析原理: 2.相关属性: 五. ...
python爬虫实战之旅（第三章：数据解析（xpath法））
上接:第三章:数据解析(bs4法) 下接:第四章:验证码识别 1.xpath解析简介最常用且最便捷高效的一种解析方式.通用性很好 xpath解析原理实例化一个etree的对象,且需要将被解析的页面 ...
python爬虫实战之旅（第三章：数据解析（bs4法））
上接:第三章:数据解析(正则法) 下接:第三章:数据解析(xpath法) 1.数据解析步骤标签定位提取标签,标签属性中存储的数据值 2.bs4数据解析的原理实例化一个BeautifulSoup对 ...
数据清洗的基本流程_数据分析小白学习之路（三）——Excel多练熟能生巧
谈到数据分析,我们可能第一时间想到python.SQL.Tableau.帆软.R等,但是这些软件.语言要入门掌握.系统学习起来耗时较长.这时候不得不提到excel这个"平平无奇数分小能手&q ...
excel取整函数_数据分析小白学习之路（三）——Excel多练熟能生巧
谈到数据分析,我们可能第一时间想到python.SQL.Tableau.帆软.R等,但是这些软件.语言要入门掌握.系统学习起来耗时较长.这时候不得不提到excel这个"平平无奇数分小能手&q ...
Unity网络（三）-服务器数据解析
正所谓:网络姻缘一线牵,Json与XML来相伴. 欢迎关注公众号:雷潮课堂服务器数据解析一.服务器返回的数据格式 1-1为什么要学会数据解析 1-2服务器返回的数据二.Json 2-1什么是Js ...
2 爬虫数据解析(bs4，XPath) robots协议 cookie反爬代理反爬
爬虫 1 数据解析 1.1 介绍 1.1.1 概念即作用数据解析就是将一组数据中的局部数据进行提取,用于实现聚焦爬虫. 聚焦爬虫是建立在通用爬虫的基础上,从通用爬虫获取的整个源码数据中提取出指定的数 ...
【小白学习PyTorch教程】三、Pytorch中的NN模块并实现第一个神经网络模型
「@Author:Runsen」在PyTorch建立模型,主要是NN模块. nn.Linear nn.Linear是创建一个线性层.这里需要将输入和输出维度作为参数传递. linear = nn.L ...

小白学习爬虫的第三天之数据解析bs4与pyQuery的使用

一. bs4的使用

二. bs4的应用

三. pyQuery的使用

四. pyQuery的应用

小白学习爬虫的第三天之数据解析bs4与pyQuery的使用相关推荐

最新文章

热门文章