bs4 python独有可以将html文档转成bs对象，可以直接调用bs对象的属性进行解析

安装

pip install bs4

本地html Beautiful(“open(‘路径’)”,‘lxml’)
网络html Beautiful(‘网络数据’, ‘lxml’)

常用属性和方法

class_='class避免系统冲突加 _'!!!

from bs4 import BeautifulSoupfp = open('本地.html')
soup = BeautifulSoup(fp, 'lxml')# 标签名查找
print(soup.div)  # 只能找到第一个# 获取标签的属性
print(soup.a.atters)  # 取a标签的所有属性
print(soup.a.atters['href'])  # 取a标签的href属性值# 取内容
print(soup.p.string)  # 取当前标签的文本内容
print(soup.p.text)  # 标签下所有子文本内容
print(soup.p.get_text)# find查找符合要求的第一个标签!
print(soup.find('a', class_='class避免系统冲突加 _'))
print(soup.find('a', id='XX'))# find_all 同find 返回列表
print(soup.find_All('a'))
print(soup.find_All('a', limit=2))  # 只取前两个# 选择器 >表示下面一级
print(soup.select('div > img')[0])  # div下直系img标签
print(soup.select('div img')[0])  # 空格可以表示多个层级

bs4爬小说网指定小说标题及内容

from bs4 import BeautifulSoup
import requestsurl = 'http://www.shicimingju.com/book/sanguoyanyi.html'headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36',
}def get_content(get_url):"""获取章节内容"""content_data = requests.get(url=get_url, headers=headers).textsoup_content = BeautifulSoup(content_data, 'lxml')div = soup_content.find('div', class_='chapter_content')con = div.textreturn condata = requests.get(url=url, headers=headers).text
soup = BeautifulSoup(data, 'lxml')# 取到 a标签对象()对象还可以继续调用 包含章节名和链接
a_list = soup.select('.book-mulu > ul > li > a')with open('./三国演义.txt', 'w', encoding='utf-8') as f:for a in a_list:title = a.stringcontent_url = a.attrs['href']  # 取a中的href属性content_url = 'http://www.shicimingju.com' + content_urlcontent = get_content(content_url)f.write(title+':'+content+'\n\n\n\n')

python爬虫三大解析数据方法：bs4 及爬小说网案例相关推荐

python爬虫beautifulsoup_python爬虫beautifulsoup解析html方法
用BeautifulSoup 解析html和xml字符串实例: #!/usr/bin/python # -*- coding: UTF-8 -*- from bs4 import Beautiful ...
python爬虫excel数据_最简单的爬数据方法：Excel爬取数据，仅需6步
原标题:最简单的爬数据方法:Excel爬取数据,仅需6步在看到这篇文章的时候,大家是不是都还停留在对python爬虫的迷恋中,今天就来教大家怎样使用微软的Excel爬取一个网页的后台数据,注:此方法 ...
Python爬虫学习之数据提取(Beautiful Soup)
Python爬虫学习之数据提取Beautiful Soup 前期回顾概述解析器准备工作实例节点选择器方法选择器 find_all find 总结前期回顾 Python爬虫学习之reque ...
硬核来袭！！！一篇文章教你入门Python爬虫网页解析神器——BeautifulSoup详细讲解
文章目录一.BeautifulSoup介绍二.安装三.bs4数据解析的原理四.bs4 常用的方法和属性 1.BeautifulSoup构建 1.1 通过字符串构建 1.2 从文件加载 2.Be ...
[Python爬虫] 三、数据抓取之Requests HTTP 库
往期内容提要: [Python爬虫] 一.爬虫原理之HTTP和HTTPS的请求与响应 [Python爬虫] 二.爬虫原理之定义.分类.流程与编码格式一.urllib 模块所谓网页抓取,就是把URL ...
python爬虫之股票数据定向爬取
python爬虫之股票数据定向爬取功能描述目标:获取上交所和深交所所有股票的名称和交易的信息输出:保存到文件中技术路线:requests-bs4-re 前期分析选取原则:股票的信息静态存在H ...
Python爬虫学习之数据提取(XPath)
Python爬虫学习之数据提取XPath 概述常用规则运算符及介绍准备工作实例文本获取属性获取属性值匹配属性多值匹配多属性匹配按序选择概述 XPath的全称是XML Path L ...
[Python爬虫] 六、数据提取之XPath与lxml类库
往期内容提要: [Python爬虫] 一.爬虫原理之HTTP和HTTPS的请求与响应 [Python爬虫] 二.爬虫原理之定义.分类.流程与编码格式 [Python爬虫] 三.数据抓取之Request ...
python爬虫正则表达式实例-python爬虫正则表达式解析
这篇文章主要介绍了python爬虫正则表达式解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 - re.I # 忽略大小写 - re.M # 多 ...

python爬虫三大解析数据方法：bs4 及爬小说网案例

安装

常用属性和方法

bs4爬小说网指定小说标题及内容

python爬虫三大解析数据方法：bs4 及爬小说网案例相关推荐

最新文章

热门文章