bs4 python独有可以将html文档转成bs对象,可以直接调用bs对象的属性进行解析

安装

pip install bs4

  • 本地html Beautiful(“open(‘路径’)”,‘lxml’)
  • 网络html Beautiful(‘网络数据’, ‘lxml’)

常用属性和方法

class_='class避免系统冲突加 _'!!!

from bs4 import BeautifulSoupfp = open('本地.html')
soup = BeautifulSoup(fp, 'lxml')# 标签名查找
print(soup.div)  # 只能找到第一个# 获取标签的属性
print(soup.a.atters)  # 取a标签的所有属性
print(soup.a.atters['href'])  # 取a标签的href属性值# 取内容
print(soup.p.string)  # 取当前标签的文本内容
print(soup.p.text)  # 标签下所有子文本内容
print(soup.p.get_text)# find查找符合要求的第一个标签!
print(soup.find('a', class_='class避免系统冲突加 _'))
print(soup.find('a', id='XX'))# find_all 同find 返回列表
print(soup.find_All('a'))
print(soup.find_All('a', limit=2))  # 只取前两个# 选择器 >表示下面一级
print(soup.select('div > img')[0])  # div下直系img标签
print(soup.select('div img')[0])  # 空格可以表示多个层级

bs4爬小说网指定小说标题及内容

from bs4 import BeautifulSoup
import requestsurl = 'http://www.shicimingju.com/book/sanguoyanyi.html'headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36',
}def get_content(get_url):"""获取章节内容"""content_data = requests.get(url=get_url, headers=headers).textsoup_content = BeautifulSoup(content_data, 'lxml')div = soup_content.find('div', class_='chapter_content')con = div.textreturn condata = requests.get(url=url, headers=headers).text
soup = BeautifulSoup(data, 'lxml')# 取到 a标签对象()对象还可以继续调用 包含章节名和链接
a_list = soup.select('.book-mulu > ul > li > a')with open('./三国演义.txt', 'w', encoding='utf-8') as f:for a in a_list:title = a.stringcontent_url = a.attrs['href']  # 取a中的href属性content_url = 'http://www.shicimingju.com' + content_urlcontent = get_content(content_url)f.write(title+':'+content+'\n\n\n\n')

python爬虫三大解析数据方法:bs4 及爬小说网案例相关推荐

  1. python爬虫beautifulsoup_python爬虫beautifulsoup解析html方法

    用BeautifulSoup 解析html和xml字符串 实例: #!/usr/bin/python # -*- coding: UTF-8 -*- from bs4 import Beautiful ...

  2. python爬虫excel数据_最简单的爬数据方法:Excel爬取数据,仅需6步

    原标题:最简单的爬数据方法:Excel爬取数据,仅需6步 在看到这篇文章的时候,大家是不是都还停留在对python爬虫的迷恋中,今天就来教大家怎样使用微软的Excel爬取一个网页的后台数据,注:此方法 ...

  3. Python爬虫学习之数据提取(Beautiful Soup)

    Python爬虫学习之数据提取Beautiful Soup 前期回顾 概述 解析器 准备工作 实例 节点选择器 方法选择器 find_all find 总结 前期回顾 Python爬虫学习之reque ...

  4. 硬核来袭!!!一篇文章教你入门Python爬虫网页解析神器——BeautifulSoup详细讲解

    文章目录 一.BeautifulSoup介绍 二.安装 三.bs4数据解析的原理 四.bs4 常用的方法和属性 1.BeautifulSoup构建 1.1 通过字符串构建 1.2 从文件加载 2.Be ...

  5. [Python爬虫] 三、数据抓取之Requests HTTP 库

    往期内容提要: [Python爬虫] 一.爬虫原理之HTTP和HTTPS的请求与响应 [Python爬虫] 二.爬虫原理之定义.分类.流程与编码格式 一.urllib 模块 所谓网页抓取,就是把URL ...

  6. python爬虫之股票数据定向爬取

    python爬虫之股票数据定向爬取 功能描述 目标:获取上交所和深交所所有股票的名称和交易的信息 输出:保存到文件中 技术路线:requests-bs4-re 前期分析 选取原则:股票的信息静态存在H ...

  7. Python爬虫学习之数据提取(XPath)

    Python爬虫学习之数据提取XPath 概述 常用规则 运算符及介绍 准备工作 实例 文本获取 属性获取 属性值匹配 属性多值匹配 多属性匹配 按序选择 概述 XPath的全称是XML Path L ...

  8. [Python爬虫] 六、数据提取之XPath与lxml类库

    往期内容提要: [Python爬虫] 一.爬虫原理之HTTP和HTTPS的请求与响应 [Python爬虫] 二.爬虫原理之定义.分类.流程与编码格式 [Python爬虫] 三.数据抓取之Request ...

  9. python爬虫正则表达式实例-python爬虫 正则表达式解析

    这篇文章主要介绍了python爬虫 正则表达式解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 - re.I # 忽略大小写 - re.M # 多 ...

最新文章

  1. bootstrap 横铺 行_Bootstrap 排版
  2. checkboxlist 数据库连接代码
  3. JVM调优实战:G1中的to-space exhausted问题
  4. 比特币早期投资家:没有人能够阻止其发展 TechWeb 09-27 09:10 凤凰科技讯 据CNBC网站北京时间9月27日报道,风险投资家、“Social+Capital”基金创始人Chamath
  5. Pv4、IPv6 、域名 正则表达式
  6. redis sentinel 主从切换(failover)解决方案,详细配置
  7. Codeforces 920E-Connected Components? (set,补图,连通块)
  8. css3中的BFC,IFC,GFC和FFC(转载)
  9. 计算机 注册表 远程桌面,仅允许运行使用网络级别身份验证的远程桌面计算机连接失败处理方法(远程桌面连接)...
  10. hp服务器装xp系统,教你惠普笔记本一键装xp系统的方法
  11. 如何下载HLS视频到本地(m3u8)
  12. java初级学习04
  13. php stripcslashes 转义,stripcslashes()
  14. 理解 position:relative 与 position:absolute
  15. ATTCK实战系列一(内网渗透入门)
  16. 学习数据库(1)——初始数据库
  17. xy苹果助手未受信任_经过苹果企业签名的应用该如何安装
  18. 笔记本突然不能连接无线网解决办法
  19. 知名卸载软件Revo Uninstaller Pro挑战Deep Freeze卸载动画视频教程
  20. C++核心准则边译边学-I.6 表达前提条件最好使用Expects()

热门文章

  1. 人工智能未来的发展趋势
  2. python pytest测试框架(一)
  3. 图像Resize方式对深度学习模型效果的影响
  4. Logistic Regression(1)
  5. 字符串分割split()方法:将一个字符串通过指定的分隔符分割成若干子串
  6. 如何实现bilibili最新头部景深效果~炫酷
  7. 线性相关与线性无关的定义与性质
  8. 跨市场套利——策略简介与风险因素
  9. 经典乱码“烫烫烫”和“屯屯屯”
  10. coda 创建和删除虚拟环境