不用正则也可匹配html语言,代替正则解析html的这个工具叫做Beautiful Soup(美味的汤?哈哈哈哈哈哈哈)

安装Beautiful Soup

Pip install Beautiful bs4

Beautiful Soup的功能-格式化处理

处理html字符串,用lxml解析html(lxml为第三方库,需要安装pip install lxml)

解析如下的格式

html_doc=""""

The Dormouse story

The Dormouse story

Once upon a time there are three little sisters;and their names were

Elsie,

Lacie and

Tillie ;

and they lived at the bottom of a well.

...

"""

我们可以看到格式比较混乱,使用Beautiful Soup把这个格式进行处理

html_doc=""""<html><head><title>The Dormouse storytitle>head><body><p class="title"><b>The Dormouse storyb>p>< p class ="story" >Once upon a time there are three little sisters;and their names were<a href ="http://example.com/elsie" class ="sister" id="link1">Elsiea>,< a href = "http://example.com/lacie"class ="sister" id="link1" > Lacie < / a > and< a href = "http://example.com/tillie"class ="sister" id="link1" > Tillie < / a >;and they lived at the bottom of a well.< / p ><p class ="story">...p>"""from bs4 import BeautifulSoupsoup =BeautifulSoup(html_doc,'lxml')#lxml也是第三方库print(soup.prettify())

输出的格式就为标准的html格式

总结

通过查看源代码,数据比较混乱的时候,这个工具进行格式化处理

Beautiful Soup的功能-基本用法

Beautiful Soup的功能-基本用法html_doc=""""The Dormouse story</title>>

"title"

>< p class ="story" >Once upon a time there are three little sisters;and their names were"http://example.com/elsie" class =Lacie andTillie;and they lived at the bottom of a well.

...

"""from bs4 import BeautifulSoupsoup =BeautifulSoup(html_doc,'lxml')#lxml也是第三方库print(soup.prettify())#找到title标签print(soup.title)#找到title标签里的内容print(soup.title.string)#找到P标签print(soup.p)# 找到P标签class的名字# print(soup.p['class'])# 找到第一个a标签print(soup.a)# 找到所有a标签print(soup.find_all('a'))# 找到id为link3的标签print(soup.find(id="link3"))# 找到所有标签的链接for link in soup.find_all('a'): print(link.get('href'))# 找到文档中所有的文本内容print(soup.get_text())

Q&A

Lmxl和bs4的区别?

lxml 和bs4 本来就不是对等的关系, lxml是使用xml语法解析网页,如果实现内容提取要用到xpath, bs4默认是html解析,提取内容要用到bs4的内置函数

如果要给他们定义一下场景的话, lxml更像是引擎 ,bs4是引擎+工具,趋向简单可以使用bs4工具 ,趋向高性能可以使用bs4+lxml,相当于给bs4换了发动机, 趋向专业和高效可以使用 lxml+xpath

12月的第一天

2020年的最后一个月

2020年对于每一个人来说

都是有故事的一年

这个故事里面

有很多很多的情感交织

我有

你有吗

lxml安装_Beautiful Soup的安装和使用相关推荐

  1. 【Python3网络爬虫开发实战】1.3.2-Beautiful Soup的安装

    Beautiful Soup是Python的一个HTML或XML的解析库,我们可以用它来方便地从网页中提取数据.它拥有强大的API和多样的解析方式,本节就来了解下它的安装方式. 1. 相关链接 官方文 ...

  2. python2.7怎么下载安装_Windows平台下python2.7如何安装Beautiful Soup

    Beautiful Soup是一个Python的一个库,主要为一些短周期项目比如屏幕抓取而设计.有三个特性使得它非常强大: 1.Beautiful Soup提供了一些简单的方法和Python术语,用于 ...

  3. python3.6爬虫环境安装要多少内存_Python3爬虫环境配置——解析库安装(附tesserocr安装方法)...

    Python3爬虫环境配置--解析库安装(附tesserocr安装方法) 抓取网页代码后,第二步就是提取信息,为了方便程序设计,这里不采用繁琐的正则提取,利用社区里强大的Python解析库,如lxml ...

  4. python怎么安装各种模块_Python2.7安装和常用模块安装

    a.傻瓜安装下一步就行 b.把python.exe所在目录就是安装python路径和Scripts文件夹路径即F:\Python\Scripts添加到环境变量中 使用cmd命令easy_install ...

  5. anaconda安装scrapy_Scrapy框架的安装

    说起爬虫很多人立刻就会想起bs4.xpath.requests之类的 虽然说爬取普通网站用上边的组合足够了,但是如果不进阶永远不会知道该领域的广阔. 下边就介绍一下Scrapy爬虫框架的安装. 之后慢 ...

  6. python3.5安装scrapy_Python3.5下安装测试Scrapy

    1.引言 Scrapy框架结构清晰,基于twisted的异步架构可以充分利用计算机资源,是做爬虫必备基础,本文将对Scrapy的安装作介绍. 2.安装lxml 2.1  下载地址:https://ww ...

  7. mac安装mysql workbench_MAC上安装mysql及workbench

    下载mysql for mac    https://dev.mysql.com/downloads/installer/ 官网下载很慢---百度云:链接: https://pan.baidu.com ...

  8. python安装docx模块_安装Python的docx模块

    安装Python的docx模块 在执行进行自动化测试的时候,很多时候我们其实不会一直关注这个测试的,很多时候我们只需要关注一个结果,与我们的预期是否相互符合就可以了. 所以我们只需要把预期结果,和实际 ...

  9. centos mysql安装_mysql yum源安装

    部署服务器环境的时候经常要安装mysql,以下是常见的安装方式 源码安装 rpm包安装 yum源安装 这篇主要介绍yum源安装. yum源下载 进入 https://dev.mysql.com/dow ...

最新文章

  1. .net core EFcore model生成数据
  2. flowable设计器节点属性扩展_Flowable-流程定义扩展属性
  3. 将SQL-SERVER逆向工程导入Power-Design中并给表的字段添加注释
  4. 使用Task简化Silverlight调用Wcf
  5. 写个自己:学C++有感
  6. Unity如何设置两个玩家
  7. 深度学习自学(三十一):基于变分期望最大化深度学习的非盲噪声图像去模糊
  8. mysql backup user_mysql备份常见命令
  9. 迅为-4418开发板-驱动-PWM输出实验
  10. Https网址在线安全检测网站
  11. 计算机软件选修课选什么好,互联网行业,软件工程专业学什么?
  12. Redis-有序集合(Zset)数据结构
  13. SQL Server安装总是缺少msi等文件,出现错误1612、1706等解决办法
  14. java 雷霆战机 教程,java swing实现简单的雷霆战机小游戏项目源码附带视频指导修改教程...
  15. selenium的安装和下载谷歌浏览器镜像驱动
  16. 7-5 修理牧场 (25 分)
  17. ecg 幅度_ECG信号分析流程
  18. Misc,院赛:两道签到、忘记密码
  19. 权威机构统计:2021 年最佳数据中心网络公司,中国华为和H3C上榜
  20. R语言偏相关和典型相关

热门文章

  1. 目标检测比赛中的tricks集锦
  2. 又一所双一流大学明确:发表论文数量不再作为博士毕业的限制性条件
  3. 靠Python数据分析已赚10w的本科生,附赠学习资料
  4. 网易是世界最好的公司
  5. 美多商城之支付(评价订单商品)
  6. K-近邻算法之案例2:预测facebook签到位置
  7. Java基础。public,private,static变量!以及一个实例化的小例子 以及方法
  8. 利用CNN来检测伪造图像
  9. 使用 NumPy 的标准化技巧
  10. EasyTransaction 1.3.0 发布,一站式分布式事务解决方案