lxml安装_Beautiful Soup的安装和使用

不用正则也可匹配html语言，代替正则解析html的这个工具叫做Beautiful Soup(美味的汤?哈哈哈哈哈哈哈)

安装Beautiful Soup

Pip install Beautiful bs4

Beautiful Soup的功能-格式化处理

处理html字符串，用lxml解析html(lxml为第三方库，需要安装pip install lxml)

解析如下的格式

html_doc=""""

The Dormouse story

The Dormouse story

Once upon a time there are three little sisters;and their names were

Elsie,

Lacie and

Tillie ;

and they lived at the bottom of a well.

...

"""

我们可以看到格式比较混乱，使用Beautiful Soup把这个格式进行处理

html_doc=""""<html><head><title>The Dormouse storytitle>head><body><p class="title"><b>The Dormouse storyb>p>< p class ="story" >Once upon a time there are three little sisters;and their names were<a href ="http://example.com/elsie" class ="sister" id="link1">Elsiea>,< a href = "http://example.com/lacie"class ="sister" id="link1" > Lacie < / a > and< a href = "http://example.com/tillie"class ="sister" id="link1" > Tillie < / a >;and they lived at the bottom of a well.< / p ><p class ="story">...p>"""from bs4 import BeautifulSoupsoup =BeautifulSoup(html_doc,'lxml')#lxml也是第三方库print(soup.prettify())

输出的格式就为标准的html格式

总结

通过查看源代码，数据比较混乱的时候，这个工具进行格式化处理

Beautiful Soup的功能-基本用法

Beautiful Soup的功能-基本用法html_doc=""""The Dormouse story</title>>

"title"

>< p class ="story" >Once upon a time there are three little sisters;and their names were"http://example.com/elsie" class =Lacie andTillie;and they lived at the bottom of a well.

...

"""from bs4 import BeautifulSoupsoup =BeautifulSoup(html_doc,'lxml')#lxml也是第三方库print(soup.prettify())#找到title标签print(soup.title)#找到title标签里的内容print(soup.title.string)#找到P标签print(soup.p)# 找到P标签class的名字# print(soup.p['class'])# 找到第一个a标签print(soup.a)# 找到所有a标签print(soup.find_all('a'))# 找到id为link3的标签print(soup.find(id="link3"))# 找到所有标签的链接for link in soup.find_all('a'): print(link.get('href'))# 找到文档中所有的文本内容print(soup.get_text())

Q&A

Lmxl和bs4的区别？

lxml 和bs4 本来就不是对等的关系， lxml是使用xml语法解析网页，如果实现内容提取要用到xpath， bs4默认是html解析，提取内容要用到bs4的内置函数

如果要给他们定义一下场景的话， lxml更像是引擎，bs4是引擎+工具，趋向简单可以使用bs4工具，趋向高性能可以使用bs4+lxml，相当于给bs4换了发动机，趋向专业和高效可以使用 lxml+xpath

12月的第一天

2020年的最后一个月

2020年对于每一个人来说

都是有故事的一年

这个故事里面

有很多很多的情感交织

我有

你有吗

lxml安装_Beautiful Soup的安装和使用相关推荐

【Python3网络爬虫开发实战】1.3.2-Beautiful Soup的安装
Beautiful Soup是Python的一个HTML或XML的解析库,我们可以用它来方便地从网页中提取数据.它拥有强大的API和多样的解析方式,本节就来了解下它的安装方式. 1. 相关链接官方文 ...
python2.7怎么下载安装_Windows平台下python2.7如何安装Beautiful Soup
Beautiful Soup是一个Python的一个库,主要为一些短周期项目比如屏幕抓取而设计.有三个特性使得它非常强大: 1.Beautiful Soup提供了一些简单的方法和Python术语,用于 ...
python3.6爬虫环境安装要多少内存_Python3爬虫环境配置——解析库安装（附tesserocr安装方法）...
Python3爬虫环境配置--解析库安装(附tesserocr安装方法) 抓取网页代码后,第二步就是提取信息,为了方便程序设计,这里不采用繁琐的正则提取,利用社区里强大的Python解析库,如lxml ...
python怎么安装各种模块_Python2.7安装和常用模块安装
a.傻瓜安装下一步就行 b.把python.exe所在目录就是安装python路径和Scripts文件夹路径即F:\Python\Scripts添加到环境变量中使用cmd命令easy_install ...
anaconda安装scrapy_Scrapy框架的安装
说起爬虫很多人立刻就会想起bs4.xpath.requests之类的虽然说爬取普通网站用上边的组合足够了,但是如果不进阶永远不会知道该领域的广阔. 下边就介绍一下Scrapy爬虫框架的安装. 之后慢 ...
python3.5安装scrapy_Python3.5下安装测试Scrapy
1.引言 Scrapy框架结构清晰,基于twisted的异步架构可以充分利用计算机资源,是做爬虫必备基础,本文将对Scrapy的安装作介绍. 2.安装lxml 2.1 下载地址:https://ww ...
mac安装mysql workbench_MAC上安装mysql及workbench
下载mysql for mac https://dev.mysql.com/downloads/installer/ 官网下载很慢---百度云:链接: https://pan.baidu.com ...
python安装docx模块_安装Python的docx模块
安装Python的docx模块在执行进行自动化测试的时候,很多时候我们其实不会一直关注这个测试的,很多时候我们只需要关注一个结果,与我们的预期是否相互符合就可以了. 所以我们只需要把预期结果,和实际 ...
centos mysql安装_mysql yum源安装
部署服务器环境的时候经常要安装mysql,以下是常见的安装方式源码安装 rpm包安装 yum源安装这篇主要介绍yum源安装. yum源下载进入 https://dev.mysql.com/dow ...

lxml安装_Beautiful Soup的安装和使用

lxml安装_Beautiful Soup的安装和使用相关推荐

最新文章

热门文章