lxml安装_Beautiful Soup的安装和使用
不用正则也可匹配html语言,代替正则解析html的这个工具叫做Beautiful Soup(美味的汤?哈哈哈哈哈哈哈)
安装Beautiful Soup
Pip install Beautiful bs4
Beautiful Soup的功能-格式化处理
处理html字符串,用lxml解析html(lxml为第三方库,需要安装pip install lxml)
解析如下的格式
html_doc=""""
The Dormouse story
The Dormouse story
Once upon a time there are three little sisters;and their names were
Elsie,
Lacie and
Tillie ;
and they lived at the bottom of a well.
...
"""
我们可以看到格式比较混乱,使用Beautiful Soup把这个格式进行处理
html_doc=""""<html><head><title>The Dormouse storytitle>head><body><p class="title"><b>The Dormouse storyb>p>< p class ="story" >Once upon a time there are three little sisters;and their names were<a href ="http://example.com/elsie" class ="sister" id="link1">Elsiea>,< a href = "http://example.com/lacie"class ="sister" id="link1" > Lacie < / a > and< a href = "http://example.com/tillie"class ="sister" id="link1" > Tillie < / a >;and they lived at the bottom of a well.< / p ><p class ="story">...p>"""from bs4 import BeautifulSoupsoup =BeautifulSoup(html_doc,'lxml')#lxml也是第三方库print(soup.prettify())
输出的格式就为标准的html格式
总结
通过查看源代码,数据比较混乱的时候,这个工具进行格式化处理
Beautiful Soup的功能-基本用法
Beautiful Soup的功能-基本用法html_doc=""""The Dormouse story</title>>
"title"
>< p class ="story" >Once upon a time there are three little sisters;and their names were"http://example.com/elsie" class =Lacie andTillie;and they lived at the bottom of a well.
...
"""from bs4 import BeautifulSoupsoup =BeautifulSoup(html_doc,'lxml')#lxml也是第三方库print(soup.prettify())#找到title标签print(soup.title)#找到title标签里的内容print(soup.title.string)#找到P标签print(soup.p)# 找到P标签class的名字# print(soup.p['class'])# 找到第一个a标签print(soup.a)# 找到所有a标签print(soup.find_all('a'))# 找到id为link3的标签print(soup.find(id="link3"))# 找到所有标签的链接for link in soup.find_all('a'): print(link.get('href'))# 找到文档中所有的文本内容print(soup.get_text())
Q&A
Lmxl和bs4的区别?
lxml 和bs4 本来就不是对等的关系, lxml是使用xml语法解析网页,如果实现内容提取要用到xpath, bs4默认是html解析,提取内容要用到bs4的内置函数
如果要给他们定义一下场景的话, lxml更像是引擎 ,bs4是引擎+工具,趋向简单可以使用bs4工具 ,趋向高性能可以使用bs4+lxml,相当于给bs4换了发动机, 趋向专业和高效可以使用 lxml+xpath
12月的第一天
2020年的最后一个月
2020年对于每一个人来说
都是有故事的一年
这个故事里面
有很多很多的情感交织
我有
你有吗
lxml安装_Beautiful Soup的安装和使用相关推荐
- 【Python3网络爬虫开发实战】1.3.2-Beautiful Soup的安装
Beautiful Soup是Python的一个HTML或XML的解析库,我们可以用它来方便地从网页中提取数据.它拥有强大的API和多样的解析方式,本节就来了解下它的安装方式. 1. 相关链接 官方文 ...
- python2.7怎么下载安装_Windows平台下python2.7如何安装Beautiful Soup
Beautiful Soup是一个Python的一个库,主要为一些短周期项目比如屏幕抓取而设计.有三个特性使得它非常强大: 1.Beautiful Soup提供了一些简单的方法和Python术语,用于 ...
- python3.6爬虫环境安装要多少内存_Python3爬虫环境配置——解析库安装(附tesserocr安装方法)...
Python3爬虫环境配置--解析库安装(附tesserocr安装方法) 抓取网页代码后,第二步就是提取信息,为了方便程序设计,这里不采用繁琐的正则提取,利用社区里强大的Python解析库,如lxml ...
- python怎么安装各种模块_Python2.7安装和常用模块安装
a.傻瓜安装下一步就行 b.把python.exe所在目录就是安装python路径和Scripts文件夹路径即F:\Python\Scripts添加到环境变量中 使用cmd命令easy_install ...
- anaconda安装scrapy_Scrapy框架的安装
说起爬虫很多人立刻就会想起bs4.xpath.requests之类的 虽然说爬取普通网站用上边的组合足够了,但是如果不进阶永远不会知道该领域的广阔. 下边就介绍一下Scrapy爬虫框架的安装. 之后慢 ...
- python3.5安装scrapy_Python3.5下安装测试Scrapy
1.引言 Scrapy框架结构清晰,基于twisted的异步架构可以充分利用计算机资源,是做爬虫必备基础,本文将对Scrapy的安装作介绍. 2.安装lxml 2.1 下载地址:https://ww ...
- mac安装mysql workbench_MAC上安装mysql及workbench
下载mysql for mac https://dev.mysql.com/downloads/installer/ 官网下载很慢---百度云:链接: https://pan.baidu.com ...
- python安装docx模块_安装Python的docx模块
安装Python的docx模块 在执行进行自动化测试的时候,很多时候我们其实不会一直关注这个测试的,很多时候我们只需要关注一个结果,与我们的预期是否相互符合就可以了. 所以我们只需要把预期结果,和实际 ...
- centos mysql安装_mysql yum源安装
部署服务器环境的时候经常要安装mysql,以下是常见的安装方式 源码安装 rpm包安装 yum源安装 这篇主要介绍yum源安装. yum源下载 进入 https://dev.mysql.com/dow ...
最新文章
- .net core EFcore model生成数据
- flowable设计器节点属性扩展_Flowable-流程定义扩展属性
- 将SQL-SERVER逆向工程导入Power-Design中并给表的字段添加注释
- 使用Task简化Silverlight调用Wcf
- 写个自己:学C++有感
- Unity如何设置两个玩家
- 深度学习自学(三十一):基于变分期望最大化深度学习的非盲噪声图像去模糊
- mysql backup user_mysql备份常见命令
- 迅为-4418开发板-驱动-PWM输出实验
- Https网址在线安全检测网站
- 计算机软件选修课选什么好,互联网行业,软件工程专业学什么?
- Redis-有序集合(Zset)数据结构
- SQL Server安装总是缺少msi等文件,出现错误1612、1706等解决办法
- java 雷霆战机 教程,java swing实现简单的雷霆战机小游戏项目源码附带视频指导修改教程...
- selenium的安装和下载谷歌浏览器镜像驱动
- 7-5 修理牧场 (25 分)
- ecg 幅度_ECG信号分析流程
- Misc,院赛:两道签到、忘记密码
- 权威机构统计:2021 年最佳数据中心网络公司,中国华为和H3C上榜
- R语言偏相关和典型相关