网页爬虫工具BeautifulSoup

在使用爬虫工具爬取网页的内容时，经常会出现网页格式不规范、标签不完整等等问题，导致在抓取的过程中出现内容无法爬取、内容中含有html标签等等影响结果的错误

安装、引入

安装
pip install beautifulsoup4
引入模块
from bs4 import BeautifulSoup

主要方法、使用规则

生成beautifulSoup对象
soup = BeautifulSoup(html)

或者打开本地HTML
soup = BeautifulSoup(open('index.html'))

在Python3中应该使用写法：
soup = BeautifulSoup(html, "lxml")

输出soup:
<html><head>我是head</head><title>我是title</title><body>我是一个p我也是一个p</body></html>
格式化对象
arr = soup.prettify()

简单来说, prettify()方法只是让soup对象看上去像树形的xml而已，他们的内容是相同的，是指后者让标签之间换了行
格式化之后我们得到的内容应该是:
```
<html><head>我是head</head><title>我是title</title><body>我是一个p我也是一个p</body>
</html>
```

解析Soup对象

对于soup之后的树形结构，我们使用以下方法来获取某个Tag：

print(soup.title)
：<title>我是title</title>

使用下列方法获取文本内容:

print(soup.title.string)
: 我是title

如何获取所有内容呢？

for string in soup.strings:print(string)
:\r\n我是head\r\n\r\n我是title\r\n\r\n我是一个p\r\n\r\n我也是一个p\r\n

对于空行、换行我们当然是需要过滤的：

for string in soup.stripped_strings:print(string): 我是head我是head我是一个p我也是一个p

以上就是大概的用法了，推荐博客：静觅 » Python爬虫利器二之Beautiful Soup的用法

网页爬虫工具BeautifulSoup使用总结相关推荐

排名前20的网页爬虫工具，超多干货
网络爬虫在许多领域都有广泛的应用,它的目标是从网站获取新的数据,并加以存储以方便访问.而网络爬虫工具越来越为人们所熟知,因为它能简化并自动化整个爬虫过程,使每个人都可以轻松访问网络数据资源. 1. O ...
Python程序员都在用的20个网页爬虫工具
网络爬虫在许多领域都有广泛的应用,它的目标是从网站获取新的数据,并加以存储以方便访问.而网络爬虫工具越来越为人们所熟知,因为它能简化并自动化整个爬虫过程,使每个人都可以轻松访问网络数据资源. 1. O ...
FAW Forensics Acquisition of Websites 网页爬虫工具
网页钻取获取的完美解决方案.非常多企业都给予它作为修复网页的宝贵工具的认可.FAW适用于技术顾问等需要自动采集.TOR网络采集和创新功能加速活动的专家,Ω578867473 通过 TOR 网络获取存在 ...
Python网页爬虫工具有哪些?
1.Scrapy Scrapy相Scrapy, a fast high-level screen scraping and web crawling framework for Python.信不少同 ...
Java网页爬虫--基于URLConnection的网页爬虫工具类
在这个数据为王的时代,爬虫应用地越来越广泛,对于一个萌新程序员来说如果你要做爬虫,那么Python是你的不二之选.但是对于那些老腊肉的Java程序员(亦或者你是程序媛)想使用Java做爬虫也不是不行, ...
Python 网页爬虫文本处理科学计算机器学习数据挖掘兵器谱 - 数客
曾经因为NLTK的缘故开始学习Python,之后渐渐成为我工作中的第一辅助脚本语言,虽然开发语言是C/C++,但平时的很多文本数据处理任务都交给了Python.离开腾讯创业后,第一个作品课程图谱也是选 ...
Python 网页爬虫文本处理科学计算机器学习数据挖掘兵器谱
Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱 2015-04-27 程序猿程序猿来自:我爱自然语言处理,www.52nlp. ...
python网页爬虫-Python网页爬虫
曾经因为NLTK的缘故开始学习Python,之后渐渐成为我工作中的第一辅助脚本语言,虽然开发语言是C/C++,但平时的很多文本数据处理任务都交给了Python.离开腾讯创业后,第一个作品课程图谱也是选 ...
python爬虫数据挖掘_Python网页爬虫文本处理科学计算机器学习数据挖掘兵器谱...
转载自"我爱自然语言处理":http://www.52nlp.cn,已获得授权.更多内容可见公众号:"牛衣古柳"(ID:Deserts-X). 周末时看到这篇不 ...
beautifulsoup网页爬虫解析_爬虫第三天——初识Xpath
解析神器Xpath: 1. 什么是Xpath XPath即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言. XPath基于XML的树状结构,提供在 ...

网页爬虫工具BeautifulSoup使用总结

网页爬虫工具BeautifulSoup

安装、引入

主要方法、使用规则

以上就是大概的用法了，推荐博客：静觅 » Python爬虫利器二之Beautiful Soup的用法

网页爬虫工具BeautifulSoup使用总结相关推荐

最新文章

热门文章