网页爬虫工具BeautifulSoup使用总结
网页爬虫工具BeautifulSoup
在使用爬虫工具爬取网页的内容时,经常会出现网页格式不规范、标签不完整等等问题,导致在抓取的过程中出现内容无法爬取、内容中含有html标签等等影响结果的错误
安装、引入
- 安装
pip install beautifulsoup4
- 引入模块
from bs4 import BeautifulSoup
主要方法、使用规则
生成beautifulSoup对象
soup = BeautifulSoup(html)
或者打开本地HTML
soup = BeautifulSoup(open('index.html'))
在Python3中应该使用写法:
soup = BeautifulSoup(html, "lxml")
输出soup:
<html><head>我是head</head><title>我是title</title><body><p>我是一个p</p><p>我也是一个p</p></body></html>
格式化对象
arr = soup.prettify()
简单来说, prettify()方法只是让soup对象看上去像树形的xml而已,他们的内容是相同的,是指后者让标签之间换了行
格式化之后我们得到的内容应该是:<html><head>我是head</head><title>我是title</title><body><p>我是一个p</p><p>我也是一个p</p></body> </html>
解析Soup对象
对于soup之后的树形结构,我们使用以下方法来获取某个Tag:
print(soup.title) :<title>我是title</title>
使用下列方法获取文本内容:
print(soup.title.string) : 我是title
如何获取所有内容呢?
for string in soup.strings:print(string) :\r\n我是head\r\n\r\n我是title\r\n\r\n我是一个p\r\n\r\n我也是一个p\r\n
对于空行、换行我们当然是需要过滤的:
for string in soup.stripped_strings:print(string): 我是head我是head我是一个p我也是一个p
以上就是大概的用法了,推荐博客:静觅 » Python爬虫利器二之Beautiful Soup的用法
网页爬虫工具BeautifulSoup使用总结相关推荐
- 排名前20的网页爬虫工具,超多干货
网络爬虫在许多领域都有广泛的应用,它的目标是从网站获取新的数据,并加以存储以方便访问.而网络爬虫工具越来越为人们所熟知,因为它能简化并自动化整个爬虫过程,使每个人都可以轻松访问网络数据资源. 1. O ...
- Python程序员都在用的20个网页爬虫工具
网络爬虫在许多领域都有广泛的应用,它的目标是从网站获取新的数据,并加以存储以方便访问.而网络爬虫工具越来越为人们所熟知,因为它能简化并自动化整个爬虫过程,使每个人都可以轻松访问网络数据资源. 1. O ...
- FAW Forensics Acquisition of Websites 网页爬虫工具
网页钻取获取的完美解决方案.非常多企业都给予它作为修复网页的宝贵工具的认可.FAW适用于技术顾问等需要自动采集.TOR网络采集和创新功能加速活动的专家,Ω578867473 通过 TOR 网络获取存在 ...
- Python网页爬虫工具有哪些?
1.Scrapy Scrapy相Scrapy, a fast high-level screen scraping and web crawling framework for Python.信不少同 ...
- Java网页爬虫--基于URLConnection的网页爬虫工具类
在这个数据为王的时代,爬虫应用地越来越广泛,对于一个萌新程序员来说如果你要做爬虫,那么Python是你的不二之选.但是对于那些老腊肉的Java程序员(亦或者你是程序媛)想使用Java做爬虫也不是不行, ...
- Python 网页爬虫 文本处理 科学计算 机器学习 数据挖掘兵器谱 - 数客
曾经因为NLTK的缘故开始学习Python,之后渐渐成为我工作中的第一辅助脚本语言,虽然开发语言是C/C++,但平时的很多文本数据处理任务都交给了Python.离开腾讯创业后,第一个作品课程图谱也是选 ...
- Python 网页爬虫 文本处理 科学计算 机器学习 数据挖掘兵器谱
Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱 2015-04-27 程序猿 程序猿 来自:我爱自然语言处理,www.52nlp. ...
- python网页爬虫-Python网页爬虫
曾经因为NLTK的缘故开始学习Python,之后渐渐成为我工作中的第一辅助脚本语言,虽然开发语言是C/C++,但平时的很多文本数据处理任务都交给了Python.离开腾讯创业后,第一个作品课程图谱也是选 ...
- python爬虫数据挖掘_Python网页爬虫文本处理科学计算机器学习数据挖掘兵器谱...
转载自"我爱自然语言处理":http://www.52nlp.cn,已获得授权.更多内容可见公众号:"牛衣古柳"(ID:Deserts-X). 周末时看到这篇不 ...
- beautifulsoup网页爬虫解析_爬虫第三天——初识Xpath
解析神器Xpath: 1. 什么是Xpath XPath即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言. XPath基于XML的树状结构,提供在 ...
最新文章
- 【c语言】分解质因数
- Mysql共享锁实例_mysql共享锁与排他锁用法实例分析
- Spring MVC基础知识整理➣国际化和异常处理
- Google、Azure、阿里云、RedHat…全球的 K8s 圈大佬聚在一起要聊啥?
- linux环境没有bzip2,Linux系统中安装使用Bzip2来压缩文件的方法讲解
- webpart template
- 计算机解译地学应用效果,不同的遥感解译方法在地表覆盖分类信息提取中的应用研究...
- ios 构建版本一直在处理中_iOS构建版本不显示
- Scss 与 Sass 是什么,他们的区别在哪里?
- 北理乐学大学计算机实验4,北理乐学C语言答案.docx
- 教领导“做事”的新人,后来过得好吗?
- java11降到java8
- Python 将列表中的每个值都加一要怎么做?(列表解析式)
- 【联盛德W806上手笔记】九、DMA
- gst-rtsp-server搭建与测试
- python调用企业微信接口
- 【光线追踪系列九】物体动态模糊
- 浪潮网上测评没通过_浪潮软件常见问题解决
- LeetCode 365. 水壶问题
- 高等职业教育扩招100万与产业学院的建设