网页爬虫工具BeautifulSoup

在使用爬虫工具爬取网页的内容时,经常会出现网页格式不规范、标签不完整等等问题,导致在抓取的过程中出现内容无法爬取、内容中含有html标签等等影响结果的错误

安装、引入

  • 安装
    pip install beautifulsoup4
  • 引入模块
    from bs4 import BeautifulSoup

主要方法、使用规则

  • 生成beautifulSoup对象
    soup = BeautifulSoup(html)

    或者打开本地HTML
    soup = BeautifulSoup(open('index.html'))

    在Python3中应该使用写法:
    soup = BeautifulSoup(html, "lxml")

    输出soup:
    <html><head>我是head</head><title>我是title</title><body><p>我是一个p</p><p>我也是一个p</p></body></html>

  • 格式化对象
    arr = soup.prettify()

    简单来说, prettify()方法只是让soup对象看上去像树形的xml而已,他们的内容是相同的,是指后者让标签之间换了行
    格式化之后我们得到的内容应该是:

    <html><head>我是head</head><title>我是title</title><body><p>我是一个p</p><p>我也是一个p</p></body>
    </html>
  • 解析Soup对象

    对于soup之后的树形结构,我们使用以下方法来获取某个Tag:

    print(soup.title)
    :<title>我是title</title>

    使用下列方法获取文本内容:

    print(soup.title.string)
    : 我是title

    如何获取所有内容呢?

    for string in soup.strings:print(string)
    :\r\n我是head\r\n\r\n我是title\r\n\r\n我是一个p\r\n\r\n我也是一个p\r\n

    对于空行、换行我们当然是需要过滤的:

    for string in soup.stripped_strings:print(string): 我是head我是head我是一个p我也是一个p

以上就是大概的用法了,推荐博客:静觅 » Python爬虫利器二之Beautiful Soup的用法

网页爬虫工具BeautifulSoup使用总结相关推荐

  1. 排名前20的网页爬虫工具,超多干货

    网络爬虫在许多领域都有广泛的应用,它的目标是从网站获取新的数据,并加以存储以方便访问.而网络爬虫工具越来越为人们所熟知,因为它能简化并自动化整个爬虫过程,使每个人都可以轻松访问网络数据资源. 1. O ...

  2. Python程序员都在用的20个网页爬虫工具

    网络爬虫在许多领域都有广泛的应用,它的目标是从网站获取新的数据,并加以存储以方便访问.而网络爬虫工具越来越为人们所熟知,因为它能简化并自动化整个爬虫过程,使每个人都可以轻松访问网络数据资源. 1. O ...

  3. FAW Forensics Acquisition of Websites 网页爬虫工具

    网页钻取获取的完美解决方案.非常多企业都给予它作为修复网页的宝贵工具的认可.FAW适用于技术顾问等需要自动采集.TOR网络采集和创新功能加速活动的专家,Ω578867473 通过 TOR 网络获取存在 ...

  4. Python网页爬虫工具有哪些?

    1.Scrapy Scrapy相Scrapy, a fast high-level screen scraping and web crawling framework for Python.信不少同 ...

  5. Java网页爬虫--基于URLConnection的网页爬虫工具类

    在这个数据为王的时代,爬虫应用地越来越广泛,对于一个萌新程序员来说如果你要做爬虫,那么Python是你的不二之选.但是对于那些老腊肉的Java程序员(亦或者你是程序媛)想使用Java做爬虫也不是不行, ...

  6. Python 网页爬虫 文本处理 科学计算 机器学习 数据挖掘兵器谱 - 数客

    曾经因为NLTK的缘故开始学习Python,之后渐渐成为我工作中的第一辅助脚本语言,虽然开发语言是C/C++,但平时的很多文本数据处理任务都交给了Python.离开腾讯创业后,第一个作品课程图谱也是选 ...

  7. Python 网页爬虫 文本处理 科学计算 机器学习 数据挖掘兵器谱

    Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱 2015-04-27 程序猿 程序猿 来自:我爱自然语言处理,www.52nlp. ...

  8. python网页爬虫-Python网页爬虫

    曾经因为NLTK的缘故开始学习Python,之后渐渐成为我工作中的第一辅助脚本语言,虽然开发语言是C/C++,但平时的很多文本数据处理任务都交给了Python.离开腾讯创业后,第一个作品课程图谱也是选 ...

  9. python爬虫数据挖掘_Python网页爬虫文本处理科学计算机器学习数据挖掘兵器谱...

    转载自"我爱自然语言处理":http://www.52nlp.cn,已获得授权.更多内容可见公众号:"牛衣古柳"(ID:Deserts-X). 周末时看到这篇不 ...

  10. beautifulsoup网页爬虫解析_爬虫第三天——初识Xpath

    解析神器Xpath: 1. 什么是Xpath XPath即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言. XPath基于XML的树状结构,提供在 ...

最新文章

  1. 【c语言】分解质因数
  2. Mysql共享锁实例_mysql共享锁与排他锁用法实例分析
  3. Spring MVC基础知识整理➣国际化和异常处理
  4. Google、Azure、阿里云、RedHat…全球的 K8s 圈大佬聚在一起要聊啥?
  5. linux环境没有bzip2,Linux系统中安装使用Bzip2来压缩文件的方法讲解
  6. webpart template
  7. 计算机解译地学应用效果,不同的遥感解译方法在地表覆盖分类信息提取中的应用研究...
  8. ios 构建版本一直在处理中_iOS构建版本不显示
  9. Scss 与 Sass 是什么,他们的区别在哪里?
  10. 北理乐学大学计算机实验4,北理乐学C语言答案.docx
  11. 教领导“做事”的新人,后来过得好吗?
  12. java11降到java8
  13. Python 将列表中的每个值都加一要怎么做?(列表解析式)
  14. 【联盛德W806上手笔记】九、DMA
  15. gst-rtsp-server搭建与测试
  16. python调用企业微信接口
  17. 【光线追踪系列九】物体动态模糊
  18. 浪潮网上测评没通过_浪潮软件常见问题解决
  19. LeetCode 365. 水壶问题
  20. 高等职业教育扩招100万与产业学院的建设

热门文章

  1. 计算机操作系统 (第四版汤小丹老师) 复习笔记完整版——第一章:操作系统引论
  2. SAS9.3安装经验
  3. 使用react写cNode项目初期------环境的配置
  4. JavaScript函数的参数
  5. javascript函数定义和声明
  6. Java删除文件和文件夹的方式
  7. 网络摄像头的地盘争夺战——四款僵尸软件的技术解析
  8. 计算机软考网络工程师,软考之网络工程师总结
  9. LinkedIn第三方登录(JavaScript SDK)
  10. linkedin客户开发_10个LinkedIn WordPress插件赢得新客户