问题:用Beautifulsoup抓取网页,网页中含有br标签,抓取相关的内容结果是None。

试了用字符串的replace函数替换br,还是返回None。试了用re正则替换br,提示返回类型错误。

原因:br标签通常是单独使用,但Beautifulsoup只能抓取成对的标签,所以碰到br时返回None。

办法:网页就是一个字符串,可以用字符串内建函数repalce先把网页中的br标签替换为空,再用Beautifulsoup抓取网页内容。开始使用replace报错,是因为直接对soup使用repalce,但soup不是字符串对象,没有replace方法,所以没法去除br。

对于requests获取的网页,可以用r.text获取字符串,再用replace去除br。

重点:搞清楚库返回的对象类型,才能用正确方法进行处理

代码:

from bs4 import BeautifulSouphtml_doc='''
<tr><td>1</td><td>2(一心<br>一意)</td><td>3(两全<br/>齐美)</td><td>放弃1次<br/>        </td>
</tr>
'''
soup=BeautifulSoup(html_doc,'lxml')for i in soup.find_all('td'):print(i.string)

结果:

1
None
None
None

修改后:

new_html=(html_doc.replace('<br>','')).replace('<br/>','') #网页就是一个字符串对象,可以使用replace替代
soup=BeautifulSoup(new_html,'lxml')

对于requests获取的网页内容:

r=requests.get(url)
newr=r.text.replace('<br/>','')

[Python]爬虫02:用Beautifulsoup抓取的网页中有br标签,返回字符串为None,先用replace去除网页中br再抓内容。相关推荐

  1. Python爬虫:Selenium+ BeautifulSoup 爬取JS渲染的动态内容(雪球网新闻)

    最近要有一个任务,要爬取https://xueqiu.com/#/cn 网页上的文章,作为后续自然语言处理的源数据. 爬取目标:下图中红色方框部分的文章内容.(需要点击每篇文章的链接才能获得文章内容) ...

  2. Python爬虫-02 request模块爬取妹子图网站

    简介 #介绍:使用requests可以模拟浏览器的请求,比起之前用到的urllib,requests模块的api更加便捷(本质就是封装了urllib3)#注意:requests库发送请求将网页内容下载 ...

  3. 《python爬虫实战》:爬取贴吧上的帖子

    <python爬虫实战>:爬取贴吧上的帖子 经过前面两篇例子的练习,自己也对爬虫有了一定的经验. 由于目前还没有利用BeautifulSoup库,因此关于爬虫的难点还是正则表达式的书写. ...

  4. python爬取图片教程-推荐|Python 爬虫系列教程一爬取批量百度图片

    Python 爬虫系列教程一爬取批量百度图片https://blog.csdn.net/qq_40774175/article/details/81273198# -*- coding: utf-8 ...

  5. python爬虫对炒股有没有用_使用python爬虫实现网络股票信息爬取的demo

    实例如下所示: import requests from bs4 import BeautifulSoup import traceback import re def getHTMLText(url ...

  6. python爬虫 豆瓣影评的爬取cookies实现自动登录账号

    python爬虫 豆瓣影评的爬取cookies实现自动登录账号 频繁的登录网页会让豆瓣锁定你的账号-- 网页请求 使用cookies来实现的自动登录账号,这里的cookies因为涉及到账号我屏蔽了,具 ...

  7. 转 Python爬虫实战一之爬取糗事百科段子

    静觅 » Python爬虫实战一之爬取糗事百科段子 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示 糗事百科在前一段时间进行了改版,导致 ...

  8. Python 爬虫 中国行政区划信息爬取 (初学者)

    Python 爬虫 中国行政区划信息爬取 (初学者) 背景 环境准备 代码片段 1.定义地址信息对象 2.地址解析对象 2.1 获取web信息 2.2 web信息解析 2.3 区划信息提取 2.4 省 ...

  9. python爬虫股票市盈率_使用python爬虫实现网络股票信息爬取的demo

    实例如下所示: import requests from bs4 import BeautifulSoup import traceback import re def getHTMLText(url ...

  10. Python爬虫实战一之爬取糗事百科段子

    点我进入原文 另外, 中间遇到两个问题: 1. ascii codec can't decode byte 0xe8 in position 0:ordinal not in range(128) 解 ...

最新文章

  1. 神州数码与神州控股、神州信息共同主办首届技术年会,透露出什么信号?
  2. Google工作10年,关于技术、管理和职场生涯的一些感悟
  3. 7-17 爬动的蠕虫 (C语言)
  4. Python应用matplotlib绘图简介
  5. C# 导出EXCEL文件
  6. 未来教育计算机二级为什么分数很低,计算机二级考试失分了却不知道为什么?...
  7. 【C语言练习】求两个数m和n的最大公约数(辗转相除法)
  8. 配置了坐标还是找不到serv_为什么老人家总是这疼那疼,还找不到原因?是矫情还是另有原因...
  9. C语言模拟实现标准库函数之strlen()
  10. 中关村海龙大厦-买本上当经历给大家提个醒
  11. ubuntu文字界面与图形界面切换
  12. [蓝桥] 基础练习 十六进制转十进制
  13. 美团工作10个月心得
  14. CAN:CAN矩阵、CAN网络、DBC、MDF关系
  15. eval函数python原理_Python 中 eval 函数的神奇用法
  16. 2018清明假期旅游预测报告:全国游客人次预计破亿
  17. 去除PDF文件中的斜体文字水印
  18. 一文告诉你数据安全平台(DSP)能做什么
  19. jquery 获取父级元素、子级元素、兄弟元素的方法
  20. IPV6天窗问题,以及解决方法简述

热门文章

  1. 百度、阿里、滴滴、新浪的面试心经总结,社招面试心得
  2. 使用electron开发桌面音乐播放器
  3. [转] java - 过滤ASCII码中的不可见字符, ASCII三部分, 各控制字符详解
  4. Connection reset by peer的常见原因及常见网络异常
  5. 达龙云电脑上榜2014数据中国最具投资价值排行榜
  6. PYTHON实现输出菱形阵列
  7. JeetSite学习资源
  8. android xwalkview 截屏,如何在Cordova中为你的应用创建屏幕截图
  9. Git如何更新远程仓库代码到本地
  10. python数据清洗小案例giao