[Python]爬虫02：用Beautifulsoup抓取的网页中有br标签，返回字符串为None，先用replace去除网页中br再抓内容。

问题：用Beautifulsoup抓取网页，网页中含有br标签，抓取相关的内容结果是None。

试了用字符串的replace函数替换br，还是返回None。试了用re正则替换br，提示返回类型错误。

原因：br标签通常是单独使用，但Beautifulsoup只能抓取成对的标签，所以碰到br时返回None。

办法：网页就是一个字符串，可以用字符串内建函数repalce先把网页中的br标签替换为空，再用Beautifulsoup抓取网页内容。开始使用replace报错，是因为直接对soup使用repalce，但soup不是字符串对象，没有replace方法，所以没法去除br。

对于requests获取的网页，可以用r.text获取字符串，再用replace去除br。

重点：搞清楚库返回的对象类型，才能用正确方法进行处理。

代码：

from bs4 import BeautifulSouphtml_doc='''
<tr><td>1</td><td>2(一心<br>一意)</td><td>3(两全<br/>齐美)</td><td>放弃1次<br/>        </td>
</tr>
'''
soup=BeautifulSoup(html_doc,'lxml')for i in soup.find_all('td'):print(i.string)

结果：

1
None
None
None

修改后：

new_html=(html_doc.replace('<br>','')).replace('<br/>','') #网页就是一个字符串对象，可以使用replace替代
soup=BeautifulSoup(new_html,'lxml')

对于requests获取的网页内容：

r=requests.get(url)
newr=r.text.replace('<br/>','')

[Python]爬虫02：用Beautifulsoup抓取的网页中有br标签，返回字符串为None，先用replace去除网页中br再抓内容。相关推荐

Python爬虫：Selenium+ BeautifulSoup 爬取JS渲染的动态内容（雪球网新闻）
最近要有一个任务,要爬取https://xueqiu.com/#/cn 网页上的文章,作为后续自然语言处理的源数据. 爬取目标:下图中红色方框部分的文章内容.(需要点击每篇文章的链接才能获得文章内容) ...
Python爬虫-02 request模块爬取妹子图网站
简介 #介绍:使用requests可以模拟浏览器的请求,比起之前用到的urllib,requests模块的api更加便捷(本质就是封装了urllib3)#注意:requests库发送请求将网页内容下载 ...
《python爬虫实战》：爬取贴吧上的帖子
<python爬虫实战>:爬取贴吧上的帖子经过前面两篇例子的练习,自己也对爬虫有了一定的经验. 由于目前还没有利用BeautifulSoup库,因此关于爬虫的难点还是正则表达式的书写. ...
python爬取图片教程-推荐|Python 爬虫系列教程一爬取批量百度图片
Python 爬虫系列教程一爬取批量百度图片https://blog.csdn.net/qq_40774175/article/details/81273198# -*- coding: utf-8 ...
python爬虫对炒股有没有用_使用python爬虫实现网络股票信息爬取的demo
实例如下所示: import requests from bs4 import BeautifulSoup import traceback import re def getHTMLText(url ...
python爬虫豆瓣影评的爬取cookies实现自动登录账号
python爬虫豆瓣影评的爬取cookies实现自动登录账号频繁的登录网页会让豆瓣锁定你的账号-- 网页请求使用cookies来实现的自动登录账号,这里的cookies因为涉及到账号我屏蔽了,具 ...
转 Python爬虫实战一之爬取糗事百科段子
静觅 » Python爬虫实战一之爬取糗事百科段子首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致 ...
Python 爬虫中国行政区划信息爬取（初学者）
Python 爬虫中国行政区划信息爬取 (初学者) 背景环境准备代码片段 1.定义地址信息对象 2.地址解析对象 2.1 获取web信息 2.2 web信息解析 2.3 区划信息提取 2.4 省 ...
python爬虫股票市盈率_使用python爬虫实现网络股票信息爬取的demo
实例如下所示: import requests from bs4 import BeautifulSoup import traceback import re def getHTMLText(url ...
Python爬虫实战一之爬取糗事百科段子
点我进入原文另外, 中间遇到两个问题: 1. ascii codec can't decode byte 0xe8 in position 0:ordinal not in range(128) 解 ...

[Python]爬虫02：用Beautifulsoup抓取的网页中有br标签，返回字符串为None，先用replace去除网页中br再抓内容。

[Python]爬虫02：用Beautifulsoup抓取的网页中有br标签，返回字符串为None，先用replace去除网页中br再抓内容。相关推荐

最新文章

热门文章