bs4爬取的时候有两个标签相同_4.4 爬虫中的bs4数据爬取步骤

>>.第三方包先安装

beatifulsoup抓取工具
位置：第三方开发包，如果使用，则需要单独下载的工具包
安装：后台命令：9版本以下----pip install bs4 或者 pip3 install Beatifulsoup4

（在pycharm中的Terminal中和后台命令均可以安装，见下图，为了图小一点，把pycharm缩小了，请见谅）

1.使用前先导入

和上上篇的步骤一样，我再这里再重申下基本步骤：

python向服务器发送请求
response对象获得源码
bs4进行内容的抓取
存储

今天1.2的基本步骤我就不再赘述，不再写出来，直接讲关于bs4的重点，下一篇我会写一个关于bs4爬取网站的完整案例。

from bs4 import BeautifulSoup  //导入bs4,并起个别名B（注意这里没写导入1和2的基本步骤代码）
import csv   //导入csv
html="""     //一个小例子
<html><head><title>The Dormouse's story</title></head><body>
<p class="title" name="dromouse"><b>The Dormouse's story</b></p><p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1"><!-- Elsie --></a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>
<p class="story">...</p></body>
</html>
"""

2.创建BeautifulSoup的对象

第一个参数：要解析的文本（字符串）
第二个参数：解析的文本格式，html.parser,使用html的解析器解析

bs=BS(html,'html.parser')

3.用select和find/findall查找

①通过标签名进行查找

bs.select('标签名')返回值：标签，以及标签中间的内容。进行多次匹配，如果有多个内容，会使用列表形式返回。
print(bs.select('title'))
展示结果如下：

②通过class属性来进行查找

bs.select('.class的值')
print(bs.select('.sister'))
展示结果如下：

③通过id属性进行查找

bs.select('#id的值')
print(bs.select('#link1'))
展示结果如下：

④通过属性进行查找

bs.select('标签[属性名=属性值]')
print(bs.select('a[href='http://example.com/tillie']'))
展示结果如下：

⑤进行组合查找

bs.select('标签名.class的值#id的值’)
加入空格可以代表级别

bs4爬取的时候有两个标签相同_4.4 爬虫中的bs4数据爬取步骤相关推荐

爬虫项目3 - 股票数据爬取
爬虫项目3 - 股票数据爬取步骤步骤爬取股票名和股票列表,使用gucheng网进行爬取,网址: https://hq.gucheng.com/gpdmylb.html import reques ...
python中国大学排名爬虫写明详细步骤-Python爬虫--2019大学排名数据抓取
Python爬虫--2019大学排名数据抓取准备工作输入:大学排名URL连接输出:大学排名信息屏幕输出所需要用到的库:requests,bs4 思路获取网页信息提取网页中的内容并放到数据结 ...
网络爬虫——中国大学排名数据抓取
网络爬虫--中国大学排名数据抓取目标网址中国大学排名网:http://www.zuihaodaxue.com/zuihaodaxuepaiming2019.html 全球有很多份大学排名,这里以上 ...
如何用python抓取文献_浅谈Python爬虫技术的网页数据抓取与分析
浅谈 Python 爬虫技术的网页数据抓取与分析吴永聪 [期刊名称] <计算机时代> [年 ( 卷 ), 期] 2019(000)008 [摘要] 近年来 , 随着互联网的发展 , 如何 ...
bs4爬取的时候有两个标签相同_PYTHON爬取数据储存到excel
PYTHON爬取数据储存到excel 大家周末好呀,我是滑稽君.前两天上网课时朋友发来消息说需要爬取一些数据,然后储存到excel里.记得我公众号里发过关于爬虫的文章,所以找我帮个忙.于是滑稽君花时间 ...
python爬虫实例——某二手车数据爬取
某二手车网站数据爬取要求: 找到所要爬取的网站网址(url): 今天案例的网址(url):https://www.guazi.com/gy/dazhong/o1/#bread. 观察网站,点开检查, ...
Python爬虫 —— 以北京天气数据爬取为例
本文以北京天气为例讲解数据爬取的整个流程,不涉及网络爬虫的原理,直接讲爬取代码怎么写! 1.首先找到你要爬取的网站url:'http://www.tianqihoubao.com/lishi/beij ...
python爬虫案例-陶瓷公司数据爬取
用requests爬取要注意HTTPConnectionPool(host=xxx, port=xxx): Max retries exceeded with url...异常,出现这个异常的解决方法 ...
(五) 爬虫教程｜Ajax 数据爬取
一.前言有时候我们在用 requests 抓取页面的时候,得到的结果可能和在浏览器中看到的不一样:在浏览器中可以看到正常显示的页面数据,但是使用 requests 得到的结果并没有,这是因为requ ...

bs4爬取的时候有两个标签相同_4.4 爬虫中的bs4数据爬取步骤

>>.第三方包先安装

1.使用前先导入

2.创建BeautifulSoup的对象

3.用select和find/findall查找

bs4爬取的时候有两个标签相同_4.4 爬虫中的bs4数据爬取步骤相关推荐

最新文章

热门文章