>>.第三方包先安装

  • beatifulsoup抓取工具
  • 位置:第三方开发包,如果使用,则需要单独下载的工具包
  • 安装:后台命令:9版本以下----pip install bs4 或者 pip3 install Beatifulsoup4

(在pycharm中的Terminal中和后台命令均可以安装,见下图,为了图小一点,把pycharm缩小了,请见谅)

1.使用前先导入

和上上篇的步骤一样,我再这里再重申下基本步骤:

  1. python向服务器发送请求
  2. response对象获得源码
  3. bs4进行内容的抓取
  4. 存储

今天1.2的基本步骤我就不再赘述,不再写出来,直接讲关于bs4的重点,下一篇我会写一个关于bs4爬取网站的完整案例。

from bs4 import BeautifulSoup  //导入bs4,并起个别名B(注意这里没写导入1和2的基本步骤代码)
import csv   //导入csv
html="""     //一个小例子
<html><head><title>The Dormouse's story</title></head><body>
<p class="title" name="dromouse"><b>The Dormouse's story</b></p><p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1"><!-- Elsie --></a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>
<p class="story">...</p></body>
</html>
"""

2.创建BeautifulSoup的对象

  • 第一个参数:要解析的文本(字符串)
  • 第二个参数:解析的文本格式,html.parser,使用html的解析器解析
bs=BS(html,'html.parser')

3.用select和find/findall查找

①通过标签名进行查找

  • bs.select('标签名')返回值:标签,以及标签中间的内容。进行多次匹配,如果有多个内容,会使用列表形式返回。
  • print(bs.select('title'))
  • 展示结果如下:

②通过class属性来进行查找

  • bs.select('.class的值')
  • print(bs.select('.sister'))
  • 展示结果如下:

③通过id属性进行查找

  • bs.select('#id的值')
  • print(bs.select('#link1'))
  • 展示结果如下:

④通过属性进行查找

  • bs.select('标签[属性名=属性值]')
  • print(bs.select('a[href='http://example.com/tillie']'))
  • 展示结果如下:

⑤进行组合查找

  • bs.select('标签名.class的值#id的值’)
  • 加入空格可以代表级别

bs4爬取的时候有两个标签相同_4.4 爬虫中的bs4数据爬取步骤相关推荐

  1. 爬虫项目3 - 股票数据爬取

    爬虫项目3 - 股票数据爬取 步骤 步骤 爬取股票名和股票列表,使用gucheng网进行爬取,网址: https://hq.gucheng.com/gpdmylb.html import reques ...

  2. python中国大学排名爬虫写明详细步骤-Python爬虫--2019大学排名数据抓取

    Python爬虫--2019大学排名数据抓取 准备工作 输入:大学排名URL连接 输出:大学排名信息屏幕输出 所需要用到的库:requests,bs4 思路 获取网页信息 提取网页中的内容并放到数据结 ...

  3. 网络爬虫——中国大学排名数据抓取

    网络爬虫--中国大学排名数据抓取 目标网址 中国大学排名网:http://www.zuihaodaxue.com/zuihaodaxuepaiming2019.html 全球有很多份大学排名,这里以上 ...

  4. 如何用python抓取文献_浅谈Python爬虫技术的网页数据抓取与分析

    浅谈 Python 爬虫技术的网页数据抓取与分析 吴永聪 [期刊名称] <计算机时代> [年 ( 卷 ), 期] 2019(000)008 [摘要] 近年来 , 随着互联网的发展 , 如何 ...

  5. bs4爬取的时候有两个标签相同_PYTHON爬取数据储存到excel

    PYTHON爬取数据储存到excel 大家周末好呀,我是滑稽君.前两天上网课时朋友发来消息说需要爬取一些数据,然后储存到excel里.记得我公众号里发过关于爬虫的文章,所以找我帮个忙.于是滑稽君花时间 ...

  6. python爬虫实例——某二手车数据爬取

    某二手车网站数据爬取 要求: 找到所要爬取的网站网址(url): 今天案例的网址(url):https://www.guazi.com/gy/dazhong/o1/#bread. 观察网站,点开检查, ...

  7. Python爬虫 —— 以北京天气数据爬取为例

    本文以北京天气为例讲解数据爬取的整个流程,不涉及网络爬虫的原理,直接讲爬取代码怎么写! 1.首先找到你要爬取的网站url:'http://www.tianqihoubao.com/lishi/beij ...

  8. python爬虫案例-陶瓷公司数据爬取

    用requests爬取要注意HTTPConnectionPool(host=xxx, port=xxx): Max retries exceeded with url...异常,出现这个异常的解决方法 ...

  9. (五) 爬虫教程 |Ajax 数据爬取

    一.前言 有时候我们在用 requests 抓取页面的时候,得到的结果可能和在浏览器中看到的不一样:在浏览器中可以看到正常显示的页面数据,但是使用 requests 得到的结果并没有,这是因为requ ...

最新文章

  1. C语言求3x3数组对角线元素之和
  2. @ResponseBody 乱码
  3. 1.STM32中对LED_GPIO_Config()函数的理解(自定义)之流水灯
  4. MATLAB对字符串进行分割
  5. mybatis解决属性名和数据列名不一致
  6. stats | 线性回归(四)——显著性检验和模型评价
  7. java零碎要点---struts2中redirect和redirectAction的区别
  8. 酷开网络首推“无界空间”,酷开系统8正式发布!
  9. 小米崔宝秋:小米 AIoT 深度拥抱开源
  10. Tomcat如果默认8080被占用修改端口号和查询端口号地址
  11. 阻止原生输入中文拼音途中会触发input方法的问题
  12. 3dmax入门学习丨3dmax如何做人物建模
  13. 网页信息抓取-如何获取延迟加载的网页数据
  14. 小程序ios页面数据空白问题
  15. shell脚本练习(随机取名)
  16. excel计算式自动计算_计算macd 分解步骤一步一步详细计算macd 用excel计算macd
  17. 深度学习相关概念:权重初始化
  18. Java入门基础知识点
  19. Android Telephony纲要
  20. 淘宝 API 开发步骤

热门文章

  1. idea无法搜索插件问题解决
  2. idea中新增package总是嵌套的解决方法
  3. 基于FastJson的通用泛型解决方案
  4. 在CodeMash 2012的“ Wat”演讲中提到的这些怪异JavaScript行为的解释是什么?
  5. 在Visual Studio中使用Git [关闭]
  6. Python是否具有三元条件运算符?
  7. Spring Boot 动手写一个 Start
  8. UVA 10795 新汉诺塔问题
  9. Vim实战指南(一):基础编辑命令
  10. 揭示Win32 API拦截细节/API hooking revealed (1)