# 使用bs4提取网页,先利用find_all解析
import requests
from bs4 import BeautifulSoup
DATA = []
def getHTMLtext(url,headers,timeout=10):try :resp = requests.get(url,headers=headers,timeout=timeout)resp.raise_for_statusresp.encoding = 'utf-8'return resp.textexcept:return ''
def bs4_find_all_Parser(text):soup = BeautifulSoup(text,'lxml')sons = soup.find_all('div',class_ = "sons")[:10] #返回一个<class 'bs4.element.ResultSet'>,每一个元素都是Tag类型# 注意:上一步里面返回了一些其他的元素,我们可以提取出前面的10项,那是我们需要用到的for son in sons:name = son.find('b').stringprint(name)dynasty_author = son.find('p',class_="source").get_text()print(dynasty_author)content = son.find('div',class_="contson").get_text().strip()print(content)like = son.find_all('span')[1].string.strip()print('点赞数:'+like)print('\n'+'*'*30+'\n')if __name__ == '__main__':url = 'https://www.gushiwen.org/default_1.aspx'headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.109 Safari/537.36'}text = getHTMLtext(url,headers)if text == '':print('url: {} 访问失败'.format(url))else:bs4_find_all_Parser(text)

欢迎关注我的公众号【panda一块砖】,分享更多精彩文章。

python第三方库bs4库实例之爬取古诗词网上诗歌相关推荐

  1. python第三方库re库实例之爬取古诗词网上诗歌

    # 使用正则表达式解析网页元素 # 关键点:直接找每个个体里面相同位置的元素,用findall一次提取出来到列表中 import requests import re DATA = [] def ge ...

  2. python view函数_Python爬虫实例(二)——爬取新馆疫情每日新增人数

    python是世界上最美的语言. 大家好,我是Henry! 疫情以来,相信大家每天都关注着疫情的实时动态,许多网站上也post了疫情的相关资料. 百香园 百度 各个网站都会统计每日新增,刚学了Matp ...

  3. python爬虫爬取古诗词实例补充讲解之获取注释和译文

    对这个网站的具体每首诗,如果想获取它的注释和译文,要怎么实现. 比如: https://so.gushiwen.org/shiwenv_30a67e5c53be.aspx 这首诗,直接进去后,注释和译 ...

  4. python如何下载bs4库_Python BS4库的安装与使用详解

    Beautiful Soup 库一般被称为bs4库,支持Python3,是我们写爬虫非常好的第三方库.因用起来十分的简便流畅.所以也被人叫做"美味汤".目前bs4库的最新版本是4. ...

  5. python3爬虫系列03之requests库:根据关键词自动爬取下载百度图片

    python3爬虫系列03之requests库:根据关键词自动爬取下载百度图片 1.前言 在上一篇文章urllib使用:根据关键词自动爬取下载百度图片 当中,我们已经分析过了百度图片的搜索URL的变化 ...

  6. Crawler:基于requests库+json库+40行代码实现爬取猫眼榜单TOP100榜电影名称主要信息

    Crawler:基于requests库+json库+40行代码实现爬取猫眼榜单TOP100榜电影名称主要信息 目录 输出结果 实现代码 输出结果 实现代码 # -*- coding: utf-8 -* ...

  7. requests库(正则提取)爬取千图网

    requests库(正则提取)爬取千图网 首先分析网页结构 打开千图网的网址搜索春节 打开网页源代码,发现跳转链接存在网页源代码里 接下来我们就利用正则表达式去提取 正则表达式最主要的就是找到你想要信 ...

  8. Python爬虫实例: 爬取“最好大学网”大学排名

    实例2 爬取大学排名 上海交通大学设计了一个"最好大学网",上面列出了当前的大学排名.我们要设计爬虫程序,爬取大学排名信息. 爬虫功能要求: 输入:大学排名URL链接 输出:大学排 ...

  9. 2021-02-27爬虫实例(爬取照片)以虎牙为例

    爬虫实例(爬取照片)以虎牙为例 开始之前点赞,投币加关注哦 开发环境:Python3.7 开发软件:PyCharm Edu 第一步:导入第三方库(模块) # 导入第三方库 import request ...

最新文章

  1. 用于时序动作提名生成任务,爱奇艺提出BC-GNN图神经网络 | ECCV 2020
  2. 「可解释ML/3D深度学习等」Github六月最受欢迎的机器学习库来啦
  3. linux命令gcc常用选项
  4. Qt Dock Widgets 官方示例的翻译
  5. 远控免杀5---Veil免杀
  6. python网盘系统_python做系统
  7. mysql主从安装_MySQL主从详细安装步骤
  8. C++中的模板template typename T
  9. 6.0新特性 权限管理方式
  10. 程序员如何让自己 Be Cloud Native - 配置篇 1
  11. 邮箱大师与微软Acompli功能评测
  12. 视频教程-深入浅出 Zabbix 4.0(基于 zabbix 4.2)-Linux
  13. html怎么把图片做成抖动效果,js实现鼠标触发图片抖动效果的方法
  14. android gps 火星坐标,高德地图GCJ-02火星坐标系与GPS的WGS-84坐标系转换公式(安卓)...
  15. 泉州程序员置业小指南
  16. linux用户视角可分为,经济学原理下全球视角尔雅答案
  17. python的猴子补丁(Monkey Patching)
  18. Atcoder 284题解
  19. [Revit教程]斑马:分享一个用Revit自适应构件做安全疏散距离分析的方法#S007
  20. oauth2-怎么使用

热门文章

  1. P、NP、NPC问题
  2. 从底特律的覆灭,反思“珠三角”未来
  3. c语言车队,狂野飙车8车队中c车的详细属性介绍
  4. 【无标题】免费源码资源,游戏源码下载
  5. Openpose2d转换3d姿态识别
  6. 小项目----音乐在线播放器
  7. 【Swift 60秒】33 - Exiting multiple loops
  8. TSV文件与CSV文件的区别
  9. 论文笔记(五)FWENet:基于SAR图像的洪水水体提取深度卷积神经网络(CVPR)
  10. 英语口语练习四十二之12种“安静”的表达