python第三方库bs4库实例之爬取古诗词网上诗歌
# 使用bs4提取网页,先利用find_all解析
import requests
from bs4 import BeautifulSoup
DATA = []
def getHTMLtext(url,headers,timeout=10):try :resp = requests.get(url,headers=headers,timeout=timeout)resp.raise_for_statusresp.encoding = 'utf-8'return resp.textexcept:return ''
def bs4_find_all_Parser(text):soup = BeautifulSoup(text,'lxml')sons = soup.find_all('div',class_ = "sons")[:10] #返回一个<class 'bs4.element.ResultSet'>,每一个元素都是Tag类型# 注意:上一步里面返回了一些其他的元素,我们可以提取出前面的10项,那是我们需要用到的for son in sons:name = son.find('b').stringprint(name)dynasty_author = son.find('p',class_="source").get_text()print(dynasty_author)content = son.find('div',class_="contson").get_text().strip()print(content)like = son.find_all('span')[1].string.strip()print('点赞数:'+like)print('\n'+'*'*30+'\n')if __name__ == '__main__':url = 'https://www.gushiwen.org/default_1.aspx'headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.109 Safari/537.36'}text = getHTMLtext(url,headers)if text == '':print('url: {} 访问失败'.format(url))else:bs4_find_all_Parser(text)
欢迎关注我的公众号【panda一块砖】,分享更多精彩文章。
python第三方库bs4库实例之爬取古诗词网上诗歌相关推荐
- python第三方库re库实例之爬取古诗词网上诗歌
# 使用正则表达式解析网页元素 # 关键点:直接找每个个体里面相同位置的元素,用findall一次提取出来到列表中 import requests import re DATA = [] def ge ...
- python view函数_Python爬虫实例(二)——爬取新馆疫情每日新增人数
python是世界上最美的语言. 大家好,我是Henry! 疫情以来,相信大家每天都关注着疫情的实时动态,许多网站上也post了疫情的相关资料. 百香园 百度 各个网站都会统计每日新增,刚学了Matp ...
- python爬虫爬取古诗词实例补充讲解之获取注释和译文
对这个网站的具体每首诗,如果想获取它的注释和译文,要怎么实现. 比如: https://so.gushiwen.org/shiwenv_30a67e5c53be.aspx 这首诗,直接进去后,注释和译 ...
- python如何下载bs4库_Python BS4库的安装与使用详解
Beautiful Soup 库一般被称为bs4库,支持Python3,是我们写爬虫非常好的第三方库.因用起来十分的简便流畅.所以也被人叫做"美味汤".目前bs4库的最新版本是4. ...
- python3爬虫系列03之requests库:根据关键词自动爬取下载百度图片
python3爬虫系列03之requests库:根据关键词自动爬取下载百度图片 1.前言 在上一篇文章urllib使用:根据关键词自动爬取下载百度图片 当中,我们已经分析过了百度图片的搜索URL的变化 ...
- Crawler:基于requests库+json库+40行代码实现爬取猫眼榜单TOP100榜电影名称主要信息
Crawler:基于requests库+json库+40行代码实现爬取猫眼榜单TOP100榜电影名称主要信息 目录 输出结果 实现代码 输出结果 实现代码 # -*- coding: utf-8 -* ...
- requests库(正则提取)爬取千图网
requests库(正则提取)爬取千图网 首先分析网页结构 打开千图网的网址搜索春节 打开网页源代码,发现跳转链接存在网页源代码里 接下来我们就利用正则表达式去提取 正则表达式最主要的就是找到你想要信 ...
- Python爬虫实例: 爬取“最好大学网”大学排名
实例2 爬取大学排名 上海交通大学设计了一个"最好大学网",上面列出了当前的大学排名.我们要设计爬虫程序,爬取大学排名信息. 爬虫功能要求: 输入:大学排名URL链接 输出:大学排 ...
- 2021-02-27爬虫实例(爬取照片)以虎牙为例
爬虫实例(爬取照片)以虎牙为例 开始之前点赞,投币加关注哦 开发环境:Python3.7 开发软件:PyCharm Edu 第一步:导入第三方库(模块) # 导入第三方库 import request ...
最新文章
- 用于时序动作提名生成任务,爱奇艺提出BC-GNN图神经网络 | ECCV 2020
- 「可解释ML/3D深度学习等」Github六月最受欢迎的机器学习库来啦
- linux命令gcc常用选项
- Qt Dock Widgets 官方示例的翻译
- 远控免杀5---Veil免杀
- python网盘系统_python做系统
- mysql主从安装_MySQL主从详细安装步骤
- C++中的模板template typename T
- 6.0新特性 权限管理方式
- 程序员如何让自己 Be Cloud Native - 配置篇 1
- 邮箱大师与微软Acompli功能评测
- 视频教程-深入浅出 Zabbix 4.0(基于 zabbix 4.2)-Linux
- html怎么把图片做成抖动效果,js实现鼠标触发图片抖动效果的方法
- android gps 火星坐标,高德地图GCJ-02火星坐标系与GPS的WGS-84坐标系转换公式(安卓)...
- 泉州程序员置业小指南
- linux用户视角可分为,经济学原理下全球视角尔雅答案
- python的猴子补丁(Monkey Patching)
- Atcoder 284题解
- [Revit教程]斑马:分享一个用Revit自适应构件做安全疏散距离分析的方法#S007
- oauth2-怎么使用