python第三方库bs4库实例之爬取古诗词网上诗歌

# 使用bs4提取网页，先利用find_all解析
import requests
from bs4 import BeautifulSoup
DATA = []
def getHTMLtext(url,headers,timeout=10):try :resp = requests.get(url,headers=headers,timeout=timeout)resp.raise_for_statusresp.encoding = 'utf-8'return resp.textexcept:return ''
def bs4_find_all_Parser(text):soup = BeautifulSoup(text,'lxml')sons = soup.find_all('div',class_ = "sons")[:10] #返回一个<class 'bs4.element.ResultSet'>，每一个元素都是Tag类型# 注意：上一步里面返回了一些其他的元素，我们可以提取出前面的10项，那是我们需要用到的for son in sons:name = son.find('b').stringprint(name)dynasty_author = son.find('p',class_="source").get_text()print(dynasty_author)content = son.find('div',class_="contson").get_text().strip()print(content)like = son.find_all('span')[1].string.strip()print('点赞数:'+like)print('\n'+'*'*30+'\n')if __name__ == '__main__':url = 'https://www.gushiwen.org/default_1.aspx'headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.109 Safari/537.36'}text = getHTMLtext(url,headers)if text == '':print('url: {} 访问失败'.format(url))else:bs4_find_all_Parser(text)

欢迎关注我的公众号【panda一块砖】，分享更多精彩文章。

python第三方库bs4库实例之爬取古诗词网上诗歌相关推荐

python第三方库re库实例之爬取古诗词网上诗歌
# 使用正则表达式解析网页元素 # 关键点:直接找每个个体里面相同位置的元素,用findall一次提取出来到列表中 import requests import re DATA = [] def ge ...
python view函数_Python爬虫实例(二)——爬取新馆疫情每日新增人数
python是世界上最美的语言. 大家好,我是Henry! 疫情以来,相信大家每天都关注着疫情的实时动态,许多网站上也post了疫情的相关资料. 百香园百度各个网站都会统计每日新增,刚学了Matp ...
python爬虫爬取古诗词实例补充讲解之获取注释和译文
对这个网站的具体每首诗,如果想获取它的注释和译文,要怎么实现. 比如: https://so.gushiwen.org/shiwenv_30a67e5c53be.aspx 这首诗,直接进去后,注释和译 ...
python如何下载bs4库_Python BS4库的安装与使用详解
Beautiful Soup 库一般被称为bs4库,支持Python3,是我们写爬虫非常好的第三方库.因用起来十分的简便流畅.所以也被人叫做"美味汤".目前bs4库的最新版本是4. ...
python3爬虫系列03之requests库：根据关键词自动爬取下载百度图片
python3爬虫系列03之requests库:根据关键词自动爬取下载百度图片 1.前言在上一篇文章urllib使用:根据关键词自动爬取下载百度图片当中,我们已经分析过了百度图片的搜索URL的变化 ...
Crawler：基于requests库+json库+40行代码实现爬取猫眼榜单TOP100榜电影名称主要信息
Crawler:基于requests库+json库+40行代码实现爬取猫眼榜单TOP100榜电影名称主要信息目录输出结果实现代码输出结果实现代码 # -*- coding: utf-8 -* ...
requests库（正则提取）爬取千图网
requests库(正则提取)爬取千图网首先分析网页结构打开千图网的网址搜索春节打开网页源代码,发现跳转链接存在网页源代码里接下来我们就利用正则表达式去提取正则表达式最主要的就是找到你想要信 ...
Python爬虫实例：爬取“最好大学网”大学排名
实例2 爬取大学排名上海交通大学设计了一个"最好大学网",上面列出了当前的大学排名.我们要设计爬虫程序,爬取大学排名信息. 爬虫功能要求: 输入:大学排名URL链接输出:大学排 ...
2021-02-27爬虫实例（爬取照片）以虎牙为例
爬虫实例(爬取照片)以虎牙为例开始之前点赞,投币加关注哦开发环境:Python3.7 开发软件:PyCharm Edu 第一步:导入第三方库(模块) # 导入第三方库 import request ...

python第三方库bs4库实例之爬取古诗词网上诗歌

python第三方库bs4库实例之爬取古诗词网上诗歌相关推荐

最新文章

热门文章