端午节，我用Python爬取屈原的诗

端午节快到了，端午节令我记忆深刻就是插杨柳，和吃粽子。我们那边没有赛龙舟的习俗，因为我们住在山上，都没有河流，有也只是那种小溪。这可能是因为我们那边的位置原因吧！导致我们没有赛龙舟的习俗o(╥﹏╥)o。

每到端午节，家家户户都要在门口插杨柳，小时候，大人忙的时候就让我们小孩去半山腰的田地里要些柳枝。因为哪里有一颗柳树旁边就一个不用的水库。我们都会先拿柳枝在那个水库玩，玩够了再拿回家。现在想想，不得不说童年的快乐真的很简单！

水库是以前用来给田里的水稻供水的,几乎每一片水稻地就是有一个用水泥建的小水库。但在我记忆中，那些水库从来没有过水。因为旁边的地都用来种玉米了，或者其他的了。种水稻可能是我还没有出生的时候，或者很小很小的时候。应该是爷爷年轻那时候吧！

这几年除了过大年，都很少回家了。特别是工作以后，去年开始实习，导致去年一年都没有回家。今年端午也不回去了，因为回一趟家，要转好几次车才回到家，你到家差不多要花费一天的时间。

虽然不能回家,但端午还是要过,由于最近在学爬虫，自己也是比较喜欢古诗。所有想用Python爬取古诗网中屈原的诗。以纪念屈原。

首先要安装两个库requests， bs4。安装命令如下：

# requests   用来发送网路请求的库
pip install requests# bs4 对象的 BeautifulSoup 用来解析html的
pip install bs4

上代码


import time
import requests
from bs4 import BeautifulSoup# 请求头
header = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.5005.63 Safari/537.36"
}# 获取每页数据的方法
def get_page_list(url, params):result = requests.get(url, headers=header, params=params)page_html = BeautifulSoup(result.text, "html.parser")# 所有诗的divpoems_html = page_html.find("div", id="leftZhankai")# 每首诗的divpoems = poems_html.find_all("div", class_="cont")poems_list = []for poem in poems:dic = {}title = poem.find("a", target="_blank").textcontent = poem.find("div", "contson").textdic = {"title": title,"content": content,}poems_list.append(dic)result.close()current = params["page"]print(f"第{current}页爬取完成, 任务仍在进行...")return poems_list# 获取所有数据的方法
def get_poems(url):params = {"page": "1","tstr": "屈原",}poems_list = []for item in range(1, 5):params["page"] = itempoems_page = get_page_list(url, params)poems_list.extend(poems_page)time.sleep(1)return poems_list# 下载数据的方法
def download_data(path, data):with open(path, "w", encoding="utf-8") as f:for poem in data:f.write(poem["title"])f.write(poem["content"])f.write("\n\n")# 花式打印
def printer(text, delay = 0.1):for word in text:print(f"\033[1;34m {word}\033[0m", end='', flush=True)time.sleep(delay)""""
主方法  ----> 干了两件事：1. 获取数据2. 下载数据
"""
def main():print("\n")printer("为了纪念屈原，我用Python爬取古诗网中屈原的所有诗文，方便日后的背诵。")time.sleep(0.5)print("\n")print('-------------------------------------------------------------------------------')print("|\033[1;31;40m                                 开始行动                                    \033[0m|")print('-------------------------------------------------------------------------------')# 获取数据poems_list = get_poems("https://so.gushiwen.cn/shiwens/default.aspx")# 下载数据download_data("屈原诗文大全.txt", poems_list)print('-------------------------------------------------------------------------------')print("|\033[1;31;40m                                 行动结束                                    \033[0m|")print('-------------------------------------------------------------------------------')if __name__ == "__main__":main()

端午节，我用Python爬取屈原的诗相关推荐

用 Python 爬取 4332 条数据，揭秘甜咸肉粽的江湖！
作者 | 朱小五责编 | 屠敏来源 | 凹凸数据端午节快要到了,甜咸粽子之争也快要拉开帷幕. 本文准备用Python爬取淘宝上的粽子数据并进行分析,看看有什么发现. 注:本文仅用于学习交流,禁止 ...
Python爬取数据存储到本地文本文件
前面说过Python爬取的数据可以存储到文件.关系型数据库.非关系型数据库.前面两篇文章没看的,可快速戳这里查看!https://mp.weixin.qq.com/s/A-qry4r3ymuCLXLB ...
python爬取电影评分_用Python爬取猫眼上的top100评分电影
代码如下: # 注意encoding = 'utf-8'和ensure_ascii = False,不写的话不能输出汉字 import requests from requests.exception ...
用Python爬取好奇心日报
用Python爬取好奇心日报本项目最后更新于2018-7-24,可能会因为没有更新而失效.如已失效或需要修正,请联系我! 本项目已授权微信公众号"菜鸟学Python"发表文章爬 ...
python爬取新闻并归数据库_Python爬取数据并写入MySQL数据库操作示例
Python爬取数据并写入MySQL数据库的实例首先我们来爬取 http://html-color-codes.info/color-names/ 的一些数据. 按 F12 或 ctrl+u 审查元 ...
Python 爬取北京二手房数据，分析北漂族买得起房吗？（附完整源码）
来源:CSDN 本文约3500字,建议阅读9分钟. 本文根据Python爬取了赶集网北京二手房数据,R对爬取的二手房房价做线性回归分析,适合刚刚接触Python&R的同学们学习参考. 房价高是 ...
python爬取天气_python3爬取各类天气信息
本来是想从网上找找有没有现成的爬取空气质量状况和天气情况的爬虫程序,结果找了一会儿感觉还是自己写一个吧. 主要是爬取北京包括北京周边省会城市的空气质量数据和天气数据. 过程中出现了一个错误:Unico ...
html如何获取请求头变量的值。_如何使用 Python 爬取微信公众号文章
我比较喜欢看公众号,有时遇到一个感兴趣的公众号时,都会感觉相逢恨晚,想一口气看完所有历史文章.但是微信的阅读体验挺不好的,看历史文章得一页页的往后翻,下一次再看时还得重复操作,很是麻烦. 于是便想着能 ...
python爬取网页书籍名称代码_python爬取亚马逊书籍信息代码分享
我有个需求就是抓取一些简单的书籍信息存储到mysql数据库,例如,封面图片,书名,类型,作者,简历,出版社,语种. 我比较之后,决定在亚马逊来实现我的需求. 我分析网站后发现,亚马逊有个高级搜索的功能 ...
python爬取资料_Python爬取FLASH播放器中的资料
Python爬取FLASH播放器中的资料. 一.首先了解一下AMF协议:AMF(Action Message Format)是Flash与服务端通信的一种常见的二进制编码模式,其传输效率高,可以在HT ...

端午节，我用Python爬取屈原的诗

端午节，我用Python爬取屈原的诗相关推荐

最新文章

热门文章