【python爬虫】《中华诗词大会》诗词接龙代码实现

# 爬取网站：中华古诗文网
# 诗词接龙
#Author：Eshine
#E-mail:732656715@qq.com
import requests
from my_fake_useragent import UserAgent
from lxml import etree
import random
import re
from pypinyin import lazy_pinyinclass FlyFlowerToken:def __init__(self):self.url = 'https://so.gushiwen.org/shiwen/default_4A111111111111A{}.aspx'self.headers = {"User-Agent": UserAgent().random()}self.poetry_list = []# 起始令self.token = '月'def get_html(self, url):'''获取页面:param url: 需要获取的页面的url:return: 页面的html源码字符串'''return requests.get(url=url,headers=self.headers).content.decode('utf-8')def parse_html(self, html_str):'''解析页面:param html_str: 需要被解析字符串:return: 被解析后的诗句的列表'''html = etree.HTML(html_str)poetry = html.xpath('//div[@class="contson"]//text()')for p in poetry:k = p.strip()m = re.split(r'[。,？,！,；]', k)for i in m:if '，' in i:self.poetry_list.append(i)random.shuffle(self.poetry_list)def check_poetry(self):'''按诗词接龙检查诗词别表的诗句:return:TRUE'''for poetry in self.poetry_list:if lazy_pinyin(self.token) == lazy_pinyin(poetry[0]):print(poetry)self.token = poetry[-1]print(self.token)return Trueelse:return Falsedef main(self):for i in range(1, 1000):url = self.url.format(i)# 获取页面html = self.get_html(url)# 解析页面self.parse_html(html)# 循环检查诗句词的诗句while True:if self.check_poetry():continueelse:breakif __name__ == "__main__":flt = FlyFlowerToken()flt.main()

【python爬虫】《中华诗词大会》诗词接龙代码实现相关推荐

Python爬虫之XPath基础教程：用代码抓取网页数据
Python爬虫之XPath基础教程:用代码抓取网页数据在网络时代,网页数据是获取信息和进行分析的最重要的来源之一.Python的爬虫技术让我们可以轻松抓取网页数据,并进行数据处理.XPath是一种 ...
python爬虫图片实例-Python爬虫爬取煎蛋网图片代码实例
这篇文章主要介绍了Python爬虫爬取煎蛋网图片代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下今天,试着爬取了煎蛋网的图片. 用到的包: ...
Python爬虫爬取煎蛋网图片代码实例
这篇文章主要介绍了Python爬虫爬取煎蛋网图片代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下今天,试着爬取了煎蛋网的图片. 用到的包: ...
python爬虫都能干什么用_5 行代码就能写一个 Python 爬虫
欢迎关注我的公众号:第2大脑,或者博客:高级农民工,阅读体验更好. 摘要:5 行代码就能写一个 Python 爬虫. 如果你是比较早关注我的话,会发现我此前的大部分文章都是在写 Python 爬虫,前 ...
python爬虫实例电商_如何用代码爬抓电商数据（附淘宝API调用实例）
原标题:如何用代码爬抓电商数据(附淘宝API调用实例) 欢迎关注天善智能 hellobi.com,我们是专注于商业智能BI,大数据,数据分析领域的垂直社区,学习.问答.求职,一站式搞定! 对商业智能B ...
Python爬虫实战爬取同城艺龙酒店信息
1.爬虫说明同城艺龙的反爬做的是非常好的,本博主在与同城艺龙进行了一整天的殊死搏斗才将其完全的爬下来,本博主是以无锡为例,将无锡的所有酒店的相关信息都爬了下来,共3399条酒店数据,当 ...
Python爬虫-中华英才网登陆JS加密登陆
声明:仅供技术交流,请勿用于非法用途,如有其它非法用途造成损失,和本博客无关 0x00 抓包分析 1.参数分析参数数据来源 password 登陆密码加密参数 callback 固定 finger ...
python爬虫百度贴吧代码大全_零基础写python爬虫之抓取百度贴吧代码分享
这里就不给大家废话了,直接上代码,代码的解释都在注释里面,看不懂的也别来问我,好好学学基础知识去! # -*- coding: utf-8 -*- #------------------------- ...
Python爬虫食物热量及营养元素（详细代码）
爬虫页面云健康网-热量查询导入所需的库和模块 from gevent import monkey import gevent,requests,bs4,openpyxl,time from gev ...
股票交易数据采集+数据可视化（一个朴素无华的Python爬虫+可视化案例，附代全部代码）
前言我国股票投资者数量为15975.24万户, 如此多的股民热衷于炒股,首先抛开炒股技术不说, 那么多股票数据是不是非常难找,找到之后是不是看着密密麻麻的数据是不是头都大了? 今天带大家爬取雪球平台 ...

【python爬虫】《中华诗词大会》诗词接龙代码实现

【python爬虫】《中华诗词大会》诗词接龙代码实现相关推荐

最新文章

热门文章