【python爬虫】《中华诗词大会》诗词接龙代码实现
# 爬取网站:中华古诗文网
# 诗词接龙
#Author:Eshine
#E-mail:732656715@qq.com
import requests
from my_fake_useragent import UserAgent
from lxml import etree
import random
import re
from pypinyin import lazy_pinyinclass FlyFlowerToken:def __init__(self):self.url = 'https://so.gushiwen.org/shiwen/default_4A111111111111A{}.aspx'self.headers = {"User-Agent": UserAgent().random()}self.poetry_list = []# 起始令self.token = '月'def get_html(self, url):'''获取页面:param url: 需要获取的页面的url:return: 页面的html源码字符串'''return requests.get(url=url,headers=self.headers).content.decode('utf-8')def parse_html(self, html_str):'''解析页面:param html_str: 需要被解析字符串:return: 被解析后的诗句的列表'''html = etree.HTML(html_str)poetry = html.xpath('//div[@class="contson"]//text()')for p in poetry:k = p.strip()m = re.split(r'[。,?,!,;]', k)for i in m:if ',' in i:self.poetry_list.append(i)random.shuffle(self.poetry_list)def check_poetry(self):'''按诗词接龙检查诗词别表的诗句:return:TRUE'''for poetry in self.poetry_list:if lazy_pinyin(self.token) == lazy_pinyin(poetry[0]):print(poetry)self.token = poetry[-1]print(self.token)return Trueelse:return Falsedef main(self):for i in range(1, 1000):url = self.url.format(i)# 获取页面html = self.get_html(url)# 解析页面self.parse_html(html)# 循环检查诗句词的诗句while True:if self.check_poetry():continueelse:breakif __name__ == "__main__":flt = FlyFlowerToken()flt.main()
【python爬虫】《中华诗词大会》诗词接龙代码实现相关推荐
- Python爬虫之XPath基础教程:用代码抓取网页数据
Python爬虫之XPath基础教程:用代码抓取网页数据 在网络时代,网页数据是获取信息和进行分析的最重要的来源之一.Python的爬虫技术让我们可以轻松抓取网页数据,并进行数据处理.XPath是一种 ...
- python爬虫图片实例-Python爬虫爬取煎蛋网图片代码实例
这篇文章主要介绍了Python爬虫爬取煎蛋网图片代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 今天,试着爬取了煎蛋网的图片. 用到的包: ...
- Python爬虫爬取煎蛋网图片代码实例
这篇文章主要介绍了Python爬虫爬取煎蛋网图片代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 今天,试着爬取了煎蛋网的图片. 用到的包: ...
- python爬虫都能干什么用_5 行代码就能写一个 Python 爬虫
欢迎关注我的公众号:第2大脑,或者博客:高级农民工,阅读体验更好. 摘要:5 行代码就能写一个 Python 爬虫. 如果你是比较早关注我的话,会发现我此前的大部分文章都是在写 Python 爬虫,前 ...
- python爬虫实例电商_如何用代码爬抓电商数据(附淘宝API调用实例)
原标题:如何用代码爬抓电商数据(附淘宝API调用实例) 欢迎关注天善智能 hellobi.com,我们是专注于商业智能BI,大数据,数据分析领域的垂直社区,学习.问答.求职,一站式搞定! 对商业智能B ...
- Python爬虫实战 爬取同城艺龙酒店信息
1.爬虫说明 同城艺龙的反爬做的是非常好的,本博主在与同城艺龙进行了一整天的殊死搏斗才将其完全的爬下来,本博主是以无锡为例,将无锡的所有酒店的相关信息都爬了下来,共3399条酒店数据,当 ...
- Python爬虫-中华英才网登陆JS加密登陆
声明:仅供技术交流,请勿用于非法用途,如有其它非法用途造成损失,和本博客无关 0x00 抓包分析 1.参数分析 参数 数据来源 password 登陆密码加密参数 callback 固定 finger ...
- python爬虫百度贴吧代码大全_零基础写python爬虫之抓取百度贴吧代码分享
这里就不给大家废话了,直接上代码,代码的解释都在注释里面,看不懂的也别来问我,好好学学基础知识去! # -*- coding: utf-8 -*- #------------------------- ...
- Python爬虫食物热量及营养元素(详细代码)
爬虫页面 云健康网-热量查询 导入所需的库和模块 from gevent import monkey import gevent,requests,bs4,openpyxl,time from gev ...
- 股票交易数据采集+数据可视化(一个朴素无华的Python爬虫+可视化案例,附代全部代码)
前言 我国股票投资者数量为15975.24万户, 如此多的股民热衷于炒股,首先抛开炒股技术不说, 那么多股票数据是不是非常难找,找到之后是不是看着密密麻麻的数据是不是头都大了? 今天带大家爬取雪球平台 ...
最新文章
- hadoop完全分布式
- 开发你的第一个 Android 应用
- 【规范】前端编码规范——css 规范
- 如何洗脸才正确?洗脸也有讲究 - 生活至上,美容至尚!
- python random 和numpy random_Python中numpy.random和random.random之间的区别
- 蓝桥杯 ADV-81 算法提高 数的运算
- [填坑]QT信号与槽机制注意事项
- 卡通爆炸logo展示片头片尾动态视频AE模板
- c语言赋值运算与除法运算顺序,C语言运算符的优先级和结合律
- 数学:分数的加减乘除模板
- Rancher 2.x 搭建及管理 Kubernetes 集群
- 卡巴斯基:2019Q3拒绝服务攻击趋势报告
- 二进制代码运算规律是逢二进一
- 【C语言】PAT(Basic Level) 1003 “答案正确”是自动判题系统给出的最令人欢喜的回复。 只要读入的字符串满足下列条件,系统就输出“答案正确”,否则输出“答案错误”。
- 阳光旅行网app中用户下单功能,《使用Java实现面向对象编程》内部测试机试题
- devcpp中使用unordered_map
- screen 的创建、恢复、删除命令
- datealive软件最新_约会大作战精灵再临国际版下载
- ENVI对不含地理参考信息的栅格图像添加地理或投影坐标系信息
- at89c52串口通信c语言程序,AT89C52DEMO 基于51单片机的(89C51/52)C语言源码例程 - 下载 - 搜珍网...