# 爬取网站:中华古诗文网
# 诗词接龙
#Author:Eshine
#E-mail:732656715@qq.com
import requests
from my_fake_useragent import UserAgent
from lxml import etree
import random
import re
from pypinyin import lazy_pinyinclass FlyFlowerToken:def __init__(self):self.url = 'https://so.gushiwen.org/shiwen/default_4A111111111111A{}.aspx'self.headers = {"User-Agent": UserAgent().random()}self.poetry_list = []# 起始令self.token = '月'def get_html(self, url):'''获取页面:param url: 需要获取的页面的url:return: 页面的html源码字符串'''return requests.get(url=url,headers=self.headers).content.decode('utf-8')def parse_html(self, html_str):'''解析页面:param html_str: 需要被解析字符串:return: 被解析后的诗句的列表'''html = etree.HTML(html_str)poetry = html.xpath('//div[@class="contson"]//text()')for p in poetry:k = p.strip()m = re.split(r'[。,?,!,;]', k)for i in m:if ',' in i:self.poetry_list.append(i)random.shuffle(self.poetry_list)def check_poetry(self):'''按诗词接龙检查诗词别表的诗句:return:TRUE'''for poetry in self.poetry_list:if lazy_pinyin(self.token) == lazy_pinyin(poetry[0]):print(poetry)self.token = poetry[-1]print(self.token)return Trueelse:return Falsedef main(self):for i in range(1, 1000):url = self.url.format(i)# 获取页面html = self.get_html(url)# 解析页面self.parse_html(html)# 循环检查诗句词的诗句while True:if self.check_poetry():continueelse:breakif __name__ == "__main__":flt = FlyFlowerToken()flt.main()

【python爬虫】《中华诗词大会》诗词接龙代码实现相关推荐

  1. Python爬虫之XPath基础教程:用代码抓取网页数据

    Python爬虫之XPath基础教程:用代码抓取网页数据 在网络时代,网页数据是获取信息和进行分析的最重要的来源之一.Python的爬虫技术让我们可以轻松抓取网页数据,并进行数据处理.XPath是一种 ...

  2. python爬虫图片实例-Python爬虫爬取煎蛋网图片代码实例

    这篇文章主要介绍了Python爬虫爬取煎蛋网图片代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 今天,试着爬取了煎蛋网的图片. 用到的包: ...

  3. Python爬虫爬取煎蛋网图片代码实例

    这篇文章主要介绍了Python爬虫爬取煎蛋网图片代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 今天,试着爬取了煎蛋网的图片. 用到的包: ...

  4. python爬虫都能干什么用_5 行代码就能写一个 Python 爬虫

    欢迎关注我的公众号:第2大脑,或者博客:高级农民工,阅读体验更好. 摘要:5 行代码就能写一个 Python 爬虫. 如果你是比较早关注我的话,会发现我此前的大部分文章都是在写 Python 爬虫,前 ...

  5. python爬虫实例电商_如何用代码爬抓电商数据(附淘宝API调用实例)

    原标题:如何用代码爬抓电商数据(附淘宝API调用实例) 欢迎关注天善智能 hellobi.com,我们是专注于商业智能BI,大数据,数据分析领域的垂直社区,学习.问答.求职,一站式搞定! 对商业智能B ...

  6. Python爬虫实战 爬取同城艺龙酒店信息

    1.爬虫说明        同城艺龙的反爬做的是非常好的,本博主在与同城艺龙进行了一整天的殊死搏斗才将其完全的爬下来,本博主是以无锡为例,将无锡的所有酒店的相关信息都爬了下来,共3399条酒店数据,当 ...

  7. Python爬虫-中华英才网登陆JS加密登陆

    声明:仅供技术交流,请勿用于非法用途,如有其它非法用途造成损失,和本博客无关 0x00 抓包分析 1.参数分析 参数 数据来源 password 登陆密码加密参数 callback 固定 finger ...

  8. python爬虫百度贴吧代码大全_零基础写python爬虫之抓取百度贴吧代码分享

    这里就不给大家废话了,直接上代码,代码的解释都在注释里面,看不懂的也别来问我,好好学学基础知识去! # -*- coding: utf-8 -*- #------------------------- ...

  9. Python爬虫食物热量及营养元素(详细代码)

    爬虫页面 云健康网-热量查询 导入所需的库和模块 from gevent import monkey import gevent,requests,bs4,openpyxl,time from gev ...

  10. 股票交易数据采集+数据可视化(一个朴素无华的Python爬虫+可视化案例,附代全部代码)

    前言 我国股票投资者数量为15975.24万户, 如此多的股民热衷于炒股,首先抛开炒股技术不说, 那么多股票数据是不是非常难找,找到之后是不是看着密密麻麻的数据是不是头都大了? 今天带大家爬取雪球平台 ...

最新文章

  1. hadoop完全分布式
  2. 开发你的第一个 Android 应用
  3. 【规范】前端编码规范——css 规范
  4. 如何洗脸才正确?洗脸也有讲究 - 生活至上,美容至尚!
  5. python random 和numpy random_Python中numpy.random和random.random之间的区别
  6. 蓝桥杯 ADV-81 算法提高 数的运算
  7. [填坑]QT信号与槽机制注意事项
  8. 卡通爆炸logo展示片头片尾动态视频AE模板
  9. c语言赋值运算与除法运算顺序,C语言运算符的优先级和结合律
  10. 数学:分数的加减乘除模板
  11. Rancher 2.x 搭建及管理 Kubernetes 集群
  12. 卡巴斯基:2019Q3拒绝服务攻击趋势报告
  13. 二进制代码运算规律是逢二进一
  14. 【C语言】PAT(Basic Level) 1003 “答案正确”是自动判题系统给出的最令人欢喜的回复。 只要读入的字符串满足下列条件,系统就输出“答案正确”,否则输出“答案错误”。
  15. 阳光旅行网app中用户下单功能,《使用Java实现面向对象编程》内部测试机试题
  16. devcpp中使用unordered_map
  17. screen 的创建、恢复、删除命令
  18. datealive软件最新_约会大作战精灵再临国际版下载
  19. ENVI对不含地理参考信息的栅格图像添加地理或投影坐标系信息
  20. at89c52串口通信c语言程序,AT89C52DEMO 基于51单片机的(89C51/52)C语言源码例程 - 下载 - 搜珍网...

热门文章

  1. 民宿营销方案,解决民宿运营三大痛点
  2. 【原创】Magisk Root隐藏模块 Shamiko安装
  3. pytorch实现textCNN
  4. Halcon教程十二:回形针识别进阶
  5. 如何查看Websphere(was)上的jdk版本
  6. 6th WEEK BLOG:CSS中的单位(PS调色板)(doing)
  7. .NET WPF教程(1)——基础
  8. 切换不了摄像头 高拍仪_高拍仪常见问题解答
  9. HTML5:动漫电影网站设计(html+css+javascript)
  10. aix服务器文件名乱码,java aix 文件名乱码