解析:正则表达式

代码

import requests

import re

def parse_page(url):

headers = {

'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36',

}

response = requests.get(url,headers)

text = response.text

titles = re.findall(r'

.*?(.*?)',text,re.DOTALL)

dynasties = re.findall(r'

.*?(.*?)',text,re.DOTALL)

authors = re.findall(r'

.*?.*?(.*?)',text,re.DOTALL)

contents_tags = re.findall(r'

(.*?)

',text,re.DOTALL)

contents = []

for content in contents_tags:

content = re.sub(r'<.*?>','',content)

contents.append(content.strip())

poems = []

for value in zip(titles,dynasties,authors,contents):

title,dynasty,author,content = value

poem = [

{

'title':title,

'dynasties':dynasty,

'authors':author,

'contents':content

}

]

poems.append(poem)

for poem in poems:

print(poem)

print('---'*80)

def main():

url = 'https://www.gushiwen.org/default_1.aspx'

for page in range(1,101):

url = url = 'https://www.gushiwen.org/default_%s.aspx'%page

parse_page(url)

if __name__ == '__main__':

main()

python输出古诗词_python爬取古诗文网相关推荐

  1. Python真香之爬取古诗文网

    最近在学习Python相关,学习了基本的语法后想搞点事情试试,所以来爬取下古诗文网中的相关作者信息 准备资料: 爬取目标:爬取古诗文网的唐代作者的信息 目标分析: 一级页面是所有唐代作者的列表,点击名 ...

  2. Python实战---使用正则表达式爬取古诗文网

    使用正则表达式爬取古诗文网 爬取目标 具体字段为: title 标题 dynasty 朝代 author 作者 content 内容 tag 标签 实现代码 ''' @Description: 使用正 ...

  3. Python使用网络抓包的方式,利用超级鹰平台识别验证码登录爬取古诗文网、上篇--识别验证码

    Python使用网络抓包的方式,利用超级鹰平台识别验证码登录,<爬取古诗文网>. 上篇–识别验证码 序言: 哈喽,各位小可爱们,我又来了,这次我新学习到的内容是python爬虫识别验证码. ...

  4. 爬取古诗文网的推荐古诗

    爬取古诗文网的推荐古诗 思路分析 完整代码 结果展示 思路分析 本次的主要目的是练习使用正则表达式提取网页中的数据. 该网站的推荐古诗文一共有10页,页码可以在URL中进行控制,比如说,下面的URL指 ...

  5. python爬取新闻存入数据库_python 爬取古诗文存入mysql数据库的方法

    使用正则提取数据,请求库requests,看代码,在存入数据库时,报错ERROR 1054 (42S22): Unknown column 'title' in 'field list'.原来是我写s ...

  6. Python爬虫(一)——爬取古诗文网,初识什么是爬虫

    首先来说下什么是爬虫,按照百度百科的说法是:是一种按照一定规则,自动抓取万维网信息的程序或者脚本:首先它是程序,需要我们定义好规则,然后程序就会按照定义好的规则抓取网络上的信息,数据抓取下来了之后,需 ...

  7. python 简书_python爬取简书网文章的方法

    python爬取简书网文章的方法 发布时间:2020-06-30 14:37:08 来源:亿速云 阅读:100 作者:清晨 这篇文章主要介绍python爬取简书网文章的方法,文中示例代码介绍的非常详细 ...

  8. Python-爬虫(爬虫练习 爬取古诗文网五言绝句)

    目标网站 采用的数据解析方式:xpath.bs4.re正则 获取网站中所有的五言绝句诗词链接 from bs4 import BeautifulSoup import re# 获取五言绝句代码链接,以 ...

  9. 爬虫学习笔记:爬取古诗文网

    1.目标网站 目标网站:https://so.gushiwen.org/shiwen/default.aspx? 2.爬虫目的 爬取目标网站的文本,如古诗的内容,作者,朝代,并且保存到本地中. 3.爬 ...

最新文章

  1. dataframe重命名
  2. 转:不是技术牛人,如何拿到国内IT巨头的Offer
  3. sequoiadb sdbexprt 导入工具进阶使用
  4. 【数字信号处理】线性时不变系统 LTI “ 输入 “ 与 “ 输出 “ 之间的关系 ( 线性卷积计算方法列举 | 线性卷积计算案例一 | 根据 线性卷积 定义直接计算 卷积 )
  5. 模块的四种形式 模块的调用 循环导入问题 模块的搜索路径 py文件的两种用途 编译python文件 包...
  6. C++ for循环跳过某一项求和
  7. 【DIY】玩转VFD荧光屏(一),自制VFD时钟全资料(原理图+源码+PCB)
  8. 官宣|Apache Flink 1.13.0 正式发布,流处理应用更加简单高效!
  9. OpenGL ES 加载3D模型
  10. 女生做产品经理好吗_产品经理如何做产品架构设计
  11. CodeVs 1017 乘积最大(DP)
  12. html两个字段自动相加,HTML_两个并列的div让其根据内容自动保持同等高度,我们看下下面这个问题:有左 - phpStudy...
  13. 使php支持pdo_mysql
  14. vs2010调用python的方法
  15. thinkphp LoginAction.class.php 登录模块
  16. java matcher方法_Java正则表达式入坑指南:正则表达式使用的类有哪些吗?
  17. vue页面引用echart的词云图
  18. ODl之VTN详解-VTN概述
  19. FPGA学习任意波函数信号发生器的设计(基于quartus II13.0)
  20. pyqt5:利用QFileDialog从本地选择图片\文本文档显示到label、保存图片\label文本到本地(附代码)

热门文章

  1. outlook gmail_将您的Gmail帐户添加到Outlook 2007
  2. 1.机器人导航关键技术研究
  3. 预测和评价----学习反馈
  4. 手机页面前端框架weui+
  5. python日期推算
  6. 通过加速计和地磁传感器实现方位角
  7. c语言点餐系统感悟,一个简单C语言点餐系统的学习心得
  8. 关于80端口和tomcat默认8080端口
  9. 联想用u盘重装系统步骤_联想t430怎么用u盘重装系统
  10. 【stm32c8t6多个串口同时使用】