【爬虫练手小demo】爬取古诗词

爬取的网站链接为 base_url= https://www.gushiwen.org/

想按照页面右边栏的各个分类进行爬取，例如“春天”，“夏天”，“爱情”，“爱国”等。

拿“爱情”类别举例，点进去发现链接变为 https://so.gushiwen.org/gushi/aiqing.aspx

ctrl+shift+I 观察html页面结构发现每个诗的链接都藏在<div class="typecont">下，通过xpath很容易获取链接。

base_url 加上这里<a href>后面的链接即可找到诗词所在页面：

同样的道理获取朝代、诗人、内容。

获取内容时要注意，有的格式为<div> 文本</div>，但是有的格式为<div> <p>文本</p> </div>

所以要先获取到上一级之后再用 .xpath("string(.)")。全部代码如下：

import re
import requests
from lxml import etree
import os
import csvclass spider:def __init__(self,start_url):self.headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.84 Safari/537.36'  #noqa}self.base_url='http://so.gushiwen.org'def crawl_title(self):html = requests.get(start_url,headers=self.headers).content# print(html)selector = etree.HTML(html)poetry_link = selector.xpath("//div[@class='typecont']//@href ")# print(title_str)# title = re.findall()file_path = os.path.split(os.path.realpath(__file__))[0] +  os.sep +"aiqing.csv"csvfile = open(file_path,"a+",encoding='utf-8',newline='')for link in poetry_link:url = self.base_url + link# print(url)res=requests.get(url,headers=self.headers).contentselector = etree.HTML(res)title=selector.xpath("//div[@class='cont']//h1/text()")[0]# print(title)#朝代dynasty_str = selector.xpath("//div[@class='cont']//p[@class='source']/a/text()")dynasty = dynasty_str[0]#作者author = dynasty_str[1]# print(dynasty)# print(author)#内容c = selector.xpath("//div[@class='sons'][1]//div[@class='contson']")[0]info = c.xpath("string(.)")content = ''content = content.join(info)# print(content)writer = csv.writer(csvfile)data_row = [author,dynasty,title,content,"爱情"]writer.writerow(data_row)csvfile.close()def start(self):self.crawl_title()if __name__ == '__main__':start_url='http://so.gushiwen.org/gushi/aiqing.aspx'pp = spider(start_url)pp.start()

执行之后即生成aiqing.csv文件。

想要爬取其他类别修改一下start_url以及文件名即可。

【爬虫练手小demo】爬取古诗词相关推荐

爬虫练手小项目：豆瓣高分图书TOP100
爬虫练手小项目:豆瓣高分图书TOP100 import requests import re from requests.exceptions import RequestException impo ...
从入门到入土：Python爬虫学习|实例练手|详细讲解|爬取腾讯招聘网|一步一步分析|异步加载|初级难度反扒处理|寻找消失的API来找工作吧
此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...
python精彩小视频_Python爬虫：全民小视频爬取，你想到了什么？
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理本次目标爬取全民小视频在这里插入图片描述选择影视类目在这里插入图片描 ...
爬虫urllib库小项目---爬取豆瓣读书网的海报和书籍名称并存储
url = "https://book.douban.com/latest?icn=index-latestbook-all" 小项目需求: 1.图书海报 2.图书海报存储到本地地 ...
SSM练手小demo——BookShop图书网络销售系统
下载地址 https://github.com/superdoog/bookshop 项目预览 http://49.235.62.115:8080/BookShop 前台 http://49.235. ...
Python 小小爬虫练手，爬取自己的IP
Python 小小爬虫练手,爬取自己的IP import re import urllib.request url="http://2020.ip138.com/i ...
练手小项目，爬取3DM图片
博客原文:https://weweweha.com 1. 概述爬取3DM指定网页的游戏壁纸,并且通过多线程来加速爬取图片的速度. 2.使用库 request库用来1解析指定网页,re库用来搜 ...
Python爬虫利用18行代码爬取虎牙上百张小姐姐图片
Python爬虫利用18行代码爬取虎牙上百张小姐姐图片下面开始上代码需要用到的库 import request #页面请求 import time #用于时间延迟 import re #正则表达式 ...
python输出古诗词_python爬虫——爬取古诗词
一. 概要 1.通过python爬虫循环爬取古诗词网站唐诗宋词 2.落地到本地数据库二. 页面分析首先通过firedebug进行页面定位: 其次源码定位: 最终生成lxml etree定位div标 ...

【爬虫练手小demo】爬取古诗词

【爬虫练手小demo】爬取古诗词相关推荐

最新文章

热门文章