爬虫学习（12）：爬取诗词名句网并且下载保存

用BeautifulSoup爬取并且下载。仅仅用作学习用途哈，不然又侵权了。
效果：

由于我是正在自学爬虫，不是很能找到非常优化的办法，是一名计算机大二学生，代码可能不是很好，还请大神指点,这是我扣扣群：970353786，希望更多喜欢学习python的可以跟我一起学习交流。
上代码：

import requests
from bs4 import BeautifulSoup
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.183 Safari/537.36 Edg/86.0.622.63'
}
url = 'https://www.shicimingju.com/book/hongloumeng.html'
page_text = requests.get(url=url,headers=headers).content.decode('utf-8')
soup = BeautifulSoup(page_text,'lxml')
mulu=soup.find_all(attrs={'class':'book-mulu'})
# mulu=soup.select('.book-mulu')
# print(mulu)
fp = open('./论语.txt','w',encoding='utf-8')
for ul in mulu:a=ul.find_all(name='a')for i in a:title = i.stringnew_url = 'https://www.shicimingju.com' + i['href']# print(new_url)# print(title)html=requests.get(url=new_url,headers=headers).content.decode('utf-8')new_soup=BeautifulSoup(html,'lxml')# print(soup)for  wenben in new_soup.find_all('div',{'class':'chapter_content'}):print(wenben.text)c=wenben.textfp.write(title + ':' + c + '\n')print('下载成功')

有问题群里找我，或者这里留言都可以

爬虫学习（12）：爬取诗词名句网并且下载保存相关推荐

爬取诗词名句网的三国演义小说
爬取诗词名句网的三国演义小说诗词名句网,有很多的诗词和一些课本上古诗的,是一个很好的文学网站,但是我们就来爬取诗词名句网的三国演义小说第一步我们还是导入要导入的库: import requests ...
每日爬虫练习：bs4库爬取诗词名句网的四大名著
一.前言 2020-04-2日爬虫练习爬取网站:诗词名句网的四大名著需求:将四大名著的每一个章节存储到本地技术路线: 1.requests 2.BeautifulSoup 3.os 二.代码解释 ...
使用Xpath+多进程爬取诗词名句网的史书典籍类所有文章。update~
上次写了爬取这个网站的程序,有一些地方不完善,而且爬取速度较慢,今天完善一下并开启多进程爬取,速度就像坐火箭.. # 需要的库 from lxml import etree import reques ...
python爬虫lxml解析爬取诗词名句
原创:仅用于学习Python爬虫,请勿商业或恶意爬取数据文件夹和文件都是程序创建,我只爬了这些数据用于测试仅用了两个for循环,并没有搞的太难(函数),适合新手操练,有大量注释易于理解 from ...
python 爬取诗词名句网（包含页面跳转）
代码,之前一直乱码,经过多番尝试使用了.encode('ISO-8859-1').decode('utf-8')这个方法 from bs4 import BeautifulSoup import r ...
python爬虫爬取诗词名句网
使用requests库,xpath库 import requests import time from lxml import etree# 去请求页面的函数 def request_Header(u ...
Python爬虫 scrapy框架爬取某招聘网存入mongodb解析
这篇文章主要介绍了Python爬虫 scrapy框架爬取某招聘网存入mongodb解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下创建项目 sc ...
Python爬虫学习笔记 -- 爬取糗事百科
Python爬虫学习笔记 -- 爬取糗事百科代码存放地址: https://github.com/xyls2011/python/tree/master/qiushibaike 爬取网址:https ...
Python爬虫学习之爬取淘宝搜索图片
Python爬虫学习之爬取淘宝搜索图片准备工作因为淘宝的反爬机制导致Scrapy不能使用,所以我这里是使用selenium来获取网页信息,并且通过lxml框架来提取信息. selenium.lxm ...

爬虫学习（12）：爬取诗词名句网并且下载保存

爬虫学习（12）：爬取诗词名句网并且下载保存相关推荐

最新文章

热门文章