用BeautifulSoup爬取并且下载。仅仅用作学习用途哈,不然又侵权了。
效果:

由于我是正在自学爬虫,不是很能找到非常优化的办法,是一名计算机大二学生,代码可能不是很好,还请大神指点,这是我扣扣群:970353786,希望更多喜欢学习python的可以跟我一起学习交流。
上代码:

import requests
from bs4 import BeautifulSoup
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.183 Safari/537.36 Edg/86.0.622.63'
}
url = 'https://www.shicimingju.com/book/hongloumeng.html'
page_text = requests.get(url=url,headers=headers).content.decode('utf-8')
soup = BeautifulSoup(page_text,'lxml')
mulu=soup.find_all(attrs={'class':'book-mulu'})
# mulu=soup.select('.book-mulu')
# print(mulu)
fp = open('./论语.txt','w',encoding='utf-8')
for ul in mulu:a=ul.find_all(name='a')for i in a:title = i.stringnew_url = 'https://www.shicimingju.com' + i['href']# print(new_url)# print(title)html=requests.get(url=new_url,headers=headers).content.decode('utf-8')new_soup=BeautifulSoup(html,'lxml')# print(soup)for  wenben in new_soup.find_all('div',{'class':'chapter_content'}):print(wenben.text)c=wenben.textfp.write(title + ':' + c + '\n')print('下载成功')

有问题群里找我,或者这里留言都可以

爬虫学习(12):爬取诗词名句网并且下载保存相关推荐

  1. 爬取诗词名句网的三国演义小说

    爬取诗词名句网的三国演义小说 诗词名句网,有很多的诗词和一些课本上古诗的,是一个很好的文学网站,但是我们就来爬取诗词名句网的三国演义小说 第一步我们还是导入要导入的库: import requests ...

  2. 每日爬虫练习:bs4库爬取诗词名句网的四大名著

    一.前言 2020-04-2日爬虫练习 爬取网站:诗词名句网的四大名著 需求:将四大名著的每一个章节存储到本地 技术路线: 1.requests 2.BeautifulSoup 3.os 二.代码解释 ...

  3. 使用Xpath+多进程爬取诗词名句网的史书典籍类所有文章。update~

    上次写了爬取这个网站的程序,有一些地方不完善,而且爬取速度较慢,今天完善一下并开启多进程爬取,速度就像坐火箭.. # 需要的库 from lxml import etree import reques ...

  4. python爬虫lxml解析爬取诗词名句

    原创:仅用于学习Python爬虫,请勿商业或恶意爬取数据 文件夹和文件都是程序创建,我只爬了这些数据用于测试 仅用了两个for循环,并没有搞的太难(函数),适合新手操练,有大量注释易于理解 from ...

  5. python 爬取诗词名句网(包含页面跳转)

    代码,之前一直乱码,经过多番尝试 使用了.encode('ISO-8859-1').decode('utf-8')这个方法 from bs4 import BeautifulSoup import r ...

  6. python爬虫 爬取诗词名句网

    使用requests库,xpath库 import requests import time from lxml import etree# 去请求页面的函数 def request_Header(u ...

  7. Python爬虫 scrapy框架爬取某招聘网存入mongodb解析

    这篇文章主要介绍了Python爬虫 scrapy框架爬取某招聘网存入mongodb解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 创建项目 sc ...

  8. Python爬虫学习笔记 -- 爬取糗事百科

    Python爬虫学习笔记 -- 爬取糗事百科 代码存放地址: https://github.com/xyls2011/python/tree/master/qiushibaike 爬取网址:https ...

  9. Python爬虫学习之爬取淘宝搜索图片

    Python爬虫学习之爬取淘宝搜索图片 准备工作 因为淘宝的反爬机制导致Scrapy不能使用,所以我这里是使用selenium来获取网页信息,并且通过lxml框架来提取信息. selenium.lxm ...

最新文章

  1. Spring MVC 通过@Value注解读取.properties配置内容
  2. 人工智能领导世界走向何方?
  3. 获取收藏夹路径的C++代码
  4. 笔记本电池电量校正方法(转CSDN)
  5. 2020/Province_C_C++_A/A/门牌制作
  6. NAACL’21 | 来看如何让模型学会因为所以但是如果
  7. js实现json转excel的npm包
  8. 基于三菱PLC的两轴圆弧插补
  9. 微信微博防劫持短网址生成
  10. 可口可乐启示录(2):如何不带脏字的“怼”竞争对手?【姜太公公】
  11. Q配置管理和文档管理
  12. Spring boot 2.0 Actuator 的健康检查
  13. CPU使用率查看方法
  14. (ISC)2官方中国CISSP授权培训服务提供商正式启动
  15. iOS https 自制证书 单向 双向 验证,以及服务器(Nginx)配置
  16. 常见的积分商城游戏类型有哪些?
  17. 用vant做一个登陆页面
  18. 数据结构——非线性结构(树与二叉树)
  19. 无人驾驶汽车是如何进行行为决策的?
  20. Java题目训练——星际密码和数根

热门文章

  1. 10个黑客基础教程!简单有效
  2. 多模态文档LayoutLM版面智能理解技术演进-纪传俊
  3. php图片全屏代码生成器,图像生成器
  4. [转]论青楼女子与游戏策划的异同
  5. 小米电视65寸买哪款合适?小米电视65寸横评对比
  6. git access denied问题
  7. 北京中职学校排名有计算机专业,北京市中职学校排名前十
  8. 畅谈企业数字化之道——2018全球企业服务大会隆重召开
  9. 2.3 软件构架(第二章 自动驾驶的软硬件构架)
  10. viber免费打电话,发短信。五个月用户超千万:简单、免费爆炸式传播