爬虫学习(12):爬取诗词名句网并且下载保存
用BeautifulSoup爬取并且下载。仅仅用作学习用途哈,不然又侵权了。
效果:
由于我是正在自学爬虫,不是很能找到非常优化的办法,是一名计算机大二学生,代码可能不是很好,还请大神指点,这是我扣扣群:970353786,希望更多喜欢学习python的可以跟我一起学习交流。
上代码:
import requests
from bs4 import BeautifulSoup
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.183 Safari/537.36 Edg/86.0.622.63'
}
url = 'https://www.shicimingju.com/book/hongloumeng.html'
page_text = requests.get(url=url,headers=headers).content.decode('utf-8')
soup = BeautifulSoup(page_text,'lxml')
mulu=soup.find_all(attrs={'class':'book-mulu'})
# mulu=soup.select('.book-mulu')
# print(mulu)
fp = open('./论语.txt','w',encoding='utf-8')
for ul in mulu:a=ul.find_all(name='a')for i in a:title = i.stringnew_url = 'https://www.shicimingju.com' + i['href']# print(new_url)# print(title)html=requests.get(url=new_url,headers=headers).content.decode('utf-8')new_soup=BeautifulSoup(html,'lxml')# print(soup)for wenben in new_soup.find_all('div',{'class':'chapter_content'}):print(wenben.text)c=wenben.textfp.write(title + ':' + c + '\n')print('下载成功')
有问题群里找我,或者这里留言都可以
爬虫学习(12):爬取诗词名句网并且下载保存相关推荐
- 爬取诗词名句网的三国演义小说
爬取诗词名句网的三国演义小说 诗词名句网,有很多的诗词和一些课本上古诗的,是一个很好的文学网站,但是我们就来爬取诗词名句网的三国演义小说 第一步我们还是导入要导入的库: import requests ...
- 每日爬虫练习:bs4库爬取诗词名句网的四大名著
一.前言 2020-04-2日爬虫练习 爬取网站:诗词名句网的四大名著 需求:将四大名著的每一个章节存储到本地 技术路线: 1.requests 2.BeautifulSoup 3.os 二.代码解释 ...
- 使用Xpath+多进程爬取诗词名句网的史书典籍类所有文章。update~
上次写了爬取这个网站的程序,有一些地方不完善,而且爬取速度较慢,今天完善一下并开启多进程爬取,速度就像坐火箭.. # 需要的库 from lxml import etree import reques ...
- python爬虫lxml解析爬取诗词名句
原创:仅用于学习Python爬虫,请勿商业或恶意爬取数据 文件夹和文件都是程序创建,我只爬了这些数据用于测试 仅用了两个for循环,并没有搞的太难(函数),适合新手操练,有大量注释易于理解 from ...
- python 爬取诗词名句网(包含页面跳转)
代码,之前一直乱码,经过多番尝试 使用了.encode('ISO-8859-1').decode('utf-8')这个方法 from bs4 import BeautifulSoup import r ...
- python爬虫 爬取诗词名句网
使用requests库,xpath库 import requests import time from lxml import etree# 去请求页面的函数 def request_Header(u ...
- Python爬虫 scrapy框架爬取某招聘网存入mongodb解析
这篇文章主要介绍了Python爬虫 scrapy框架爬取某招聘网存入mongodb解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 创建项目 sc ...
- Python爬虫学习笔记 -- 爬取糗事百科
Python爬虫学习笔记 -- 爬取糗事百科 代码存放地址: https://github.com/xyls2011/python/tree/master/qiushibaike 爬取网址:https ...
- Python爬虫学习之爬取淘宝搜索图片
Python爬虫学习之爬取淘宝搜索图片 准备工作 因为淘宝的反爬机制导致Scrapy不能使用,所以我这里是使用selenium来获取网页信息,并且通过lxml框架来提取信息. selenium.lxm ...
最新文章
- Spring MVC 通过@Value注解读取.properties配置内容
- 人工智能领导世界走向何方?
- 获取收藏夹路径的C++代码
- 笔记本电池电量校正方法(转CSDN)
- 2020/Province_C_C++_A/A/门牌制作
- NAACL’21 | 来看如何让模型学会因为所以但是如果
- js实现json转excel的npm包
- 基于三菱PLC的两轴圆弧插补
- 微信微博防劫持短网址生成
- 可口可乐启示录(2):如何不带脏字的“怼”竞争对手?【姜太公公】
- Q配置管理和文档管理
- Spring boot 2.0 Actuator 的健康检查
- CPU使用率查看方法
- (ISC)2官方中国CISSP授权培训服务提供商正式启动
- iOS https 自制证书 单向 双向 验证,以及服务器(Nginx)配置
- 常见的积分商城游戏类型有哪些?
- 用vant做一个登陆页面
- 数据结构——非线性结构(树与二叉树)
- 无人驾驶汽车是如何进行行为决策的?
- Java题目训练——星际密码和数根