python小说爬虫实训报告_1.2Python网络爬虫实践(1)爬取89文学网小说
import requests
from bs4 import BeautifulSoup
import time
import os
# 获取所有章节的链接
def get_novel_chapters():
url_root = "http://www.89wxw.cn/2/2665/"
r = requests.get(url_root)
r.encoding = 'gbk'
soup = BeautifulSoup(r.text, 'html.parser')
# 储存数据
data = []
for dd in soup.find_all("dd"):
link = dd.find("a")
if not link:
continue
data.append(("http://www.89wxw.cn%s" % link['href'], link.get_text()))
return data
# 抓取章节的正文
def get_chapter_content(url):
r = requests.get(url)
r.encoding = 'gbk'
soup = BeautifulSoup(r.text, 'html.parser') # 解析数据
return soup.find("div", id="content").get_text().strip().replace("xa0*4", "\n\n")
# 小说保存文件名称
path = '太古星辰诀'
if not os.path.exists(path):
os.makedirs(path)
novel_chapters = get_novel_chapters()
total_cnt = len(novel_chapters)
idx = 0
for chapter in get_novel_chapters():
idx += 1
url, title = chapter
print(chapter)
print("下载中---------->",title)
time.sleep(3)
filename = path + '/' + '{}.txt'.format(title)
# 保存数据
with open(filename, "w", encoding='utf-8') as fout:
fout.write(get_chapter_content(url))
python小说爬虫实训报告_1.2Python网络爬虫实践(1)爬取89文学网小说相关推荐
- python爬取晋江_爬虫爬取晋江文学网总分榜(失败)
一.目的 : 爬取晋江文学网总分榜 二.python爬取数据 三.爬取 在开始多出现了38号而且顺序内容不准确 代码: import requests from bs4 import Beautifu ...
- python爬取晋江_爬虫爬取晋江文学网总分榜
一.目的 : 爬取晋江文学网总分榜 二.python爬取数据 三.爬取 在开始多出现了38号而且顺序内容不准确 代码: import requests from bs4 import Beautifu ...
- 使用Scrapy框架爬取88读书网小说,并保存本地文件
Scrapy框架,爬取88读书网小说 链接: 88读书网 源码 工具 python 3.7 pycharm scrapy框架 教程 spider: # -*- coding: utf-8 -*- im ...
- python飞机大战实训报告200_飞机大战实训报告.doc
您所在位置:网站首页 > 海量文档  > 行业资料 > 航空/航天 飞机大战实训报告.doc22页 本文档一共被下载: ...
- python网络爬虫实训报告-Python网络爬虫与文本数据分析
原标题:Python网络爬虫与文本数据分析 在过去的两年间,Python一路高歌猛进,成功窜上"最火编程语言"的宝座.惊奇的是使用Python最多的人群其实不是程序员,而是数据科学 ...
- python图书管理实训报告总结_图书管理系统心得-总结报告模板
图书管理系统心得 为期两个星期的 c# 图书管理系统实习终于结束了,总算松了一口气,在这 短短的两周时间内承受了很大的压力现在终于能够得到"释放"了, 感觉到很轻 松. 回顾这两周 ...
- python小说爬虫实训报告_python之新手一看就懂的小说爬虫
晚上回来学学爬虫,记住,很多网站一般新手是爬不出来的,来个简单的,往下看: import urllib.request from bs4 import BeautifulSoup #我用的pychar ...
- python主成分分析法实训报告_基于 python 的主成分分析步骤及应用实例
主成分分析:步骤.应用及代码实现. 主成分分析(Principal Component Analysis)算法步骤: 设有 m 条 n 维数据: 将原始数据按列组成 n 行 m 列矩阵 X 将 X 的 ...
- python超市管理系统实训报告_超市管理系统实验报告范文
超市管理系统实验报告 一.背景 现在, 我们身边到处都是超市, 而这些超市很多都是小型超市, 在这些超市 里,实行的还是人工管理,管理方式混乱,工作效率低下,管理成本也比较高, 还不能及时的得到货物信 ...
最新文章
- java list写入txt_Java - 如何将我的ArrayList写入文件,并将该文件读取(加载)到原始ArrayList?...
- Plist文件的创建与读写
- SpringBoot集成jsp(附源码)+遇到的坑
- Python 的6个日期时间库
- spring基于纯注解的声明式事务控制
- 【今日CS 视觉论文速览】Mon, 7 Jan 2019
- 苹果已开始研发蜂窝调制解调器 不只是用于iPhone
- 世界经典反编译工具reflector下载
- 快速理解旋转运动公式
- 流光快门Matlab,华为手机流光快门太好玩了!这几个特效分分钟拍出大片感
- 服务器p盘cpu占用率低,硬盘问题导致的CPU占用率100%解决实例
- 图像处理领域术语英文对应
- 欢迎使JMKAJL KAJLKFJD
- Android最佳实践之性能 - 电池续航时间优化
- 如何使用OBS开启直播
- 自学Java的心路历程
- python实现SVG文件解析
- C语言简单入门教程(初学者用)
- win10出现错误代码0x80073712的解决办法
- IIS配置反向代理URL rewrite.dll加载失败
热门文章
- JAVA架构之路(DDD架构模型)
- 1-氨丙基-3-甲基咪唑溴盐离子液体修饰碳量子点(L-CQDs)负载TiO2纳米颗粒(试剂)
- SAP Report painter报表绘制器
- A-Z,a-z,0-9的unicode编码表
- 【元胞自动机】基于matlab元胞自动机3D森林火灾模型【含Matlab源码 656期】
- DCDC 电源PCB layout布局
- wpe3.0汉化版_3.0版
- Scratch(五十五):后羿射日
- Java中的this关键字(三种用法)
- 联想3850 X5服务器添加内存之后红屏