import requests

from bs4 import BeautifulSoup

import time

import os

# 获取所有章节的链接

def get_novel_chapters():

url_root = "http://www.89wxw.cn/2/2665/"

r = requests.get(url_root)

r.encoding = 'gbk'

soup = BeautifulSoup(r.text, 'html.parser')

# 储存数据

data = []

for dd in soup.find_all("dd"):

link = dd.find("a")

if not link:

continue

data.append(("http://www.89wxw.cn%s" % link['href'], link.get_text()))

return data

# 抓取章节的正文

def get_chapter_content(url):

r = requests.get(url)

r.encoding = 'gbk'

soup = BeautifulSoup(r.text, 'html.parser') # 解析数据

return soup.find("div", id="content").get_text().strip().replace("xa0*4", "\n\n")

# 小说保存文件名称

path = '太古星辰诀'

if not os.path.exists(path):

os.makedirs(path)

novel_chapters = get_novel_chapters()

total_cnt = len(novel_chapters)

idx = 0

for chapter in get_novel_chapters():

idx += 1

url, title = chapter

print(chapter)

print("下载中---------->",title)

time.sleep(3)

filename = path + '/' + '{}.txt'.format(title)

# 保存数据

with open(filename, "w", encoding='utf-8') as fout:

fout.write(get_chapter_content(url))

python小说爬虫实训报告_1.2Python网络爬虫实践(1)爬取89文学网小说相关推荐

  1. python爬取晋江_爬虫爬取晋江文学网总分榜(失败)

    一.目的 : 爬取晋江文学网总分榜 二.python爬取数据 三.爬取 在开始多出现了38号而且顺序内容不准确 代码: import requests from bs4 import Beautifu ...

  2. python爬取晋江_爬虫爬取晋江文学网总分榜

    一.目的 : 爬取晋江文学网总分榜 二.python爬取数据 三.爬取 在开始多出现了38号而且顺序内容不准确 代码: import requests from bs4 import Beautifu ...

  3. 使用Scrapy框架爬取88读书网小说,并保存本地文件

    Scrapy框架,爬取88读书网小说 链接: 88读书网 源码 工具 python 3.7 pycharm scrapy框架 教程 spider: # -*- coding: utf-8 -*- im ...

  4. python飞机大战实训报告200_飞机大战实训报告.doc

    您所在位置:网站首页 > 海量文档 &nbsp>&nbsp行业资料&nbsp>&nbsp航空/航天 飞机大战实训报告.doc22页 本文档一共被下载: ...

  5. python网络爬虫实训报告-Python网络爬虫与文本数据分析

    原标题:Python网络爬虫与文本数据分析 在过去的两年间,Python一路高歌猛进,成功窜上"最火编程语言"的宝座.惊奇的是使用Python最多的人群其实不是程序员,而是数据科学 ...

  6. python图书管理实训报告总结_图书管理系统心得-总结报告模板

    图书管理系统心得 为期两个星期的 c# 图书管理系统实习终于结束了,总算松了一口气,在这 短短的两周时间内承受了很大的压力现在终于能够得到"释放"了, 感觉到很轻 松. 回顾这两周 ...

  7. python小说爬虫实训报告_python之新手一看就懂的小说爬虫

    晚上回来学学爬虫,记住,很多网站一般新手是爬不出来的,来个简单的,往下看: import urllib.request from bs4 import BeautifulSoup #我用的pychar ...

  8. python主成分分析法实训报告_基于 python 的主成分分析步骤及应用实例

    主成分分析:步骤.应用及代码实现. 主成分分析(Principal Component Analysis)算法步骤: 设有 m 条 n 维数据: 将原始数据按列组成 n 行 m 列矩阵 X 将 X 的 ...

  9. python超市管理系统实训报告_超市管理系统实验报告范文

    超市管理系统实验报告 一.背景 现在, 我们身边到处都是超市, 而这些超市很多都是小型超市, 在这些超市 里,实行的还是人工管理,管理方式混乱,工作效率低下,管理成本也比较高, 还不能及时的得到货物信 ...

最新文章

  1. java list写入txt_Java - 如何将我的ArrayList写入文件,并将该文件读取(加载)到原始ArrayList?...
  2. Plist文件的创建与读写
  3. SpringBoot集成jsp(附源码)+遇到的坑
  4. Python 的6个日期时间库
  5. spring基于纯注解的声明式事务控制
  6. 【今日CS 视觉论文速览】Mon, 7 Jan 2019
  7. 苹果已开始研发蜂窝调制解调器 不只是用于iPhone
  8. 世界经典反编译工具reflector下载
  9. 快速理解旋转运动公式
  10. 流光快门Matlab,华为手机流光快门太好玩了!这几个特效分分钟拍出大片感
  11. 服务器p盘cpu占用率低,硬盘问题导致的CPU占用率100%解决实例
  12. 图像处理领域术语英文对应
  13. 欢迎使JMKAJL KAJLKFJD
  14. Android最佳实践之性能 - 电池续航时间优化
  15. 如何使用OBS开启直播
  16. 自学Java的心路历程
  17. python实现SVG文件解析
  18. C语言简单入门教程(初学者用)
  19. win10出现错误代码0x80073712的解决办法
  20. IIS配置反向代理URL rewrite.dll加载失败

热门文章

  1. JAVA架构之路(DDD架构模型)
  2. 1-氨丙基-3-甲基咪唑溴盐离子液体修饰碳量子点(L-CQDs)负载TiO2纳米颗粒(试剂)
  3. SAP Report painter报表绘制器
  4. A-Z,a-z,0-9的unicode编码表
  5. 【元胞自动机】基于matlab元胞自动机3D森林火灾模型【含Matlab源码 656期】
  6. DCDC 电源PCB layout布局
  7. wpe3.0汉化版_3.0版
  8. Scratch(五十五):后羿射日
  9. Java中的this关键字(三种用法)
  10. 联想3850 X5服务器添加内存之后红屏