博文小说网

#!/usr/bin/env Python

# -*- coding: utf-8 -*-

# @Author : Woolei

# @File : book136_singleprocess.py

import requests

import time

import os

from bs4 import BeautifulSoup

'User-Agent':

'Mozilla/5.0 (windows NT 10.0; Win64; x64) APPleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.36'

}

# 获取小说章节内容,并写入文本

def getChaptercontent(each_chapter_dict):

content_html = requests.get(each_chapter_dict['chapter_url'], headers=headers).text

soup = BeautifulSoup(content_html, 'lxml')

content_tag = soup.find('p', {'id': 'content'})

p_tag = content_tag.find_all('p')

print('正在保存的章节 --> ' + each_chapter_dict['name'])

for each in p_tag:

paragraph = each.get_text().strip()

with open(each_chapter_dict['name'] + r'.txt', 'a', encoding='utf8') as f:

f.write(' ' + paragraph + '\n\n')

f.close()

# 获取小说各个章节的名字和url

def getChapterInfo(novel_url):

chapter_html = requests.get(novel_url, headers=headers).text

soup = BeautifulSoup(chapter_html, 'lxml')

chapter_list = soup.find_all('li')

chapter_all_dict = {}

for each in chapter_list:

import re

chapter_each = {}

chapter_each['name'] = each.find('a').get_text() # 获取章节名字

chapter_each['chapter_url'] = each.find('a')['href'] # 获取章节url

chapter_num = int(re.findall('\d+', each.get_text())[0]) # 提取章节序号

chapter_all_dict[chapter_num] = chapter_each # 记录到所有的章节的字典中保存

return chapter_all_dict

if __name__ == '__main__':

start = time.clock() # 记录程序运行起始时间

novel_url = 'https://www.136book.com/sanshengsanshimenglitaohua/' # 这里以三生三世十里桃花为例

novel_info = getChapterInfo(novel_url) # 获取小说章节记录信息

dir_name = '保存的小说路径'

if not os.path.exists(dir_name):

os.mkdir(dir_name)

os.chdir(dir_name) # 切换到保存小说的目录

for each in novel_info:

getChapterContent(novel_info[each])

# time.sleep(1)

end = time.clock() # 记录程序结束的时间

print('保存小说结束,共保存了 %d 章,消耗时间:%f s' % (len(novel_info), (end - start)))

相关阅读

本篇文章主要介绍文章摘要提取的方法,将从抽取式摘要提取和生成式摘要提取两种思路介绍。一,背景介绍

利用计算机将大量的文本进行

System.out.println(Calendar.getInstance().get(Calendar.DAY_OF_MONTH));

使用技术

python3 + requests模块安装requests模板pip install requests

实现目标

可以通过控制台输入爬取图片类型

指定爬取图

88元钉钉福卡红包怎么领取?2017支付宝五福活动推出钉钉福卡,没有五福也能领钉钉福卡红包而且钉钉福卡每天发放88元红包。那么88元

全部代码以及分析见GitHub:https://github.com/dta0502/douban-top250

本文是Python爬取豆瓣的top250电影的分析和实现,具体是将电

python 小说cms系统_「博文小说网」Python爬虫爬取小说网站 - seo实验室相关推荐

  1. python 文本框位置_「每日一练」Python文本框的显示和插入

    Python强大之处在于对于数据的处理,而处理数据就离不开文本框,那么你知道Python中文本框是如何显示和插入吗? 案例 python文本框的显示和插入 先上代码~ 运行效果 题目详述 第一行: i ...

  2. python抖音接口_「docker实战篇」python的docker-抖音分析接口数据分析(21)

    上节xposed已经安装完毕,设置对应的android的版本和代理服务器. 准备工作 1.xposed和JustTruestMe的安装 2.抖音安装完毕 启动fildder 点击进入指定的粉丝界面 查 ...

  3. python抓包工具_「docker实战篇」python的docker爬虫技术-fiddler抓包软件详细配置(七)...

    挑选常用的功能给各位老铁介绍下. fiddler第一次进入fiddlerfiddler会请求fiddler的官网,检查更新操作布局分布 工具栏File -capture traffic开启爬虫File ...

  4. python抓包程序_「docker实战篇」python的docker爬虫技术-fiddler抓包软件详细配置(七)...

    fiddler 第一次进入fiddler fiddler会请求fiddler的官网,检查更新操作 布局分布 工具栏 File -capture traffic 开启爬虫 File -new Viewe ...

  5. css设置图标居左_「css图片居中」css - 常用 垂直/水平居中 + 左右布局 - seo实验室...

    css图片居中 主要内容 学习文献 元素居中 胡子哥 - 谈一谈我在阿里的成长 + 2 左右布局 几种常见的CSS布局 -- 掘金 BFC 实现三栏布局的几种方法-- github 实现多列等高布局 ...

  6. python 小说cms系统_狂雨小说cms开源系统附安装教程-狂雨小说CMS系统(外加一套采集规律)下载两款优化版-西西软件下载...

    狂雨小说CMS系统(外加一套采集规律)是一款狂雨小说cms建站内容管理平台系统,内置标签模版,即使不懂代码的前端开发者也可以快速建立一个漂亮的小说网站.用狂雨小说cms搭建自己的小说站. 系统要求 P ...

  7. node爬虫爬取小说

    node爬虫爬取小说 node爬虫爬取小说 直接上代码 node爬虫爬取小说 最近发现自己喜欢的一个小说无法下载,网页版广告太多,操作太难受,只能自己写个爬虫把内容爬下来放在阅读器里面看 项目下载地址 ...

  8. python网络爬虫_Python网络爬虫——爬取视频网站源视频!

    原标题:Python网络爬虫--爬取视频网站源视频! 学习前提 1.了解python基础语法 2.了解re.selenium.BeautifulSoup.os.requests等python第三方库 ...

  9. python怎么爬网站视频教程_python爬虫爬取某网站视频的示例代码

    把获取到的下载视频的url存放在数组中(也可写入文件中),通过调用迅雷接口,进行自动下载.(请先下载迅雷,并在其设置中心的下载管理中设置为一键下载) 实现代码如下: from bs4 import B ...

最新文章

  1. 天堂2启动mysql就没了_启用二进制日志文件进行mysql数据恢复
  2. POJ 1986 Distance Queries(LCA)
  3. oracle数据导入与导出
  4. @primary注解_springboot整合redis分别实现手动缓存和注解缓存
  5. oracle中的代码在那里写,oracle中如何编写树级代码-数据库专栏,ORACLE
  6. js实现城市拼音首字母排序
  7. 随笔分类 - PowerShell
  8. img标签底部总是留有一条白色空隙
  9. 连载]第四讲 测量准确度、重复性、复现性及标准偏差
  10. SQL中开窗函数first_value() 和 last_value()
  11. 斯坦福大学自然语言处理第七课“情感分析(Sentiment Analysis)”
  12. ubuntu 批量压缩图片
  13. 春风十里,不如见到你
  14. !!return——执行了return语句,后面的语句将不会执行!!
  15. arm linux运行安卓app,Android x86 下运行纯ARM版APP
  16. 2014 WOT全球软件技术峰会第一天(上午)
  17. 算数运算符、算术表达式
  18. Myeclipse和idea对比
  19. Axure电商后台业务管理系统原型模板+app电商原型交互+移动端电商通用PRD文档+全局交互用例说明+Axure高保真电商社交prd文档+电商prd+电商需求文档+订单、购物车、配货、物流、仓储
  20. web中转服务器,Web服务器

热门文章

  1. ofo获蚂蚁金服投资,双方走到一起的原因与钱基本无关?
  2. 1.3编程实现从键盘依次输入姓名(字符串)、年龄(整型)、性别(字符)和成绩(浮点型),然后依次显示上述内容
  3. 产品学习--产品经理三大文档--BRD、MRD、PRD
  4. 【设计模式十六之装饰模式】装饰者模式
  5. 纳米数据专业体育数据供应商,足球篮球实时数据,实时更新比赛比分数据,体育数据接口api
  6. 交易撮合系统···实现得比较简陋
  7. 求弹性模量和泊松比计算题_弹性模量越大说明什么?弹性模量和泊松比
  8. 利用sns.boxplot绘制箱型图的时候报错:AttributeError: ‘numpy.ndarray‘ object has no attribute ‘boxplot‘
  9. 计算机桌面怎么截图快捷键,电脑屏幕截图的快捷键是什么
  10. 在线图片上传 POST文件