python 小说cms系统_「博文小说网」Python爬虫爬取小说网站 - seo实验室
博文小说网
#!/usr/bin/env Python
# -*- coding: utf-8 -*-
# @Author : Woolei
# @File : book136_singleprocess.py
import requests
import time
import os
from bs4 import BeautifulSoup
'User-Agent':
'Mozilla/5.0 (windows NT 10.0; Win64; x64) APPleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.36'
}
# 获取小说章节内容,并写入文本
def getChaptercontent(each_chapter_dict):
content_html = requests.get(each_chapter_dict['chapter_url'], headers=headers).text
soup = BeautifulSoup(content_html, 'lxml')
content_tag = soup.find('p', {'id': 'content'})
p_tag = content_tag.find_all('p')
print('正在保存的章节 --> ' + each_chapter_dict['name'])
for each in p_tag:
paragraph = each.get_text().strip()
with open(each_chapter_dict['name'] + r'.txt', 'a', encoding='utf8') as f:
f.write(' ' + paragraph + '\n\n')
f.close()
# 获取小说各个章节的名字和url
def getChapterInfo(novel_url):
chapter_html = requests.get(novel_url, headers=headers).text
soup = BeautifulSoup(chapter_html, 'lxml')
chapter_list = soup.find_all('li')
chapter_all_dict = {}
for each in chapter_list:
import re
chapter_each = {}
chapter_each['name'] = each.find('a').get_text() # 获取章节名字
chapter_each['chapter_url'] = each.find('a')['href'] # 获取章节url
chapter_num = int(re.findall('\d+', each.get_text())[0]) # 提取章节序号
chapter_all_dict[chapter_num] = chapter_each # 记录到所有的章节的字典中保存
return chapter_all_dict
if __name__ == '__main__':
start = time.clock() # 记录程序运行起始时间
novel_url = 'https://www.136book.com/sanshengsanshimenglitaohua/' # 这里以三生三世十里桃花为例
novel_info = getChapterInfo(novel_url) # 获取小说章节记录信息
dir_name = '保存的小说路径'
if not os.path.exists(dir_name):
os.mkdir(dir_name)
os.chdir(dir_name) # 切换到保存小说的目录
for each in novel_info:
getChapterContent(novel_info[each])
# time.sleep(1)
end = time.clock() # 记录程序结束的时间
print('保存小说结束,共保存了 %d 章,消耗时间:%f s' % (len(novel_info), (end - start)))
相关阅读
本篇文章主要介绍文章摘要提取的方法,将从抽取式摘要提取和生成式摘要提取两种思路介绍。一,背景介绍
利用计算机将大量的文本进行
System.out.println(Calendar.getInstance().get(Calendar.DAY_OF_MONTH));
使用技术
python3 + requests模块安装requests模板pip install requests
实现目标
可以通过控制台输入爬取图片类型
指定爬取图
88元钉钉福卡红包怎么领取?2017支付宝五福活动推出钉钉福卡,没有五福也能领钉钉福卡红包而且钉钉福卡每天发放88元红包。那么88元
全部代码以及分析见GitHub:https://github.com/dta0502/douban-top250
本文是Python爬取豆瓣的top250电影的分析和实现,具体是将电
python 小说cms系统_「博文小说网」Python爬虫爬取小说网站 - seo实验室相关推荐
- python 文本框位置_「每日一练」Python文本框的显示和插入
Python强大之处在于对于数据的处理,而处理数据就离不开文本框,那么你知道Python中文本框是如何显示和插入吗? 案例 python文本框的显示和插入 先上代码~ 运行效果 题目详述 第一行: i ...
- python抖音接口_「docker实战篇」python的docker-抖音分析接口数据分析(21)
上节xposed已经安装完毕,设置对应的android的版本和代理服务器. 准备工作 1.xposed和JustTruestMe的安装 2.抖音安装完毕 启动fildder 点击进入指定的粉丝界面 查 ...
- python抓包工具_「docker实战篇」python的docker爬虫技术-fiddler抓包软件详细配置(七)...
挑选常用的功能给各位老铁介绍下. fiddler第一次进入fiddlerfiddler会请求fiddler的官网,检查更新操作布局分布 工具栏File -capture traffic开启爬虫File ...
- python抓包程序_「docker实战篇」python的docker爬虫技术-fiddler抓包软件详细配置(七)...
fiddler 第一次进入fiddler fiddler会请求fiddler的官网,检查更新操作 布局分布 工具栏 File -capture traffic 开启爬虫 File -new Viewe ...
- css设置图标居左_「css图片居中」css - 常用 垂直/水平居中 + 左右布局 - seo实验室...
css图片居中 主要内容 学习文献 元素居中 胡子哥 - 谈一谈我在阿里的成长 + 2 左右布局 几种常见的CSS布局 -- 掘金 BFC 实现三栏布局的几种方法-- github 实现多列等高布局 ...
- python 小说cms系统_狂雨小说cms开源系统附安装教程-狂雨小说CMS系统(外加一套采集规律)下载两款优化版-西西软件下载...
狂雨小说CMS系统(外加一套采集规律)是一款狂雨小说cms建站内容管理平台系统,内置标签模版,即使不懂代码的前端开发者也可以快速建立一个漂亮的小说网站.用狂雨小说cms搭建自己的小说站. 系统要求 P ...
- node爬虫爬取小说
node爬虫爬取小说 node爬虫爬取小说 直接上代码 node爬虫爬取小说 最近发现自己喜欢的一个小说无法下载,网页版广告太多,操作太难受,只能自己写个爬虫把内容爬下来放在阅读器里面看 项目下载地址 ...
- python网络爬虫_Python网络爬虫——爬取视频网站源视频!
原标题:Python网络爬虫--爬取视频网站源视频! 学习前提 1.了解python基础语法 2.了解re.selenium.BeautifulSoup.os.requests等python第三方库 ...
- python怎么爬网站视频教程_python爬虫爬取某网站视频的示例代码
把获取到的下载视频的url存放在数组中(也可写入文件中),通过调用迅雷接口,进行自动下载.(请先下载迅雷,并在其设置中心的下载管理中设置为一键下载) 实现代码如下: from bs4 import B ...
最新文章
- 天堂2启动mysql就没了_启用二进制日志文件进行mysql数据恢复
- POJ 1986 Distance Queries(LCA)
- oracle数据导入与导出
- @primary注解_springboot整合redis分别实现手动缓存和注解缓存
- oracle中的代码在那里写,oracle中如何编写树级代码-数据库专栏,ORACLE
- js实现城市拼音首字母排序
- 随笔分类 - PowerShell
- img标签底部总是留有一条白色空隙
- 连载]第四讲 测量准确度、重复性、复现性及标准偏差
- SQL中开窗函数first_value() 和 last_value()
- 斯坦福大学自然语言处理第七课“情感分析(Sentiment Analysis)”
- ubuntu 批量压缩图片
- 春风十里,不如见到你
- !!return——执行了return语句,后面的语句将不会执行!!
- arm linux运行安卓app,Android x86 下运行纯ARM版APP
- 2014 WOT全球软件技术峰会第一天(上午)
- 算数运算符、算术表达式
- Myeclipse和idea对比
- Axure电商后台业务管理系统原型模板+app电商原型交互+移动端电商通用PRD文档+全局交互用例说明+Axure高保真电商社交prd文档+电商prd+电商需求文档+订单、购物车、配货、物流、仓储
- web中转服务器,Web服务器
热门文章
- ofo获蚂蚁金服投资,双方走到一起的原因与钱基本无关?
- 1.3编程实现从键盘依次输入姓名(字符串)、年龄(整型)、性别(字符)和成绩(浮点型),然后依次显示上述内容
- 产品学习--产品经理三大文档--BRD、MRD、PRD
- 【设计模式十六之装饰模式】装饰者模式
- 纳米数据专业体育数据供应商,足球篮球实时数据,实时更新比赛比分数据,体育数据接口api
- 交易撮合系统···实现得比较简陋
- 求弹性模量和泊松比计算题_弹性模量越大说明什么?弹性模量和泊松比
- 利用sns.boxplot绘制箱型图的时候报错:AttributeError: ‘numpy.ndarray‘ object has no attribute ‘boxplot‘
- 计算机桌面怎么截图快捷键,电脑屏幕截图的快捷键是什么
- 在线图片上传 POST文件