python自动生成采集规则_【仅供学习参考】Python多线程池采集小说,超简单!
[Python] 纯文本查看 复制代码#采集小说lingdiankanshu.co
import requests
from lxml import etree
from multiprocessing.dummy import Pool as ThreadPool #多线程
import os
global xsmz
xsmz=''
def cljj(sm):
global xsmz
#url="https://www.lingdiankanshu.co/338379/"
url="https://www.lingdiankanshu.co/{}/".format(sm)
html=requests.get(url,timeout=20).text
#print(html)
ljnr=etree.HTML(html)
#获取小说名
xsm=ljnr.xpath('//*[@id="info"]/h1/text()')
xsmz=xsm[0]
ljs=[]
ljj=ljnr.xpath('//*[@id="list"]/dl/dd/a/@href')
for lj in ljj:
lj=url+lj
ljs.append(lj)
return(ljs)
def cxsnr(url):
global xsmz
#url="https://www.lingdiankanshu.co/338379/2081667.html"
html=requests.get(url,timeout=20).text
#print(html)
xq=etree.HTML(html)
bt=xq.xpath('//*[@class="bookname"]/h1/text()')
bt=bt[0]
print(bt)
nr=xq.xpath('//*[@id="content"]/text()')
xsxq=''
for nrxq in nr:
nrxq.replace('\u3000\u3000','')
xsxq=xsxq+nrxq+'\r\n'
os.makedirs("./xs/"+xsmz+"/", exist_ok=True)
with open('./xs/'+xsmz+'/'+bt+'.txt','w',encoding='utf-8') as f:
f.write(bt+'\r\n'+xsxq)
print(bt+'.txt---采集成功!')
if __name__ == "__main__":
sm=input('请输入书目录:')
urls=cljj(sm)
print(urls)
try:
# 开4个 worker,没有参数时默认是 cpu 的核心数
pool = ThreadPool()
results = pool.map(cxsnr,urls)
pool.close()
pool.join()
except:
print("Error: unable to start thread")
python自动生成采集规则_【仅供学习参考】Python多线程池采集小说,超简单!相关推荐
- 人力资源学python有意义吗-python爬虫抖音 个人资料 仅供学习参考 切勿用于商业...
本文仅供学习参考 切勿用于商业 本次爬取使用fiddler+模拟器(下载抖音APP)+pycharm 1. 下载最新版本的fiddler(自行百度下载),以及相关配置 1.1.依次点击,菜单栏-Too ...
- DNS欺骗攻击——实现受害者访问任何网站都转向到攻击者指定的网站 (仅供学习参考)
DNS欺骗攻击--实现受害者访问任何网站都转向到攻击者指定的网站 (仅供学习参考) 情景要求: 同一局域网内 受害者IP:192.168.26.130 攻击者系统Kali Linux,IP地址:192 ...
- 15kw充电桩电源模块,三相电源模块电路图,仅供学习参考
15kw充电桩电源模块,三相电源模块电路图,仅供学习参考,只包含电路图和PCB文件,无软件代码 id=623312177000&
- python爬虫爬取漫画(仅供学习)
项目名: crawl_chuanwu 爬取链接:https://www.manhuadui.com/manhua/chuanwu/ 声明:本项目无任何盈利目的,仅供学习使用,也不会对网站运行造成负担. ...
- python图片裁剪对比_Python自动抢视频红包,仅供学习!
本文来源于公众号: AirPython 1 目 标 场 景 如今短视频横行的时代,以某短视频为首的,背后依靠着强大的资金后盾,疯狂地对平台用户进行红包轰炸. 与传统的红包不一样,视频红包包含位置的不确 ...
- python自动生成ppt报告_把时间还给洞察,且看PPT调研报告自动生成攻略
文/JSong @2017.02.28 在数据分析里面有一句话是说,80%的时间要用于数据清洗和整理,而我觉得理想的状态应该是把更多的把时间花在数据背后的洞察当中.去年11月在简书占了个坑,说要自己写 ...
- python抢红包脚本_Python自动抢视频红包,仅供学习!
本文来源于公众号: AirPyt hon 1 目 标 场 景 如今短视频横行的时代,以某短视频为首的,背后依靠着强大的资金后盾,疯狂地对平台用户进行红包轰炸. 与传统的红包不一样,视频红包包含位置的不 ...
- python自动生成分析报告_利用PYTHON全自动生成分析报告
日常工作当中,特别是金融行业当中,有不少人的工作是提取数据,分析数据,得到可视化图表,并加入自已的研究分析结论,最终生成分析报告,并且有不少报告是定期生成,存在不少重复手工劳动.本文通过一个简单实例, ...
- 截止20210605的微博部分API汇总——仅供学习参考使用
文章目录 免责声明 背景 API列表 搜索主评论API REQUEST RESPOND 搜索次评论API REQUEST RESPOND 转发评论API REQUEST RESPOND 上传图片API ...
最新文章
- arcgis弧段怎么加很多点_ArcGIS小技巧——提取面要素的质心点
- linux ssh 登陆后欢迎界面 banner 设置
- 严蔚敏版《数据结构 (C语言版)》和《数据结构题集》(一)
- 简单讲解一下负载均衡、反向代理模式的优点、缺点
- 302状态码_HTTP状态码status code详解
- git 本地项目上传
- 案例:演示使用beantuils的setProperty()、getProperty()和populate()方法访问JavaBean的属性
- 用一句位运算判断两个整数的大小并返回较大者
- Nuget 管理报repositories.config 访问路径被拒绝 解决办法
- python django ajax 逻辑推理_python django初识ajax
- gis环境设置在哪_BIM与GIS如何融合应用?
- winxp---执行任务计划
- 2011年Esri用户大会技术亮点总结之一:概览
- 关于django后台界面的美化
- 小学计算机课题研究方案,小学语文课题研究方案
- 杀戮空间2服务器修改地图,《杀戮空间2》新地图全任务完成方法图文详解
- PostgreSQL远程连接,发生的SSL错误
- vue3 注册全局方法 定义全局方法
- 【PM】【进度】:把握项目节奏的方法
- 《Image-to-Image Translation with Conditional Adversarial Networks》文章翻译
热门文章
- Java高级语法笔记-枚举类型
- C/C++ OpenCV之Laplacian边缘检测
- html上拉下拉查看文字内容,html5上拉下拉事件效果演示
- c语言键盘按f1显示f1,windows10键盘f1变成功能键的两种解决方法
- python滚动条自动向下,python tqdm 如何使得滚动条不上下滚动(保持一行内滚动)
- mongodb php 删除,MongoDB / PHP:从数组中删除元素
- h5 右下角浮动按钮_意派Epub360丨国庆黄金周将至,分享9个H5互动营销思路
- (王道408考研操作系统)第三章内存管理-第二节3:页面置换算法1
- Linux系统编程27:进程间通信之管道的基本概念和匿名管道与命名管道及管道特性
- qt 5.0中HeaderView的setResiziMode无法使用的问题