“写鬼写妖高人一等,刺贪刺虐入骨三分。”

没找到聊斋志异完整版的txt文档,那就把在线阅读的文章抓下来吧。

开发环境

python3.7

requests模块

lxml模块

获取分析

找到聊斋志异的小说网站。

通过查看源码与分析小说每一章的URL链接发现,构成每一章的URL链接其实是通过小说网站URL链接的前缀+每一章的章节属性得到。

#获取章节链接

for name0 in url2:

name = name0.xpath("./a/text()")[0]

urlhref = name0.xpath("./a/@href")[0]

finurl = "https://www.sbkk88.com" + urlhref

获取到小说每一章的URL链接后分析章节内容网页,发现是静态页面,直接通过requests.get()方法就获取到。

#解析,获取内容

response2 = requests.get(finurl,headers = headers).content.decode('gbk')

html = etree.HTML(response2)

cons = html.xpath("//*[@id='f_article']/p")

for one in cons:

essay = []

conss = one.xpath(".//text()")

for sentence in conss:

if sentence == "一":

pass

else:

essay.append(sentence)

最后将爬取到的内容写入.txt文本,就能得到一本完整的聊斋志异小说!

结果展示:

聊斋志异小说

现在就能阅读整本的聊斋志异白话文小说了。

python爬虫获取小说根据正文调用函数传入章节地址列表_python爬虫之小说章节获取,聊斋志异小说完整版...相关推荐

  1. 从Python中的另一个文件调用函数

    本文翻译自:Call a function from another file in Python Set_up: I have a .py file for each function I need ...

  2. python中调用函数时必须有实参_Python之函数(一)定义函数以及传参

    定义函数以及传参 函数的定义 def 函数名(): 函数体 例子: def func():#def关键字--定义 func函数名--和变量定义规则一样 ()必须要写格式 :声明 语句结束 s=[1,2 ...

  3. python调用函数必须带括号吗_Python笔记:调用函数,带扩号和和不带括号的区别...

    Ansible-Tower快速入门-6.查看tower的仪表板[翻译] 查看tower的仪表板 到这一步,我们已经可以在屏幕上看到tower的仪表板了,我们可以看到你目前"主机"& ...

  4. python中调用函数no module named 'utilities'_python错误:No module named setuptools 解决方法...

    MySQL-python是Python访问MySQL数据库的第三方模块库: 在安装过程中出现如下错误: [root@localhost MySQL-python-1.2.5]# python setu ...

  5. python程序调用函数的过程是什么_Python:函数定义和调用时都加*,有什么作用?...

    著作权归作者所有. 商业转载请联系作者获得授权,非商业转载请注明出处. 作者:玩蛇网

  6. 如何用python编程能实现输入诗句的上句显示下句_Python爬虫之诗歌接龙

    介绍 本文将展示如何利用Python爬虫来实现诗歌接龙. 该项目的思路如下:利用爬虫爬取诗歌,制作诗歌语料库: 将诗歌分句,形成字典:键(key)为该句首字的拼音,值(value)为该拼音对应的诗句, ...

  7. python作业题目用户输入行数、输出倒的等腰三角形_Python爬虫作业 | Python 程序逻辑训练3题...

    操作环境:Python版本,2.7.13:PyCharm版本,2017.1:电脑:Win 10 1703 1. 打印三角形 分为三角形,倒三角形和等腰三角形 #coding:utf-8 rows = ...

  8. js function如何传入参数未字符串_Python爬虫 JS 案例讲解:爬取漫画

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 以下文章来源于Python爬虫案例,作者麦自香 转载地址 https://blo ...

  9. 爬虫爬到的网页源代码不是真正的源代码_Python爬虫经常爬不到数据?你可以看一下这篇文章...

    近期,通过做了一些小的项目,觉得对于Python爬虫有了一定的了解,于是,就对于Python爬虫爬取数据做了一个小小的总结,希望大家喜欢! 1.最简单的Python爬虫 最简单的Python爬虫莫过于 ...

最新文章

  1. VC问题 IntelliSense:“没有可用的附加信息”,[请参见“C++项目 IntelliSense 疑难解答”,获得进一步的帮助]...
  2. Spartan-6的存储元件、多路复用器、快速先行进位逻辑、算术逻辑
  3. Java Lambda表达式入门
  4. mysql bin.000013_mysql运维-二进制日志BINARY LOG清理_ mysql-bin磁盘占用高处理办法
  5. vb与S7200PLC通信源代码下载
  6. matlab传递函数参数辨识,基于matlab/Simulink的参数辨识
  7. 收藏:视频网站(JavaEE+FFmpeg)/Nginx+ffmpeg实现流媒体直播点播系统
  8. 【Java学习笔记四】Java中的包
  9. Java中的强软弱虚引用《对Java的分析总结三》
  10. 汇编语言-子程序调用
  11. 资深前端工程师:裁人后,我总结了 7 个必备技能
  12. Bugku杂项——旋转跳跃
  13. Passenger, Apache/Nginx, Rails之间的关系
  14. 写贺卡给毕业师姐怎么写计算机系的,[给师姐的毕业祝福语]对师姐的毕业祝福语...
  15. playhome的php文件怎么导入,PLAY HOME家族崩坏Importor模型导入插
  16. 持续造风,快手为品牌、商家提供“保姆式”服务
  17. NVDIMM的应用场景
  18. 如何将您的iPhone更新到最新的iOS版本
  19. 关于波特率与字节传输速率计算
  20. 跨专业上海理工大学计算机考研,跨考难度低,种类多的专业,你知道几个?

热门文章

  1. Go语言在扫码支付系统中的成功实践
  2. 解惑烟草行业工控系统如何风险评估
  3. iOS开发CoreAnimation解读之三——几种常用Layer的使用解析
  4. Atom与markdown
  5. rsync+lsyncd实现(本地以及远程)文件实时同步
  6. 数据挖掘开源项目立项
  7. Apache Spark源码走读之4 -- DStream实时流数据处理
  8. linux下VMware_Tools虚拟机工具的安装
  9. x264_param_default
  10. 麦克风设计指导与选型参考