python爬取起点中文网小说

完整代码:

import requests
from lxml import etree
header = {'User-Agent':'Mozilla/5.0(Macintosh;Inter Mac OS X 10_13_3) AppleWebkit/537.36 (KHTML,like Gecko)''Chrom/65.0.3325.162 Safari/537.36'}
def getbookurls():url = 'https://book.qidian.com/info/1017125042#Catalog'#获取页面源代码charptes = requests.get(url,headers = header).text#print(charptes)objects = etree.HTML(charptes)#print(objects)#章节链接  //匹配所有objs = objects.xpath('//ul[@class="cf"]/li')clist = []for obj in objs:try:#章节的url地址chapt_urls = obj.xpath('a/@href')[0]#章节的名称chapt_names = obj.xpath('a/text()')[0]into = {'chapt_urls':'https:'+ chapt_urls,'chapt_names':chapt_names}clist.append(into)except:passreturn clistclist = getbookurls()#获取章节小说内容
def getcontent(url):res = requests.get(url,headers = header).textobjects = etree.HTML(res)objs = objects.xpath('//div[@class="read-content j_readContent"]/p/text()')content = []for i in objs:#               替换之前的  替换之后的text = i.replace('\u3000\u3000','')content.append(text)return content#下载小说
for i in clist:chapt_urls = i['chapt_urls']chapt_names = i['chapt_names']content = getcontent(chapt_urls)text = ''for j in content:text = text + jprint("正在下载%s"%chapt_names)#保存路径,按照自己的进行更改with open('起点小说/%s.doc'%chapt_names,'w') as f:f.write(text)

python爬取起点中文网小说相关推荐

  1. python爬虫之爬取起点中文网小说

    python爬虫之爬取起点中文网小说 hello大家好,这篇文章带大家来制作一个python爬虫爬取阅文集团旗下产品起点中文网的程序,这篇文章的灵感来源于本人制作的一个项目:电脑助手 启帆助手 ⬆是项 ...

  2. python 爬虫抓取网页数据导出excel_Python爬虫|爬取起点中文网小说信息保存到Excel...

    前言: 爬取起点中文网全部小说基本信息,小说名.作者.类别.连载\完结情况.简介,并将爬取的数据存储与EXCEL表中 环境:Python3.7 PyCharm Chrome浏览器 主要模块:xlwt ...

  3. Python 爬取起点的小说(非vip)

                      Python 爬取起点的小说(非vip) 起点小说网是一个小说种类比较全面的网站,当然,作为收费类网站,VIP类的小说也很多,章节是VIP的话,有一个动态加载,也就 ...

  4. python爬取起点vip小说章节_python 爬取起点小说vip章节(失败)

    今天心血来潮,想爬取起点vip小说章节,花费了足足0.27大洋后,悟出来一个人生道理,这个应该是爬不下来.但是这0.27大洋也教会了我两个知识点. 1.服务器只会响应客户端的请求,不会主动给客户端发送 ...

  5. Python爬取起点中文网月票榜前500名网络小说介绍

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资 ...

  6. Python简单爬取起点中文网小说(仅学习)

    目录 前言 一.爬虫思路 二.使用步骤 1.引入库 2.读取页面 3.分析HTML 3.从标签中取出信息 4.爬取正文 总结 前言 实习期间自学了vba,现在开始捡回以前上课学过的python,在此记 ...

  7. python request 爬虫爬取起点中文网小说

    1.网页分析.进入https://www.qidian.com/,点击全部,进行翻页,你就会发现一个规律, url=https://www.qidian.com/all?orderId=&st ...

  8. 爬取起点中文网小说介绍信息

    字数的信息(word)没有得到缺失 import xlwt import requests from lxml import etree import timeall_info_list=[] hea ...

  9. java爬虫抓取起点小说_爬虫实践-爬取起点中文网小说信息

    qidian.py: import xlwt import requests from lxml import etree import time all_info_list = [] def get ...

  10. Python爬取起点小说并写入文档

    python爬取起点免费小说 按F12查看网页源代码: 发现每一章小说链接在li中,这时可以提取每一章的链接: def get_html(url):r=requests.get(url)html=Be ...

最新文章

  1. matlab 入门 mobi,振动力学基础与MATLAB应用
  2. ECC椭圆曲线算法(3)加密解密过程
  3. MyBatisPlus3.x代码生成器自定义模板配置
  4. shell之case和循环语句(case语句的格式与举例)(for循环,while循环until循环语句的详解和continue,break解释, 九九乘法口诀表 ,等腰三角形)
  5. mongodb幽灵操作的解决方案
  6. expect 赋值shell变量_Shell处理字符串常用技巧终结篇
  7. 安兔兔发布9月份Android性能榜:855霸榜,华为竟垫底
  8. 猜数字游戏(Java)
  9. matlab计算macd_[原创]基于MATLAB的一个简单的交易策略(基于MACD)的Matlab代码
  10. javascript return
  11. Linux 系统常用命令
  12. 关于Qt bindValue函数出错问题
  13. 企业微信 PC端多开
  14. TYPHOON cms漏洞 简书(ssh篇)
  15. 洛谷P4572 [JSOI2013] 哈利波特与死亡圣器
  16. Modern Robotics读书笔记(一)
  17. linux禁止系统休眠,linux – 防止系统进入休眠/暂停 – Xviewer...
  18. RFID牛只识别系统c语言编程,种牛RFID管理系统解决方案
  19. 谈到海外市场推广,别小觑蒲公英内测托管平台的国际短信服务
  20. mysql金额数字转成中文_数字金额大写转换(可以处理整数,小数,负数)

热门文章

  1. java常用英语词汇翻译_JAVA 一些常用的英文及翻译
  2. c51语言跑马灯程序,基于C51单片机的跑马灯程序设计
  3. c51单片机跑马灯汇编语言,单片机的跑马灯简单汇编程序
  4. ios开发快速入门教程
  5. Linux ---- 安装虚拟机
  6. tomcat修改http长度限制_解决浏览器与服务器请求url长度限制
  7. oracle更新最新一条记录,update同时更新多条记录
  8. github安装及使用图文详解
  9. 【Java】Servlet原理
  10. 平昌县网上书城系统设计与实现