需求是女朋友下发的(凌晨12:30):
帮我下载一部小说–医后倾仙(1979章-最新章节)

打开电脑–打开百度–输入医后倾仙–打开我见到的第一个小说网站(顶点小说网)–敲代码

import requests
import re
import time
from lxml import etree# //*[@id="list"]/dl/dd[1990]/a# headers = {'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
#                'Accept-Encoding':'gzip, deflate, br',
#                'Accept-Language':'zh-CN,zh;q=0.9',
#                'cookie':'PHPSESSID=u76v6sir759pqa2jh5o4m23d45; fikker-UIWD-APsN=wTN0ET9peOe6GBNFcvilmOiNWfyHCIJl; fikker-UIWD-APsN=wTN0ET9peOe6GBNFcvilmOiNWfyHCIJl; bookid=74240; bgcolor=; font=; size=; fontcolor=; width=; Hm_lvt_ebbbcda55dbd6bab51afaaf3f836a4da=1532880558,1532880706; chapterid=23729442; chaptername=%25u7B2C1982%25u7AE0%2520%25u767D%25u5C0F%25u6668%25u6765%25u4E86%25uFF08%25u4E8C%25uFF09; Hm_lpvt_ebbbcda55dbd6bab51afaaf3f836a4da=1532882383',
#                'Connection':'Keep-alive',
#                'Cache-Control':'max-age=0',
#                'Host':'www.23wxw.cc',
#                'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.26 Safari/537.36 Core/1.63.5702.400 QQBrowser/10.2.1893.400'}
#
r = requests.Session()
html = r.get('https://www.23wxw.cc/html/74240/')
# print(html.text)selector = etree.HTML(html.text)base_url = 'https://www.23wxw.cc'url_list = []for i in range(2170, 2335):pipei = '//*[@id="list"]/dl/dd[{0}]/a/@href'.format(i)a = selector.xpath(pipei)[0]url = base_url + aurl_list.append(url)
# print(url_list)# url_list = ['https://www.23wxw.cc/html/74240/23538235.html']for x in url_list:resp = r.get(x)selector = etree.HTML(resp.text)title = selector.xpath('//*[@id="wrapper"]/div[6]/div[2]/div[2]/h1/text()')[0]print('正在下载%s' %title)content = selector.xpath('//*[@id="content"]//text()')mystr = title + '\n'# time.sleep(5) 不是封Ip 而是检测是否带了cookiefor q in content[0:-3]:w = re.sub(r'\r|\n|\t|\xa0', '', q)w += '\n'mystr += wwith open('yhqx.txt', 'a+', encoding='utf-8') as f:f.write(mystr)

注意: 必须保持Session 否则下载3篇就报错 不管sleep多久都没用

网络爬虫-爬取顶点小说网指定小说相关推荐

  1. python网络爬虫-爬取《斗破苍穹》全文小说 源码

    一家懂得用细节留住客户的3年潮牌老店我必须支持!➕

  2. python网络爬虫网易云音乐下载_python网络爬虫爬取网易云音乐

    #爬取网易云音乐 url="https://music.163.com/discover/toplist" #歌单连接地址 url2 = 'http://music.163.com ...

  3. 网络爬虫爬取拉勾招聘网

    网络爬虫爬取拉勾招聘网 搭配好环境 复制以下代码 # -*- coding: utf-8 -*- """ Created on Mon Sep 7 21:44:39 20 ...

  4. python网络爬虫_Python网络爬虫——爬取视频网站源视频!

    原标题:Python网络爬虫--爬取视频网站源视频! 学习前提 1.了解python基础语法 2.了解re.selenium.BeautifulSoup.os.requests等python第三方库 ...

  5. 13行MATLAB代码实现网络爬虫 爬取NASA画廊星图

    13行MATLAB代码实现网络爬虫 爬取NASA画廊星图 2021/04/18​上传 2021/04/21更新:修改N的输入方式,增加对png格式图片的下载支持,增加了自动处理几种错误情况的代码,能够 ...

  6. python3网络爬虫--爬取b站用户投稿视频信息(附源码)

    文章目录 一.准备工作 1.工具 二.思路 1.整体思路 2.爬虫思路 三.分析网页 1.分析数据加载方式 2.分词接口url 3.分析用户名(mid) 四.撰写爬虫 五.得到数据 六.总结 上次写了 ...

  7. 用python网络爬虫爬取英雄联盟英雄图片

    用python爬虫爬取lol皮肤. 这也用python网络爬虫爬取lol英雄皮肤,忘了是看哪个大神的博客(由于当时学了下就一直放在这儿,现在又才拿出来,再加上马上要考二级挺忙的.),代码基本上是没改, ...

  8. 使用python网络爬虫爬取新浪新闻(一)

    使用python网络爬虫爬取新浪新闻 第一次写博客,感觉有点不太习惯!不知道怎么突然就想学学爬虫了,然后就用了一天的时间,跟着教程写了这个爬虫,!不说废话了,我将我从教程上学习的东西整个写下来吧,从头 ...

  9. python如何爬虫网页数据-python网络爬虫爬取网页内容

    1.什么是网络爬虫? 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁.自 ...

最新文章

  1. ICML 2021 (Long Oral) | 深入研究不平衡回归问题
  2. 金融科技公司采用大数据领先银行的三种方式
  3. mc pe Linux服务器,MC 基岩版(PE) 服务器来了
  4. OpenCV优化:图像的遍历4种方式
  5. php变量赋值有几种,【后端开辟】php变量赋值体式格局有几种
  6. 1高并发服务器:多路IO之select
  7. 《好未来编程题》 输入n个整数,输出出现次数大于等于数组长度一半的数
  8. android 上下滚动文字_计算机毕设项目004之Android系统在线小说阅读器
  9. mysql 导致iis 假死_php使用MySql函数导致Apache(iis)崩溃的问题解决方案
  10. 路径-真机和虚拟机共享
  11. 从零开始学keras之神经网络的数学表示
  12. 光复用技术中三种重要技术_【技术文章】X射线无损检测仪在锂电池行业中的重要应用...
  13. vs 和 rider 一决高下 结合开发dotnet应用
  14. ffmpeg 简单教程
  15. 计算机音乐公子,抖音公子在等谁是什么梗 公子在等谁背景音乐《心机》
  16. curry化 js_认识 科里化(curry)——JS函数式编程
  17. 国内多家视频下载网站关闭:或为暂避风头
  18. Ubuntu下开机自启动脚本 init supervisor systemd
  19. 21.手绘Spring IOC运行时序图
  20. 【Java学习路线之JavaWeb】Spring MVC框架入门教程

热门文章

  1. 你知道平面设计岗位职责和内容都有哪些吗?
  2. 【NLP】语素的概念
  3. fastadmin使用three.js,导入xyz的txt文件,展示3D模型
  4. for、for...in、for...of、forEach的区别
  5. “ Linux 和 Kubernetes 正在成为一切的平台”—— 对话全球最大独立开源公司 SUSE CTO...
  6. 福州市油烟浓度在线监控系统在餐饮行业的实施与应用 大气污染防治 油烟污染监测 油烟在线监控系统解决方案(安科瑞-须静燕)
  7. 【读书】 - 无声告白
  8. 在400亿防脱发蓝海里,霸王要“躺平”了?
  9. 第13周 oj 学生成绩处理
  10. 为什么说内存比硬盘快??