网络爬虫-爬取顶点小说网指定小说
需求是女朋友下发的(凌晨12:30):
帮我下载一部小说–医后倾仙(1979章-最新章节)
打开电脑–打开百度–输入医后倾仙–打开我见到的第一个小说网站(顶点小说网)–敲代码
import requests
import re
import time
from lxml import etree# //*[@id="list"]/dl/dd[1990]/a# headers = {'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
# 'Accept-Encoding':'gzip, deflate, br',
# 'Accept-Language':'zh-CN,zh;q=0.9',
# 'cookie':'PHPSESSID=u76v6sir759pqa2jh5o4m23d45; fikker-UIWD-APsN=wTN0ET9peOe6GBNFcvilmOiNWfyHCIJl; fikker-UIWD-APsN=wTN0ET9peOe6GBNFcvilmOiNWfyHCIJl; bookid=74240; bgcolor=; font=; size=; fontcolor=; width=; Hm_lvt_ebbbcda55dbd6bab51afaaf3f836a4da=1532880558,1532880706; chapterid=23729442; chaptername=%25u7B2C1982%25u7AE0%2520%25u767D%25u5C0F%25u6668%25u6765%25u4E86%25uFF08%25u4E8C%25uFF09; Hm_lpvt_ebbbcda55dbd6bab51afaaf3f836a4da=1532882383',
# 'Connection':'Keep-alive',
# 'Cache-Control':'max-age=0',
# 'Host':'www.23wxw.cc',
# 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.26 Safari/537.36 Core/1.63.5702.400 QQBrowser/10.2.1893.400'}
#
r = requests.Session()
html = r.get('https://www.23wxw.cc/html/74240/')
# print(html.text)selector = etree.HTML(html.text)base_url = 'https://www.23wxw.cc'url_list = []for i in range(2170, 2335):pipei = '//*[@id="list"]/dl/dd[{0}]/a/@href'.format(i)a = selector.xpath(pipei)[0]url = base_url + aurl_list.append(url)
# print(url_list)# url_list = ['https://www.23wxw.cc/html/74240/23538235.html']for x in url_list:resp = r.get(x)selector = etree.HTML(resp.text)title = selector.xpath('//*[@id="wrapper"]/div[6]/div[2]/div[2]/h1/text()')[0]print('正在下载%s' %title)content = selector.xpath('//*[@id="content"]//text()')mystr = title + '\n'# time.sleep(5) 不是封Ip 而是检测是否带了cookiefor q in content[0:-3]:w = re.sub(r'\r|\n|\t|\xa0', '', q)w += '\n'mystr += wwith open('yhqx.txt', 'a+', encoding='utf-8') as f:f.write(mystr)
注意: 必须保持Session 否则下载3篇就报错 不管sleep多久都没用
网络爬虫-爬取顶点小说网指定小说相关推荐
- python网络爬虫-爬取《斗破苍穹》全文小说 源码
一家懂得用细节留住客户的3年潮牌老店我必须支持!➕
- python网络爬虫网易云音乐下载_python网络爬虫爬取网易云音乐
#爬取网易云音乐 url="https://music.163.com/discover/toplist" #歌单连接地址 url2 = 'http://music.163.com ...
- 网络爬虫爬取拉勾招聘网
网络爬虫爬取拉勾招聘网 搭配好环境 复制以下代码 # -*- coding: utf-8 -*- """ Created on Mon Sep 7 21:44:39 20 ...
- python网络爬虫_Python网络爬虫——爬取视频网站源视频!
原标题:Python网络爬虫--爬取视频网站源视频! 学习前提 1.了解python基础语法 2.了解re.selenium.BeautifulSoup.os.requests等python第三方库 ...
- 13行MATLAB代码实现网络爬虫 爬取NASA画廊星图
13行MATLAB代码实现网络爬虫 爬取NASA画廊星图 2021/04/18上传 2021/04/21更新:修改N的输入方式,增加对png格式图片的下载支持,增加了自动处理几种错误情况的代码,能够 ...
- python3网络爬虫--爬取b站用户投稿视频信息(附源码)
文章目录 一.准备工作 1.工具 二.思路 1.整体思路 2.爬虫思路 三.分析网页 1.分析数据加载方式 2.分词接口url 3.分析用户名(mid) 四.撰写爬虫 五.得到数据 六.总结 上次写了 ...
- 用python网络爬虫爬取英雄联盟英雄图片
用python爬虫爬取lol皮肤. 这也用python网络爬虫爬取lol英雄皮肤,忘了是看哪个大神的博客(由于当时学了下就一直放在这儿,现在又才拿出来,再加上马上要考二级挺忙的.),代码基本上是没改, ...
- 使用python网络爬虫爬取新浪新闻(一)
使用python网络爬虫爬取新浪新闻 第一次写博客,感觉有点不太习惯!不知道怎么突然就想学学爬虫了,然后就用了一天的时间,跟着教程写了这个爬虫,!不说废话了,我将我从教程上学习的东西整个写下来吧,从头 ...
- python如何爬虫网页数据-python网络爬虫爬取网页内容
1.什么是网络爬虫? 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁.自 ...
最新文章
- ICML 2021 (Long Oral) | 深入研究不平衡回归问题
- 金融科技公司采用大数据领先银行的三种方式
- mc pe Linux服务器,MC 基岩版(PE) 服务器来了
- OpenCV优化:图像的遍历4种方式
- php变量赋值有几种,【后端开辟】php变量赋值体式格局有几种
- 1高并发服务器:多路IO之select
- 《好未来编程题》 输入n个整数,输出出现次数大于等于数组长度一半的数
- android 上下滚动文字_计算机毕设项目004之Android系统在线小说阅读器
- mysql 导致iis 假死_php使用MySql函数导致Apache(iis)崩溃的问题解决方案
- 路径-真机和虚拟机共享
- 从零开始学keras之神经网络的数学表示
- 光复用技术中三种重要技术_【技术文章】X射线无损检测仪在锂电池行业中的重要应用...
- vs 和 rider 一决高下 结合开发dotnet应用
- ffmpeg 简单教程
- 计算机音乐公子,抖音公子在等谁是什么梗 公子在等谁背景音乐《心机》
- curry化 js_认识 科里化(curry)——JS函数式编程
- 国内多家视频下载网站关闭:或为暂避风头
- Ubuntu下开机自启动脚本 init supervisor systemd
- 21.手绘Spring IOC运行时序图
- 【Java学习路线之JavaWeb】Spring MVC框架入门教程
热门文章
- 你知道平面设计岗位职责和内容都有哪些吗?
- 【NLP】语素的概念
- fastadmin使用three.js,导入xyz的txt文件,展示3D模型
- for、for...in、for...of、forEach的区别
- “ Linux 和 Kubernetes 正在成为一切的平台”—— 对话全球最大独立开源公司 SUSE CTO...
- 福州市油烟浓度在线监控系统在餐饮行业的实施与应用 大气污染防治 油烟污染监测 油烟在线监控系统解决方案(安科瑞-须静燕)
- 【读书】 - 无声告白
- 在400亿防脱发蓝海里,霸王要“躺平”了?
- 第13周 oj 学生成绩处理
- 为什么说内存比硬盘快??