网络爬虫-爬取顶点小说网指定小说

需求是女朋友下发的(凌晨12：30)：
帮我下载一部小说–医后倾仙（1979章-最新章节）

打开电脑–打开百度–输入医后倾仙–打开我见到的第一个小说网站（顶点小说网）–敲代码

import requests
import re
import time
from lxml import etree# //*[@id="list"]/dl/dd[1990]/a# headers = {'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
#                'Accept-Encoding':'gzip, deflate, br',
#                'Accept-Language':'zh-CN,zh;q=0.9',
#                'cookie':'PHPSESSID=u76v6sir759pqa2jh5o4m23d45; fikker-UIWD-APsN=wTN0ET9peOe6GBNFcvilmOiNWfyHCIJl; fikker-UIWD-APsN=wTN0ET9peOe6GBNFcvilmOiNWfyHCIJl; bookid=74240; bgcolor=; font=; size=; fontcolor=; width=; Hm_lvt_ebbbcda55dbd6bab51afaaf3f836a4da=1532880558,1532880706; chapterid=23729442; chaptername=%25u7B2C1982%25u7AE0%2520%25u767D%25u5C0F%25u6668%25u6765%25u4E86%25uFF08%25u4E8C%25uFF09; Hm_lpvt_ebbbcda55dbd6bab51afaaf3f836a4da=1532882383',
#                'Connection':'Keep-alive',
#                'Cache-Control':'max-age=0',
#                'Host':'www.23wxw.cc',
#                'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.26 Safari/537.36 Core/1.63.5702.400 QQBrowser/10.2.1893.400'}
#
r = requests.Session()
html = r.get('https://www.23wxw.cc/html/74240/')
# print(html.text)selector = etree.HTML(html.text)base_url = 'https://www.23wxw.cc'url_list = []for i in range(2170, 2335):pipei = '//*[@id="list"]/dl/dd[{0}]/a/@href'.format(i)a = selector.xpath(pipei)[0]url = base_url + aurl_list.append(url)
# print(url_list)# url_list = ['https://www.23wxw.cc/html/74240/23538235.html']for x in url_list:resp = r.get(x)selector = etree.HTML(resp.text)title = selector.xpath('//*[@id="wrapper"]/div[6]/div[2]/div[2]/h1/text()')[0]print('正在下载%s' %title)content = selector.xpath('//*[@id="content"]//text()')mystr = title + '\n'# time.sleep(5) 不是封Ip 而是检测是否带了cookiefor q in content[0:-3]:w = re.sub(r'\r|\n|\t|\xa0', '', q)w += '\n'mystr += wwith open('yhqx.txt', 'a+', encoding='utf-8') as f:f.write(mystr)

注意：必须保持Session 否则下载3篇就报错不管sleep多久都没用

网络爬虫-爬取顶点小说网指定小说相关推荐

python网络爬虫-爬取《斗破苍穹》全文小说源码
一家懂得用细节留住客户的3年潮牌老店我必须支持!➕
python网络爬虫网易云音乐下载_python网络爬虫爬取网易云音乐
#爬取网易云音乐 url="https://music.163.com/discover/toplist" #歌单连接地址 url2 = 'http://music.163.com ...
网络爬虫爬取拉勾招聘网
网络爬虫爬取拉勾招聘网搭配好环境复制以下代码 # -*- coding: utf-8 -*- """ Created on Mon Sep 7 21:44:39 20 ...
python网络爬虫_Python网络爬虫——爬取视频网站源视频！
原标题:Python网络爬虫--爬取视频网站源视频! 学习前提 1.了解python基础语法 2.了解re.selenium.BeautifulSoup.os.requests等python第三方库 ...
13行MATLAB代码实现网络爬虫爬取NASA画廊星图
13行MATLAB代码实现网络爬虫爬取NASA画廊星图 2021/04/18上传 2021/04/21更新:修改N的输入方式,增加对png格式图片的下载支持,增加了自动处理几种错误情况的代码,能够 ...
python3网络爬虫--爬取b站用户投稿视频信息（附源码）
文章目录一．准备工作 1．工具二．思路 1．整体思路 2．爬虫思路三．分析网页 1.分析数据加载方式 2．分词接口url 3.分析用户名(mid) 四．撰写爬虫五．得到数据六．总结上次写了 ...
用python网络爬虫爬取英雄联盟英雄图片
用python爬虫爬取lol皮肤. 这也用python网络爬虫爬取lol英雄皮肤,忘了是看哪个大神的博客(由于当时学了下就一直放在这儿,现在又才拿出来,再加上马上要考二级挺忙的.),代码基本上是没改, ...
使用python网络爬虫爬取新浪新闻（一）
使用python网络爬虫爬取新浪新闻第一次写博客,感觉有点不太习惯!不知道怎么突然就想学学爬虫了,然后就用了一天的时间,跟着教程写了这个爬虫,!不说废话了,我将我从教程上学习的东西整个写下来吧,从头 ...
python如何爬虫网页数据-python网络爬虫爬取网页内容
1.什么是网络爬虫? 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁.自 ...

网络爬虫-爬取顶点小说网指定小说

注意：必须保持Session 否则下载3篇就报错不管sleep多久都没用

网络爬虫-爬取顶点小说网指定小说相关推荐

最新文章

热门文章

网络爬虫-爬取顶点小说网指定小说

注意： 必须保持Session 否则下载3篇就报错 不管sleep多久都没用

网络爬虫-爬取顶点小说网指定小说相关推荐

最新文章

热门文章

注意：必须保持Session 否则下载3篇就报错不管sleep多久都没用