某小说论坛网爬虫演示

如果带着一定的目的去做事，尤其这目的还特别有意思的话，做事效率都会高很多。笔者能说学习爬虫的初衷是是为了更愉快地看小说吗？

长佩是一个笔者特别喜欢逛的小说论坛，但时间久了发现有一些不太方便的地方，比如从目录页跳转到对应的正文后，并不会保留原来的目录页，如果后续看正文看到了20页，想回到刚刚的目录位置，要不得一直返回，返回20次，要不就凭记忆从主页进去重新来一次。再比如所有的文章在目录是动态排列的，在阅读的过程中很难做到不重不漏，现在读的一篇，很可能后面又会出现，而没有读过的但马上要读的，可能又排到前面去了。此外，不能保存阅读进度，收藏功能也很坑爹啊。

为了更好的阅读体验，笔者决定，把名称、简介以及链接一同爬下来，展示到一个sheet里面，想看哪篇点链接就好了，在sheet里标识收藏和进度岂不美哉。

下面以原创文窟完结的前50页为例，进行爬虫演示。

import requests
from bs4 import BeautifulSoup
import time
import random
import pymongo
from multiprocessing import Poolmyclient = pymongo.MongoClient('mongodb://localhost:27017/')
mydb = myclient['cp']
information = mydb['原创完结']headers={'User-Agent':'你的游览器','Cookie': '你的Cookies'
}def get_info(url):requests.packages.urllib3.disable_warnings()res = requests.get(url,verify=False)soup = BeautifulSoup(res.text, 'lxml')links = soup.select('th > a.s.xst')intros = soup.select('th > font')for link,intro in zip(links,intros):newurl = 'https://allcp.net/'+link['href']info = {'title': link.get_text(),'profile': intro.get_text(),'url': newurl}information.insert_one(info)print(url + "完成")time.sleep(random.randint(1, 4))if __name__=='__main__':urls = ['https://allcp.net/forum.php?mod=forumdisplay&fid=4&sortid=8&sortid=8&filter=sortid&searchsort=1&sort=2&t=77078901&page={}'.format(str(i))for i in range(1,51)]pool = Pool(processes=4)pool.map(get_info, urls)

搞定，可以愉快的追帖啦。

某小说论坛网爬虫演示相关推荐

dt程序网站服务器配置,ZKWeb 官网与演示站点的部署步骤 (Linux + Nginx + Certbot)
因为没有给域名续费,加上私人时间不足,ZKWeb 的官网和演示站点已经停止了几个月的时间. 最近时间开始变多,所以重新购买了别的域名和服务器把官网和演示站点重新部署上去. 在此前站点是托管在共享主机上 ...
MySQL做毕设_PHP+MYSQL在线小说阅读网的设计与实现
随着互联网信息的发展,人们在闲暇的时候更多的原因选择小说来进行阅读,一方面扩展自己的阅读圈,另一方面消磨闲暇时光,但是当下的很多小说网站,要么是要收取高昂的阅读法,要么就是整个网站多充斥着大量的广告, ...
裁判文书网爬虫升级最新版本0.7 更新时间2020-12-17
接上一篇文件:裁判文书网爬虫最新更新2020-08-12 https://blog.csdn.net/myhot/article/details/108046389 本次升级主要已支持写入mys ...
知网爬虫——爬取某个主题下的文章标题以及发表时间
前几天帮朋友做了个知网的爬虫,爬取了"新闻传播"主题下的文章标题及发表时间:自己拖拖拉拉写了2天才写完,自己还是太弱了.个人认为这个作为一个练手的爬虫小项目还是不错的,于是写了主要 ...
中国天气网爬虫数据可视化
目录中国天气网爬虫数据可视化爬虫功能网页分析以华北地区为例分析网页源代码 1.以谷歌浏览器为例分析 2. 提取特征标签 3.分析源代码利用requests库获取目标网页源代码利用Beaut ...
【计算机专业毕设之基于python猫咪网爬虫大数据可视化分析系统-哔哩哔哩】 https://b23.tv/jRN6MVh
[计算机专业毕设之基于python猫咪网爬虫大数据可视化分析系统-哔哩哔哩] https://b23.tv/jRN6MVh https://b23.tv/jRN6MVh
中国土地市场网爬虫——字体woff加密还原
通过我上篇博客:中国土地市场网爬虫--浏览器Cookie验证(简单) 和中国土地市场爬虫--浏览器cookie验证(图片验证码)讲述了中国土地市场网(www.landchina.com)的两种访问限制 ...
［网络爬虫｜smtp协议｜python］东方财富网爬虫，python smtp协议发送爬取数据至QQ邮箱
本文改自［网络爬虫|smtp协议|python］东方财富网爬虫,python smtp协议发送爬取数据至QQ邮箱之前写的爬虫单子,代码已经跑了快3个月了,后续又增加了一些需求,修改了一些小bug ...
中华英才网爬虫程序解析（1）-基础的爬虫程序实现
欢迎来到爬虫高级兼实战教程,打开你的IDE,开始python之旅吧! 中华英才网爬虫在讲完python爬虫基础知识后,我们开始进行实战,在实战中我们会借实例来讲解爬虫的高级知识,爬虫程序已经公布于 ...

某小说论坛网爬虫演示

某小说论坛网爬虫演示相关推荐

最新文章

热门文章