如果带着一定的目的去做事,尤其这目的还特别有意思的话,做事效率都会高很多。笔者能说学习爬虫的初衷是是为了更愉快地看小说吗?

长佩是一个笔者特别喜欢逛的小说论坛,但时间久了发现有一些不太方便的地方,比如从目录页跳转到对应的正文后,并不会保留原来的目录页,如果后续看正文看到了20页,想回到刚刚的目录位置,要不得一直返回,返回20次,要不就凭记忆从主页进去重新来一次。再比如所有的文章在目录是动态排列的,在阅读的过程中很难做到不重不漏,现在读的一篇,很可能后面又会出现,而没有读过的但马上要读的,可能又排到前面去了。此外,不能保存阅读进度,收藏功能也很坑爹啊。

为了更好的阅读体验,笔者决定,把名称、简介以及链接一同爬下来,展示到一个sheet里面,想看哪篇点链接就好了,在sheet里标识收藏和进度岂不美哉。

下面以原创文窟完结的前50页为例,进行爬虫演示。

import requests
from bs4 import BeautifulSoup
import time
import random
import pymongo
from multiprocessing import Poolmyclient = pymongo.MongoClient('mongodb://localhost:27017/')
mydb = myclient['cp']
information = mydb['原创完结']headers={'User-Agent':'你的游览器','Cookie': '你的Cookies'
}def get_info(url):requests.packages.urllib3.disable_warnings()res = requests.get(url,verify=False)soup = BeautifulSoup(res.text, 'lxml')links = soup.select('th > a.s.xst')intros = soup.select('th > font')for link,intro in zip(links,intros):newurl = 'https://allcp.net/'+link['href']info = {'title': link.get_text(),'profile': intro.get_text(),'url': newurl}information.insert_one(info)print(url + "完成")time.sleep(random.randint(1, 4))if __name__=='__main__':urls = ['https://allcp.net/forum.php?mod=forumdisplay&fid=4&sortid=8&sortid=8&filter=sortid&searchsort=1&sort=2&t=77078901&page={}'.format(str(i))for i in range(1,51)]pool = Pool(processes=4)pool.map(get_info, urls)

搞定,可以愉快的追帖啦。

某小说论坛网爬虫演示相关推荐

  1. dt程序网站服务器配置,ZKWeb 官网与演示站点的部署步骤 (Linux + Nginx + Certbot)

    因为没有给域名续费,加上私人时间不足,ZKWeb 的官网和演示站点已经停止了几个月的时间. 最近时间开始变多,所以重新购买了别的域名和服务器把官网和演示站点重新部署上去. 在此前站点是托管在共享主机上 ...

  2. MySQL做毕设_PHP+MYSQL在线小说阅读网的设计与实现

    随着互联网信息的发展,人们在闲暇的时候更多的原因选择小说来进行阅读,一方面扩展自己的阅读圈,另一方面消磨闲暇时光,但是当下的很多小说网站,要么是要收取高昂的阅读法,要么就是整个网站多充斥着大量的广告, ...

  3. 裁判文书网 爬虫 升级最新版本0.7 更新时间2020-12-17

    接上一篇文件:裁判文书网 爬虫 最新更新2020-08-12  https://blog.csdn.net/myhot/article/details/108046389 本次升级主要已支持写入mys ...

  4. 知网爬虫——爬取某个主题下的文章标题以及发表时间

    前几天帮朋友做了个知网的爬虫,爬取了"新闻传播"主题下的文章标题及发表时间:自己拖拖拉拉写了2天才写完,自己还是太弱了.个人认为这个作为一个练手的爬虫小项目还是不错的,于是写了主要 ...

  5. 中国天气网爬虫数据可视化

    目录 中国天气网爬虫数据可视化 爬虫功能 网页分析 以华北地区为例分析网页源代码 1.以谷歌浏览器为例分析 2. 提取特征标签 3.分析源代码 利用requests库获取目标网页源代码 利用Beaut ...

  6. 【计算机专业毕设之基于python猫咪网爬虫大数据可视化分析系统-哔哩哔哩】 https://b23.tv/jRN6MVh

    [计算机专业毕设之基于python猫咪网爬虫大数据可视化分析系统-哔哩哔哩] https://b23.tv/jRN6MVh https://b23.tv/jRN6MVh

  7. 中国土地市场网爬虫——字体woff加密还原

    通过我上篇博客:中国土地市场网爬虫--浏览器Cookie验证(简单) 和中国土地市场爬虫--浏览器cookie验证(图片验证码)讲述了中国土地市场网(www.landchina.com)的两种访问限制 ...

  8. [网络爬虫|smtp协议|python]东方财富网爬虫,python smtp协议发送爬取数据至QQ邮箱

    本文改自 [网络爬虫|smtp协议|python]东方财富网爬虫,python smtp协议发送爬取数据至QQ邮箱 之前写的爬虫单子,代码已经跑了快3个月了,后续又增加了一些需求,修改了一些小bug ...

  9. 中华英才网爬虫程序解析(1)-基础的爬虫程序实现

    欢迎来到爬虫高级兼实战教程,打开你的IDE,开始python之旅吧! 中华英才网爬虫 在讲完python爬虫基础知识后,我们开始进行实战,在实战中我们会借实例来讲解爬虫的高级知识,爬虫程序已经公布于 ...

最新文章

  1. 大数据flume日志采集系统详解
  2. linux删除vip 绑定,linux – VIP不会从备份keepalived中删除
  3. (很全面)SpringBoot 使用 Caffeine 本地缓存
  4. RMAN中catalog和nocatalog区别
  5. 分享一个NHibernate的博客链接
  6. Unit 11 电话转接
  7. C# 正则表达式验证数据类型
  8. iTerm2使用zmodem协议上传下载文件
  9. python webqq机器人_[代码全屏查看]-python3.2模拟登录webqq
  10. Python中的三目表达式
  11. emule连接服务器无响应,为什么我的emule连接不上服务器了
  12. 如何从ST官网下载STM32标准库
  13. python 批量ping_python实现本地批量ping多个IP
  14. APP压力测试,Monkey玩手机一顿猛点
  15. 【刷题】求长方形与正方形的个数
  16. 写给自己的学习计划(迷惘找不到方向的时候就看
  17. PAT甲级_2023春
  18. 【发生系统错误5。拒绝访问】的解决办法
  19. http协议深入理解
  20. python使用xlwings操作wps

热门文章

  1. 图形学实验(1)--OpenGL 入门
  2. 竞速大作-极品飞车14:热力追踪-测试中
  3. Java笔记_16(不可变集合、Stream流、方法引用)
  4. 2021 中山大学 人工智能学院 推免夏令营 经历
  5. React几种传递参数的方法
  6. 习题4-4 特殊a串数列求和
  7. 初学java遇到编译后执行出现乱码如何解决
  8. Yield Guild Games 收购 Genesis NFT Eggs 并登陆农场模拟游戏 Crypto Unicorns
  9. python爬取新浪博客_python网络爬虫 新浪博客篇
  10. Badge在多种机型上显示