csdn获取自己所有博客的地址,包含分页
获取自己的所有博客地址
一、步骤
1. 先获取首页看到的部分
2. 正则截取每月发表的博客数,总和即是所有的博客数。
3. 分页请求获取每一页的博客
4. 正则截取获得每篇博客的地址
二、代码
import re
import math
import urllib.requesturl = 'https://blog.csdn.net/qq_40985985'# url = 'https://blog.csdn.net/qq_40985985'
# url = 'https://blog.csdn.net/qq_40985985/article/list/'
# https://blog.csdn.net/qq_40985985/article/details/
html = urllib.request.urlopen(url).read().decode('utf-8')
print(html)all_month_num = re.findall('<span class="count">[0-9]+篇</span>', str(html), re.IGNORECASE)
print(all_month_num)
all_month_num = list(set(all_month_num))
total = 0
for each in all_month_num:each = str(each).replace('<span class="count">', '').replace("篇</span>", '')total += int(each)print(each)
print(total) #总原创文章数
print(math.ceil(total / 42)) #分页数(csdn默认42篇/页)for page in range(1, math.ceil(total / 42) + 1):print(page)html = urllib.request.urlopen(url + '/article/list/' + str(page)).read().decode('utf-8')all_url = re.findall('https://blog.csdn.net/qq_40985985/article/details/[0-9]+', str(html), re.IGNORECASE)all_url = list(set(all_url))fp = open('D:\\tests\\csdn.txt', 'a+') #分页的叠加写入到一个文件中s = 0for each in all_url:fp.write(each + '\n')print('\t', each)s = s + 1print('\t',str(s))
fp.close()
参考:
https://blog.csdn.net/nameofcsdn/article/details/78734818
csdn获取自己所有博客的地址,包含分页相关推荐
- 博客搬迁地址到csdn了
博客搬迁地址到csdn了 转载于:https://www.cnblogs.com/YangBinChina/p/3724403.html
- 告别CSDN,转去博客园(http://www.cnblogs.com/organic/)
在CSDN开博客的时间不长,陆陆续续也写了一些文章,但10月后CSDN写的博客除了专家外很难能够上到博客首页上去了,不论写的质量怎么样,长期在博客首页看到的都是专家的文章,诚然,专家写的文章质量肯定不 ...
- 精选CSDN的ACM-ICPC五星博客
海岛Blog - 博客频道 - CSDN.NETACM!荣耀之路! - 博客频道 - CSDN.NETACdreamer - 博客频道 - CSDN.NET笑着走完自己的路 - 博客频道 - CSDN ...
- 精选CSDN的ACM-ICPC活跃博客
海岛Blog - 博客频道 - CSDN.NETAC_Dreameng - 博客频道 - CSDN.NET若忆_star - 博客频道 - CSDN.NET哆啦AC梦的博客 - 博客频道 - CSDN ...
- CSDN 空间:“迷你博客”很迷人(2)收藏
CSDN 空间:"迷你博客"很迷人(2)收藏 | 旧一篇: CSDN 空间:"迷你博客"很迷人(1) <script>function Stor ...
- jquery可拖动表格调整列格子的宽度大小 本文章来源于 代潇瑞博客 原文地址:http://www.daixiaorui.com/read/98.html
演示地址:http://www.daixiaorui.com/Public/demo/js/drag_tb/ 本文章来源于 代潇瑞博客 原文地址:http://www.daixiaorui.com/r ...
- 简历解析步骤(第二步)技术与实现(9)博客/主页地址
简历解析步骤(第二步)技术与实现(9)博客/主页地址 继上篇文章理论: 简历解析,常见接收到的简历是图片或文档的方式,我们需要先将简历中的文字提取出来,然后再对文字进行算法分析以及AI训练,从而实现解 ...
- 使用CSDN MarkDown编辑器写博客-班志华-专题视频课程
使用CSDN MarkDown编辑器写博客-13183人已学习 课程介绍 简单介绍如何使用CSDN的Markdown编辑器来写博客. 课程收益 使用CSDN的MarkDown编 ...
- 汉唐归来博客新地址,汉唐归来博客内容移入到红德智库
汉唐归来博客新地址将移入到红德智库. 新地址为:http://www.hongdezk.com/a/hantangguilai/ 汉风1918新地址:http://hanfeng1918.com 汉唐 ...
最新文章
- linux的ftp服务器
- php 扫码识别页面跳转_PHP 扫码识别信息方法
- Ubuntu 安装VMware Tools 报Read-only file system问题解决
- 配置 linux-bridge mechanism driver - 每天5分钟玩转 OpenStack(77)
- 05-常用IOC注解按照作用分类
- lighttpd+fastcgi 返回500错误码_阿根廷著名电视减肥冠军去世 临终前体重达到500公斤...
- VS2010 断点无法命中的解决方案
- cocos2d-x游戏实例(28)-简易动作游戏(6)
- 缓存系统MemCached的Java客户端优化历程
- python人人语音爬虫(登陆尚未完成,需要使用先登录在查cookie中的t)
- ffmpeg编码越来越小_从ffmpeg源代码分析如何解决ffmpeg编码的延迟问题(5)
- 影片模块 Dubbo 服务聚合
- html横向导入word
- SLG手游Java服务器的设计与开发——架构分析
- 天涯社区用到的日历函数
- 七 代码检查工具安装
- “磁碟机”病毒疫情紧急!已有超过5万台电脑被感染
- 云孚开源情报系统YFINT
- 常用的ODI映射与过滤命令
- selenium 浏览器复用(java)
热门文章
- FastAdmin扩展PHPEXCEL,PHP7.3高版本兼容问题
- 【嵌入式】从STM32F103ZET6移植到STM32F103RCT6的流程
- python 把2个列表或者2个元组转成字典
- Retrofit 找不到ScalarsConverterFactory
- commander.js
- 2022-2028年中国普鲁兰多糖行业市场分析及投资前景研究报告
- 【云安全与同态加密_调研分析(3)】国内云安全组织及标准——By Me
- python学习--基础
- Spark源码分析之七:Task运行(一)
- 转 [JAVA] 使用 common-fileupload 实现文件上传