获取自己的所有博客地址

一、步骤

1. 先获取首页看到的部分
2. 正则截取每月发表的博客数,总和即是所有的博客数。
3. 分页请求获取每一页的博客
4. 正则截取获得每篇博客的地址

二、代码

import re
import math
import urllib.requesturl = 'https://blog.csdn.net/qq_40985985'# url = 'https://blog.csdn.net/qq_40985985'
# url = 'https://blog.csdn.net/qq_40985985/article/list/'
# https://blog.csdn.net/qq_40985985/article/details/
html = urllib.request.urlopen(url).read().decode('utf-8')
print(html)all_month_num = re.findall('<span class="count">[0-9]+篇</span>', str(html), re.IGNORECASE)
print(all_month_num)
all_month_num = list(set(all_month_num))
total = 0
for each in all_month_num:each = str(each).replace('<span class="count">', '').replace("篇</span>", '')total += int(each)print(each)
print(total) #总原创文章数
print(math.ceil(total / 42))  #分页数(csdn默认42篇/页)for page in range(1, math.ceil(total / 42) + 1):print(page)html = urllib.request.urlopen(url + '/article/list/' + str(page)).read().decode('utf-8')all_url = re.findall('https://blog.csdn.net/qq_40985985/article/details/[0-9]+', str(html), re.IGNORECASE)all_url = list(set(all_url))fp = open('D:\\tests\\csdn.txt', 'a+') #分页的叠加写入到一个文件中s = 0for each in all_url:fp.write(each + '\n')print('\t', each)s = s + 1print('\t',str(s))
fp.close()

参考:

https://blog.csdn.net/nameofcsdn/article/details/78734818

csdn获取自己所有博客的地址,包含分页相关推荐

  1. 博客搬迁地址到csdn了

    博客搬迁地址到csdn了 转载于:https://www.cnblogs.com/YangBinChina/p/3724403.html

  2. 告别CSDN,转去博客园(http://www.cnblogs.com/organic/)

    在CSDN开博客的时间不长,陆陆续续也写了一些文章,但10月后CSDN写的博客除了专家外很难能够上到博客首页上去了,不论写的质量怎么样,长期在博客首页看到的都是专家的文章,诚然,专家写的文章质量肯定不 ...

  3. 精选CSDN的ACM-ICPC五星博客

    海岛Blog - 博客频道 - CSDN.NETACM!荣耀之路! - 博客频道 - CSDN.NETACdreamer - 博客频道 - CSDN.NET笑着走完自己的路 - 博客频道 - CSDN ...

  4. 精选CSDN的ACM-ICPC活跃博客

    海岛Blog - 博客频道 - CSDN.NETAC_Dreameng - 博客频道 - CSDN.NET若忆_star - 博客频道 - CSDN.NET哆啦AC梦的博客 - 博客频道 - CSDN ...

  5. CSDN 空间:“迷你博客”很迷人(2)收藏

      CSDN 空间:"迷你博客"很迷人(2)收藏 | 旧一篇: CSDN 空间:"迷你博客"很迷人(1) <script>function Stor ...

  6. jquery可拖动表格调整列格子的宽度大小 本文章来源于 代潇瑞博客 原文地址:http://www.daixiaorui.com/read/98.html

    演示地址:http://www.daixiaorui.com/Public/demo/js/drag_tb/ 本文章来源于 代潇瑞博客 原文地址:http://www.daixiaorui.com/r ...

  7. 简历解析步骤(第二步)技术与实现(9)博客/主页地址

    简历解析步骤(第二步)技术与实现(9)博客/主页地址 继上篇文章理论: 简历解析,常见接收到的简历是图片或文档的方式,我们需要先将简历中的文字提取出来,然后再对文字进行算法分析以及AI训练,从而实现解 ...

  8. 使用CSDN MarkDown编辑器写博客-班志华-专题视频课程

    使用CSDN MarkDown编辑器写博客-13183人已学习 课程介绍         简单介绍如何使用CSDN的Markdown编辑器来写博客. 课程收益     使用CSDN的MarkDown编 ...

  9. 汉唐归来博客新地址,汉唐归来博客内容移入到红德智库

    汉唐归来博客新地址将移入到红德智库. 新地址为:http://www.hongdezk.com/a/hantangguilai/ 汉风1918新地址:http://hanfeng1918.com 汉唐 ...

最新文章

  1. linux的ftp服务器
  2. php 扫码识别页面跳转_PHP 扫码识别信息方法
  3. Ubuntu 安装VMware Tools 报Read-only file system问题解决
  4. 配置 linux-bridge mechanism driver - 每天5分钟玩转 OpenStack(77)
  5. 05-常用IOC注解按照作用分类
  6. lighttpd+fastcgi 返回500错误码_阿根廷著名电视减肥冠军去世 临终前体重达到500公斤...
  7. VS2010 断点无法命中的解决方案
  8. cocos2d-x游戏实例(28)-简易动作游戏(6)
  9. 缓存系统MemCached的Java客户端优化历程
  10. python人人语音爬虫(登陆尚未完成,需要使用先登录在查cookie中的t)
  11. ffmpeg编码越来越小_从ffmpeg源代码分析如何解决ffmpeg编码的延迟问题(5)
  12. 影片模块 Dubbo 服务聚合
  13. html横向导入word
  14. SLG手游Java服务器的设计与开发——架构分析
  15. 天涯社区用到的日历函数
  16. 七 代码检查工具安装
  17. “磁碟机”病毒疫情紧急!已有超过5万台电脑被感染
  18. 云孚开源情报系统YFINT
  19. 常用的ODI映射与过滤命令
  20. selenium 浏览器复用(java)

热门文章

  1. FastAdmin扩展PHPEXCEL,PHP7.3高版本兼容问题
  2. 【嵌入式】从STM32F103ZET6移植到STM32F103RCT6的流程
  3. python 把2个列表或者2个元组转成字典
  4. Retrofit 找不到ScalarsConverterFactory
  5. commander.js
  6. 2022-2028年中国普鲁兰多糖行业市场分析及投资前景研究报告
  7. 【云安全与同态加密_调研分析(3)】国内云安全组织及标准——By Me
  8. python学习--基础
  9. Spark源码分析之七:Task运行(一)
  10. 转 [JAVA] 使用 common-fileupload 实现文件上传