Python爬虫获取文章的标题及你的博客的阅读量,评论量。所有数据写入本地记事本。最后输出你的总阅读量!还可以进行筛选输出!比如阅读量大于1000,之类的!

完整代码在最后。依据阅读数量进行降序输出!
还有代码截图(适用于不知道为啥出现错误的朋友)
运行结果截图,写入后的记事本截图都有。
都在最后!

把链接换成你的就可以直接使用啦!
我是以我的主页作为列子来实践的!
注意链接格式呦!
还有,访问量是大于阅读量的。
访问量=阅读量+访问主页次数
因为别人可能访问你,但是没有阅读你的文章!

先说一段吧,诉诉苦水。也是我忙碌了好久才解决的!
1,第一个就是这个东西,会让你的数据错位。最后跟正确数据总有不同!
而且每个人的主页都有这个人的链接:


你说气人不!
但是,我是借助列表来存储的。
那么,这样就好啦:

让列表输出第二个到最后一个
实现这个功能,通过切片来实现
自己不会,所以耽误好久!通过切片来就好啦!

nn = nn[1:]

其他就没啥啦!就是这个错位,也不知道什么原因!
最后找到啦,解决也费了点时间!
我添加了一个对文件进行写操作,就是把东西写入到记事本里面!
(但是,要写入的记事本要和.py文件在同一个路径之下!)
我的都在桌面!

代码的讲解就放在代码块里吧!

 ff = open('1.txt','a')#打开文件if n%10 == 0:#判断,进行多输入一个换行符号,为了美观!ff.write(titles[w]+' '+str(nn[w])+' \n\n')#写入你想写入的列表元素!else:ff.write(titles[w]+' '+str(nn[w])+' \n')#输入一个换行符号,为了美观!ff.close()#关闭文件!n += 1#不能一直换行呀,找个变量来!

其他的就是一些正则表达式啦,不会的就直接使用吧!
代码:

import requests
import re
sum = 0
pages = 10
x = 1
nn = []
mm = []
base_url = "https://blog.csdn.net/weixin_42859280/article/list/"
print('\n-------------------------下面是原创的-------------------------\n')
for x in range(pages):w = 0r = requests.get(base_url+str(x+1)+'?t=1&orderby=ViewCount')titles = re.findall(r'<span class="article-type type-.*?">\n.*?</span>\n(.*?)</a>', r.content.decode(), re.MULTILINE)visits = re.findall( r'<span class="read-num">阅读数:(.*?)</span>', r.content.decode())mm = re.findall( r'<span class="read-num">评论数:(.*?)</span>', r.content.decode())nn = [int(x) for x in visits] #将阅读数转换为数字nn = nn[1:]mm = mm[1:]n = 1for x, y, z in zip(titles, nn,mm):ff = open('1.txt','a')if n%10 == 0:ff.write(titles[w]+' 阅读数:'+str(nn[w])+' 评论数:'+mm[w]+' \n\n')else:ff.write(titles[w]+' 阅读数:'+str(nn[w])+' 评论数:'+mm[w]+' \n')ff.close()n += 1#if int(nn[w]) > 1000:#可以进行筛选输出!#if int(mm[w]) > 0:#可以进行筛选输出!print(titles[w]+' 阅读数:'+str(nn[w])+' 评论数:'+mm[w])sum += int(nn[w])w+=1
print('\n-------------------------下面是转载的-------------------------\n')
pages = 11
x = 1
nn = []
mm = []
base_url = "https://blog.csdn.net/weixin_42859280/article/list/"
for x in range(pages):w = 0r = requests.get(base_url+str(x+1)+'?t=2&orderby=ViewCount')titles = re.findall(r'<span class="article-type type-.*?">\n.*?</span>\n(.*?)</a>', r.content.decode(), re.MULTILINE)visits = re.findall( r'<span class="read-num">阅读数:(.*?)</span>', r.content.decode())mm = re.findall( r'<span class="read-num">评论数:(.*?)</span>', r.content.decode())nn = [int(x) for x in visits] #将阅读数转换为数字nn = nn[1:]mm = mm[1:]n = 1for x, y, z in zip(titles, nn,mm):ff = open('2.txt','a')if n%10 == 0:ff.write(titles[w]+' 阅读数:'+str(nn[w])+' 评论数:'+mm[w]+' \n\n')else:ff.write(titles[w]+' 阅读数:'+str(nn[w])+' 评论数:'+mm[w]+' \n')ff.close()n += 1#if int(nn[w]) > 1000:#可以进行筛选输出!#if int(mm[w]) > 0:#可以进行筛选输出!print(titles[w]+' 阅读数:'+str(nn[w])+' 评论数:'+mm[w])sum += int(nn[w])w+=1
print("总阅读量:"+str(sum))

代码截图:
(1):

(2):

执行结果:
(1):

(2):

被写入文本截图:
原创:

转载:

OK,有问题欢迎来留言讨论!
关于这个方面,我写的还有别的爬虫:
功能和这个有不同!
https://blog.csdn.net/weixin_42859280/article/details/85175854
欢迎留言讨论!

Python爬虫获取文章的标题及你的博客的阅读量,评论量。所有数据写入本地记事本。最后输出你的总阅读量!相关推荐

  1. Python爬虫小实践:爬取任意CSDN博客所有文章的文字内容(或可改写为保存其他的元素),间接增加博客访问量...

    Python并不是我的主业,当初学Python主要是为了学爬虫,以为自己觉得能够从网上爬东西是一件非常神奇又是一件非常有用的事情,因为我们可以获取一些方面的数据或者其他的东西,反正各有用处. 这两天闲 ...

  2. [python爬虫] 正则表达式使用技巧及爬取个人博客实例

    这篇博客是自己<数据挖掘与分析>课程讲到正则表达式爬虫的相关内容,主要简单介绍Python正则表达式爬虫,同时讲述常见的正则表达式分析方法,最后通过实例爬取作者的个人博客网站.希望这篇基础 ...

  3. Python爬虫爬取一篇韩寒新浪博客

    网上看到大神对Python爬虫爬到很多有用的信息,觉得很厉害,突然对想学Python爬虫,虽然自己没学过Python,但在网上找了一些资料看了一下,看到爬取韩寒新浪博客的视频,共三集,第一节讲爬取一篇 ...

  4. python爬虫小说代码示例-使用简单Python爬虫获取一个干净整洁的小说文件

    打开小说所在界面,右击选择查看网页源代码 1.在头部能够看到'charset=utf-8'得知文件的编码为'uft-8'!,url=http://www.17k.com/list/2921315.ht ...

  5. python爬虫抢演唱会_Python爬虫爬了七天七夜终于爬出了博客园粉丝数排行榜

    Python爬虫爬了七天七夜终于爬出了博客园粉丝数排行榜 [Python爬虫]爬了七天七夜,终于爬出了博客园粉丝数排行榜! 爬虫数据采集接单,大小不限,欢迎各位科研教师,学生,企业相关人员咨询,QQ: ...

  6. Python爬虫获取简书的用户、文章、评论、图片等数据,并存入数据库

    Python爬虫获取简书的用户.文章.评论.图片等数据,并存入数据库 爬虫定义:网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维 ...

  7. c#使用正则表达式获取TR中的多个TD_[Python从零到壹] 四.网络爬虫之入门基础及正则表达式抓取博客案例...

    首先祝大家中秋节和国庆节快乐,欢迎大家来到"Python从零到壹",在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界.所有文章都 ...

  8. python爬虫获取百度贴吧内容

    python爬虫获取百度贴吧内容 python爬虫获取百度贴吧内容 *声明:本文仅供学习交流使用,请勿用于商业用途,违者后果自负.* python爬虫获取百度贴吧内容 博主是一个比较懒的人,不会按时更 ...

  9. python爬虫获取起点中文网人气排行Top100(快速入门,新手必备!)

    本篇博客小菌为大家带来的是用python爬虫获取起点中文网人气排行Top100的分享,希望大家能在学习的过程中感受爬虫的魅力!         我们先根据网址https://www.qidian.co ...

最新文章

  1. Spring+hibernate+struts
  2. libklel 1.1.0 发布,表达式语言
  3. IO和属性配置文件之组合拳
  4. AI理论知识整理(2)-对称矩阵-特征值与特征向量
  5. c++ 11 override final
  6. krpano 场景切换 通知_一个基于Vulkan的异步场景加载设计
  7. lenovo电脑_诠释什么叫性价比?LENOVO联想ThinkPad P72/P73 ?仅售16200.00元?
  8. easyui被activeX控件挡住的解决方法
  9. python没基础能自学吗-需要自学python吗?大概多久能学会?
  10. Linux内核(4) - 内核学习的心理问题
  11. R语言金融基础:tidyquant获取数据(标普500与纳斯达克)
  12. halcon 深度学习标注_深度学习in Halcon流程
  13. 网络语言维c是什么意思,我不要你觉得,我要我觉得!19年网络流行词是这些!...
  14. 下载Python OpenCV相关资料方法整理
  15. 蜗牛星际A单千兆群晖系统崩溃恢复记录
  16. C语言学习-翁凯(第三章笔记)
  17. dw可以编辑java吗_用dreamweaver开发ASP图文教程。(修改资料篇)
  18. JS 获取操作删除节点
  19. pygame外星人入侵
  20. 22考研初试410数一145上岸上海交通大学819经验分享

热门文章

  1. 谁是当今最顶级的技术?SQL、Java、Python、C++ 皆上榜!
  2. 迁移学习与图神经网络“合力”模型:用DoT-GNN克服组重识别难题
  3. 阿里、京东、快手、华为......他们是如何构建一个个推荐系统“帝国”的?
  4. 2019如何学Python?这里有你需要的答案
  5. 百度为AI开发者打造别样的深度学习快速通关路径
  6. mybatis-plus团队新作:mybatis-mate 轻松搞定数据权限
  7. 图片提取文字功能很神奇?Java几行代码搞定它!
  8. Stack Overflow被收购了,以后要付费“抄代码”?
  9. 细说 Java 主流日志工具库
  10. 登顶CLUE榜单,腾讯云小微与腾讯AI Lab联合团队提出基于知识的中文预训练模型...