Python爬虫获取文章的标题及你的博客的阅读量，评论量。所有数据写入本地记事本。最后输出你的总阅读量！

Python爬虫获取文章的标题及你的博客的阅读量，评论量。所有数据写入本地记事本。最后输出你的总阅读量！还可以进行筛选输出！比如阅读量大于1000，之类的！

完整代码在最后。依据阅读数量进行降序输出！
还有代码截图（适用于不知道为啥出现错误的朋友）
运行结果截图，写入后的记事本截图都有。
都在最后！

把链接换成你的就可以直接使用啦！
我是以我的主页作为列子来实践的！
注意链接格式呦！
还有，访问量是大于阅读量的。
访问量=阅读量+访问主页次数
因为别人可能访问你，但是没有阅读你的文章！

先说一段吧，诉诉苦水。也是我忙碌了好久才解决的！
1，第一个就是这个东西，会让你的数据错位。最后跟正确数据总有不同！
而且每个人的主页都有这个人的链接：

你说气人不！
但是，我是借助列表来存储的。
那么，这样就好啦：

让列表输出第二个到最后一个
实现这个功能，通过切片来实现
自己不会，所以耽误好久！通过切片来就好啦！

nn = nn[1:]

其他就没啥啦！就是这个错位，也不知道什么原因！
最后找到啦，解决也费了点时间！
我添加了一个对文件进行写操作，就是把东西写入到记事本里面！
（但是，要写入的记事本要和.py文件在同一个路径之下！）
我的都在桌面！

代码的讲解就放在代码块里吧！

 ff = open('1.txt','a')#打开文件if n%10 == 0:#判断，进行多输入一个换行符号，为了美观！ff.write(titles[w]+' '+str(nn[w])+' \n\n')#写入你想写入的列表元素！else:ff.write(titles[w]+' '+str(nn[w])+' \n')#输入一个换行符号，为了美观！ff.close()#关闭文件！n += 1#不能一直换行呀，找个变量来！

其他的就是一些正则表达式啦，不会的就直接使用吧！
代码：

import requests
import re
sum = 0
pages = 10
x = 1
nn = []
mm = []
base_url = "https://blog.csdn.net/weixin_42859280/article/list/"
print('\n-------------------------下面是原创的-------------------------\n')
for x in range(pages):w = 0r = requests.get(base_url+str(x+1)+'?t=1&orderby=ViewCount')titles = re.findall(r'<span class="article-type type-.*?">\n.*?</span>\n(.*?)</a>', r.content.decode(), re.MULTILINE)visits = re.findall( r'<span class="read-num">阅读数：(.*?)</span>', r.content.decode())mm = re.findall( r'<span class="read-num">评论数：(.*?)</span>', r.content.decode())nn = [int(x) for x in visits] #将阅读数转换为数字nn = nn[1:]mm = mm[1:]n = 1for x, y, z in zip(titles, nn,mm):ff = open('1.txt','a')if n%10 == 0:ff.write(titles[w]+' 阅读数：'+str(nn[w])+' 评论数：'+mm[w]+' \n\n')else:ff.write(titles[w]+' 阅读数：'+str(nn[w])+' 评论数：'+mm[w]+' \n')ff.close()n += 1#if int(nn[w]) > 1000:#可以进行筛选输出！#if int(mm[w]) > 0:#可以进行筛选输出！print(titles[w]+' 阅读数：'+str(nn[w])+' 评论数：'+mm[w])sum += int(nn[w])w+=1
print('\n-------------------------下面是转载的-------------------------\n')
pages = 11
x = 1
nn = []
mm = []
base_url = "https://blog.csdn.net/weixin_42859280/article/list/"
for x in range(pages):w = 0r = requests.get(base_url+str(x+1)+'?t=2&orderby=ViewCount')titles = re.findall(r'<span class="article-type type-.*?">\n.*?</span>\n(.*?)</a>', r.content.decode(), re.MULTILINE)visits = re.findall( r'<span class="read-num">阅读数：(.*?)</span>', r.content.decode())mm = re.findall( r'<span class="read-num">评论数：(.*?)</span>', r.content.decode())nn = [int(x) for x in visits] #将阅读数转换为数字nn = nn[1:]mm = mm[1:]n = 1for x, y, z in zip(titles, nn,mm):ff = open('2.txt','a')if n%10 == 0:ff.write(titles[w]+' 阅读数：'+str(nn[w])+' 评论数：'+mm[w]+' \n\n')else:ff.write(titles[w]+' 阅读数：'+str(nn[w])+' 评论数：'+mm[w]+' \n')ff.close()n += 1#if int(nn[w]) > 1000:#可以进行筛选输出！#if int(mm[w]) > 0:#可以进行筛选输出！print(titles[w]+' 阅读数：'+str(nn[w])+' 评论数：'+mm[w])sum += int(nn[w])w+=1
print("总阅读量:"+str(sum))

代码截图：
（1）：

（2）：

执行结果：
（1）：

（2）：

被写入文本截图：
原创：

转载：

OK，有问题欢迎来留言讨论！
关于这个方面，我写的还有别的爬虫：
功能和这个有不同！
https://blog.csdn.net/weixin_42859280/article/details/85175854
欢迎留言讨论！

Python爬虫获取文章的标题及你的博客的阅读量，评论量。所有数据写入本地记事本。最后输出你的总阅读量！相关推荐

Python爬虫小实践：爬取任意CSDN博客所有文章的文字内容（或可改写为保存其他的元素），间接增加博客访问量...
Python并不是我的主业,当初学Python主要是为了学爬虫,以为自己觉得能够从网上爬东西是一件非常神奇又是一件非常有用的事情,因为我们可以获取一些方面的数据或者其他的东西,反正各有用处. 这两天闲 ...
[python爬虫] 正则表达式使用技巧及爬取个人博客实例
这篇博客是自己<数据挖掘与分析>课程讲到正则表达式爬虫的相关内容,主要简单介绍Python正则表达式爬虫,同时讲述常见的正则表达式分析方法,最后通过实例爬取作者的个人博客网站.希望这篇基础 ...
Python爬虫爬取一篇韩寒新浪博客
网上看到大神对Python爬虫爬到很多有用的信息,觉得很厉害,突然对想学Python爬虫,虽然自己没学过Python,但在网上找了一些资料看了一下,看到爬取韩寒新浪博客的视频,共三集,第一节讲爬取一篇 ...
python爬虫小说代码示例-使用简单Python爬虫获取一个干净整洁的小说文件
打开小说所在界面,右击选择查看网页源代码 1.在头部能够看到'charset=utf-8'得知文件的编码为'uft-8'!,url=http://www.17k.com/list/2921315.ht ...
python爬虫抢演唱会_Python爬虫爬了七天七夜终于爬出了博客园粉丝数排行榜
Python爬虫爬了七天七夜终于爬出了博客园粉丝数排行榜 [Python爬虫]爬了七天七夜,终于爬出了博客园粉丝数排行榜! 爬虫数据采集接单,大小不限,欢迎各位科研教师,学生,企业相关人员咨询,QQ: ...
Python爬虫获取简书的用户、文章、评论、图片等数据，并存入数据库
Python爬虫获取简书的用户.文章.评论.图片等数据,并存入数据库爬虫定义:网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维 ...
c#使用正则表达式获取TR中的多个TD_[Python从零到壹] 四.网络爬虫之入门基础及正则表达式抓取博客案例...
首先祝大家中秋节和国庆节快乐,欢迎大家来到"Python从零到壹",在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界.所有文章都 ...
python爬虫获取百度贴吧内容
python爬虫获取百度贴吧内容 python爬虫获取百度贴吧内容 *声明:本文仅供学习交流使用,请勿用于商业用途,违者后果自负.* python爬虫获取百度贴吧内容博主是一个比较懒的人,不会按时更 ...
python爬虫获取起点中文网人气排行Top100(快速入门,新手必备!)
本篇博客小菌为大家带来的是用python爬虫获取起点中文网人气排行Top100的分享,希望大家能在学习的过程中感受爬虫的魅力! 我们先根据网址https://www.qidian.co ...

Python爬虫获取文章的标题及你的博客的阅读量，评论量。所有数据写入本地记事本。最后输出你的总阅读量！

Python爬虫获取文章的标题及你的博客的阅读量，评论量。所有数据写入本地记事本。最后输出你的总阅读量！相关推荐

最新文章

热门文章