爬取CSDN最新月份所写的文章的最高阅读量文章（以及统计整个月所写的文章的阅读量的累积和）

项目简述

所用工具：python 3
统计中，在最下面的主函数中，url就是我们需要放的初始链接。
比如，我放的链接就是https://blog.csdn.net/a19990412/
这个页面的具体效果，可以点击上面链接看到，也可以，直接看下面图片

大概就是这样的一个界面。然后只要把这个网页的url放到下面的函数中，就可以直接获取对应的url的信息（具体信息如题目所说）

具体内容简介：
就是爬取最新的写作页的所有文章的阅读量。
通过编织的爬虫去统计一下数据。

例如，在我写这篇文章的时候，运行这个代码，输出结果是

In [date]: 2018年5月 原 Fiddler捕捉数据包得到几乎全是加密过的tunnel to【解决方法】
Its count is 150
The Sum of all the article is 365

代码

import requests
from bs4 import BeautifulSoup
import redef cal(soup):global thebestOne_countglobal thebestOne_nameglobal Sum_countdiv_article = soup.find('div', attrs={'class': "article-list"})divs = div_article.find_all('div', attrs={'class': "article-item-box csdn-tracking-statistics"})for d in divs:co = int(re.search('\d+', d.find('span', attrs={'class': "read-num"}).text).group())if co > thebestOne_count:h4 = d.find('h4').text.replace('\n', '').replace('  ', '')thebestOne_name = h4thebestOne_count = coSum_count += codef main(url):global dateheaders = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36'}res = requests.get(url, headers=headers)soup = BeautifulSoup(res.text, 'lxml')try:a = soup.find('aside').find('ul', attrs={'class': 'archive-list'}).find('a')date = list(filter(lambda x: x and x != '\n', a.text.split(' ')))[0]href = a['href']except Exception as e:print('[Error]', e.args)else:res = requests.get(href, headers=headers)soup = BeautifulSoup(res.text, 'lxml')ids = soup.find('div', attrs={'id': 'pageBox'})ids_string = str(ids)data = re.findall('data-page="(\d+)"', ids_string)cal(soup)if data:data = data[1:]for d in data:newhref = href + d + '?'res = requests.get(newhref, headers=headers)soup = BeautifulSoup(res.text, 'lxml')cal(soup)if __name__ == '__main__':Sum_count = 0thebestOne_name = ''thebestOne_count = 0date = ''url = 'https://blog.csdn.net/a19990412/'main(url)print('In [date]: %s' % date, thebestOne_name, '\nIts count is %d' % thebestOne_count)print('The Sum of all the article is %d' % Sum_count)

爬取CSDN最新月份所写的文章的最高阅读量文章（以及统计整个月所写的文章的阅读量的累积和）相关推荐

使用Python爬取CSDN历史博客文章列表，并生成目录
使用Python爬取CSDN历史博客文章列表,并生成目录这篇博客将介绍如何使用Python爬取CSDN历史博客文章列表,并生成目录. 2020年 2020年04月 cv2.threshold() 阈 ...
copy outerHTML、python爬取csdn文章、一键打包个人csdn文章保存到本地
文章目录 1copy outerHTML复制网站源码法 1.1复制源码 1.2 遇到的问题 2 python爬取CSDN博客文章(保存为html,txt,md) 2.1 安装依赖 2.2 完整代码 3 ...
用爬虫来爬取csdn大神的文章的url
上一篇文章中爬虫来获取廖老师python教程的url并加入搜索url功能,这一篇文章会爬取csdn大神july的所有博客的url,并实现搜索功能就像下面这样请输入你要查询的知识点:Machine M ...
python爬虫爬取csdn博客专家所有博客内容
python爬虫爬取csdn博客专家所有博客内容: 全部过程采取自动识别与抓取,抓取结果是将一个博主的所有文章存放在以其名字命名的文件内,代码如下 #coding:utf-8import urlli ...
Crawler：基于BeautifulSoup库+requests库实现爬取2018最新电影《后来的我们》热门短评
Crawler:基于BeautifulSoup库+requests库实现爬取2018最新电影<后来的我们>热门短评目录输出结果实现代码输出结果实现代码 # -*- coding: ...
四十二、Scrapy爬取csdn的博客标题和网址
@Author:Runsen 每天一爬虫,健康生活每一天. 今天使用Scrapy爬下CSDN的文章的url 目标:爬取CSDN的各类文章的url,简单使用scrapy 来爬取创建的Scrapy项目如 ...
【爬虫+数据可视化】Python爬取CSDN博客访问量数据并绘制成柱状图
以下内容为本人原创,欢迎大家观看学习,禁止用于商业及非法用途,谢谢合作! ·作者:@Yhen ·原文网站:CSDN ·原文链接:https://blog.csdn.net/Yhen1/article/ ...
爬虫案例若干-爬取CSDN博文,糗事百科段子以及淘宝的图片
前面学习了基本的浏览器伪装的方式,现在来看三个实例: 例1 爬取CSDN首页的博文思路很简单,伪装浏览器之后,通过正则获取对应的url链接,然后把对应的url的文章都下载下来 #!/usr/bin/ ...
简单爬取CSDN下载资源信息
这是一篇Python爬取CSDN下载资源信息的例子,主要是通过urllib2获取CSND某个人所有资源的资源URL.资源名称.分数等信息:写这篇文章的原因是我想获取自已的资源所有的评论信息,但是由于评 ...

爬取CSDN最新月份所写的文章的最高阅读量文章（以及统计整个月所写的文章的阅读量的累积和）

项目简述

代码

爬取CSDN最新月份所写的文章的最高阅读量文章（以及统计整个月所写的文章的阅读量的累积和）相关推荐

最新文章

热门文章