项目简述

所用工具:python 3
统计中,在最下面的主函数中,url就是我们需要放的初始链接。
比如,我放的链接就是https://blog.csdn.net/a19990412/
这个页面的具体效果,可以点击上面链接看到,也可以,直接看下面图片

大概就是这样的一个界面。然后只要把这个网页的url放到下面的函数中,就可以直接获取对应的url的信息(具体信息如题目所说)

具体内容简介:
就是爬取最新的写作页的所有文章的阅读量。
通过编织的爬虫去统计一下数据。

例如,在我写这篇文章的时候,运行这个代码,输出结果是

In [date]: 2018年5月 原 Fiddler捕捉数据包得到几乎全是加密过的tunnel to【解决方法】
Its count is 150
The Sum of all the article is 365

代码

import requests
from bs4 import BeautifulSoup
import redef cal(soup):global thebestOne_countglobal thebestOne_nameglobal Sum_countdiv_article = soup.find('div', attrs={'class': "article-list"})divs = div_article.find_all('div', attrs={'class': "article-item-box csdn-tracking-statistics"})for d in divs:co = int(re.search('\d+', d.find('span', attrs={'class': "read-num"}).text).group())if co > thebestOne_count:h4 = d.find('h4').text.replace('\n', '').replace('  ', '')thebestOne_name = h4thebestOne_count = coSum_count += codef main(url):global dateheaders = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36'}res = requests.get(url, headers=headers)soup = BeautifulSoup(res.text, 'lxml')try:a = soup.find('aside').find('ul', attrs={'class': 'archive-list'}).find('a')date = list(filter(lambda x: x and x != '\n', a.text.split(' ')))[0]href = a['href']except Exception as e:print('[Error]', e.args)else:res = requests.get(href, headers=headers)soup = BeautifulSoup(res.text, 'lxml')ids = soup.find('div', attrs={'id': 'pageBox'})ids_string = str(ids)data = re.findall('data-page="(\d+)"', ids_string)cal(soup)if data:data = data[1:]for d in data:newhref = href + d + '?'res = requests.get(newhref, headers=headers)soup = BeautifulSoup(res.text, 'lxml')cal(soup)if __name__ == '__main__':Sum_count = 0thebestOne_name = ''thebestOne_count = 0date = ''url = 'https://blog.csdn.net/a19990412/'main(url)print('In [date]: %s' % date, thebestOne_name, '\nIts count is %d' % thebestOne_count)print('The Sum of all the article is %d' % Sum_count)

爬取CSDN最新月份所写的文章的最高阅读量文章(以及统计整个月所写的文章的阅读量的累积和)相关推荐

  1. 使用Python爬取CSDN历史博客文章列表,并生成目录

    使用Python爬取CSDN历史博客文章列表,并生成目录 这篇博客将介绍如何使用Python爬取CSDN历史博客文章列表,并生成目录. 2020年 2020年04月 cv2.threshold() 阈 ...

  2. copy outerHTML、python爬取csdn文章、一键打包个人csdn文章保存到本地

    文章目录 1copy outerHTML复制网站源码法 1.1复制源码 1.2 遇到的问题 2 python爬取CSDN博客文章(保存为html,txt,md) 2.1 安装依赖 2.2 完整代码 3 ...

  3. 用爬虫来爬取csdn大神的文章的url

    上一篇文章中爬虫来获取廖老师python教程的url并加入搜索url功能,这一篇文章会爬取csdn大神july的所有博客的url,并实现搜索功能就像下面这样 请输入你要查询的知识点:Machine M ...

  4. python爬虫爬取csdn博客专家所有博客内容

    python爬虫爬取csdn博客专家所有博客内容: 全部过程采取自动识别与抓取,抓取结果是将一个博主的所有 文章存放在以其名字命名的文件内,代码如下 #coding:utf-8import urlli ...

  5. Crawler:基于BeautifulSoup库+requests库实现爬取2018最新电影《后来的我们》热门短评

    Crawler:基于BeautifulSoup库+requests库实现爬取2018最新电影<后来的我们>热门短评 目录 输出结果 实现代码 输出结果 实现代码 # -*- coding: ...

  6. 四十二、Scrapy爬取csdn的博客标题和网址

    @Author:Runsen 每天一爬虫,健康生活每一天. 今天使用Scrapy爬下CSDN的文章的url 目标:爬取CSDN的各类文章的url,简单使用scrapy 来爬取 创建的Scrapy项目如 ...

  7. 【爬虫+数据可视化】Python爬取CSDN博客访问量数据并绘制成柱状图

    以下内容为本人原创,欢迎大家观看学习,禁止用于商业及非法用途,谢谢合作! ·作者:@Yhen ·原文网站:CSDN ·原文链接:https://blog.csdn.net/Yhen1/article/ ...

  8. 爬虫案例若干-爬取CSDN博文,糗事百科段子以及淘宝的图片

    前面学习了基本的浏览器伪装的方式,现在来看三个实例: 例1 爬取CSDN首页的博文 思路很简单,伪装浏览器之后,通过正则获取对应的url链接,然后把对应的url的文章都下载下来 #!/usr/bin/ ...

  9. 简单爬取CSDN下载资源信息

    这是一篇Python爬取CSDN下载资源信息的例子,主要是通过urllib2获取CSND某个人所有资源的资源URL.资源名称.分数等信息:写这篇文章的原因是我想获取自已的资源所有的评论信息,但是由于评 ...

最新文章

  1. 2022-2028年中国钢桶行业市场研究及前瞻分析报告
  2. java泛型函数 返回值_java 泛型(类)方法返回值为什么是 Object??
  3. python 按键获取_Python中按键来获取指定的值
  4. 致开发者:2018年AI技术趋势展望
  5. Django项目之小博客
  6. [NOIP2002] 提高组 洛谷P1031 均分纸牌
  7. TextSwitcher--文本切换器
  8. 当您尝试从大于 5000 的 TCP 端口连接时您会收到错误
  9. 前端学习(2965):路由的参数传递
  10. Spring Boot文档阅读笔记-FileHandling解析及抓包分析
  11. centos 6.6 mysql5.7_CentOS 6.5/6.6 安装(install)mysql 5.7 最完整版教程-Go语言中文社区...
  12. java质因数的分解_Java实现分解任意输入数的质因数算法示例
  13. LeetCode刷题——345. 反转字符串中的元音字母
  14. QQ sdk和Android sdk 28的兼容处理
  15. 【手写数字识别】基于matlab PCA手写数字识别【含Matlab源码 309期】
  16. 适合python组态软件_组态软件心得体会
  17. Postgresql数据库介绍15——客户端认证
  18. MySQL报错:ERROR 3546 (HY000): @@GLOBAL.GTID_PURGED cannot be changed: the new value must be a superset
  19. UI设计需要的软件到底有哪些?UI新手必看
  20. layui select 选中改变字体颜色 正常为绿色,不正常为红色

热门文章

  1. LCT维护子树信息(BZOJ4530:[BJOI2014]大融合)
  2. Sundown EK:漏洞利用工具中的抄袭大师
  3. Spring bean加载多个配置文件
  4. js实现购物车数量的增加与减少,js实现购物车数量的自增与自减
  5. 财务报销人员是公司亲信的弊端
  6. SAPscripts 到导数程序中取数据的实例
  7. Active Diretory 全攻略(三)--建立域(2)
  8. 总结基于ArcGIS Server 9.2 Dot Net ADF的WebGIS项目部署问题
  9. 【正一专栏】故意豪宅纵火的保姆会判死刑吗?
  10. (转载)简单linux C++内存池