爬取CSDN最新月份所写的文章的最高阅读量文章(以及统计整个月所写的文章的阅读量的累积和)
项目简述
所用工具:python 3
统计中,在最下面的主函数中,url就是我们需要放的初始链接。
比如,我放的链接就是https://blog.csdn.net/a19990412/
这个页面的具体效果,可以点击上面链接看到,也可以,直接看下面图片
大概就是这样的一个界面。然后只要把这个网页的url放到下面的函数中,就可以直接获取对应的url的信息(具体信息如题目所说)
具体内容简介:
就是爬取最新的写作页的所有文章的阅读量。
通过编织的爬虫去统计一下数据。
例如,在我写这篇文章的时候,运行这个代码,输出结果是
In [date]: 2018年5月 原 Fiddler捕捉数据包得到几乎全是加密过的tunnel to【解决方法】
Its count is 150
The Sum of all the article is 365
代码
import requests
from bs4 import BeautifulSoup
import redef cal(soup):global thebestOne_countglobal thebestOne_nameglobal Sum_countdiv_article = soup.find('div', attrs={'class': "article-list"})divs = div_article.find_all('div', attrs={'class': "article-item-box csdn-tracking-statistics"})for d in divs:co = int(re.search('\d+', d.find('span', attrs={'class': "read-num"}).text).group())if co > thebestOne_count:h4 = d.find('h4').text.replace('\n', '').replace(' ', '')thebestOne_name = h4thebestOne_count = coSum_count += codef main(url):global dateheaders = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36'}res = requests.get(url, headers=headers)soup = BeautifulSoup(res.text, 'lxml')try:a = soup.find('aside').find('ul', attrs={'class': 'archive-list'}).find('a')date = list(filter(lambda x: x and x != '\n', a.text.split(' ')))[0]href = a['href']except Exception as e:print('[Error]', e.args)else:res = requests.get(href, headers=headers)soup = BeautifulSoup(res.text, 'lxml')ids = soup.find('div', attrs={'id': 'pageBox'})ids_string = str(ids)data = re.findall('data-page="(\d+)"', ids_string)cal(soup)if data:data = data[1:]for d in data:newhref = href + d + '?'res = requests.get(newhref, headers=headers)soup = BeautifulSoup(res.text, 'lxml')cal(soup)if __name__ == '__main__':Sum_count = 0thebestOne_name = ''thebestOne_count = 0date = ''url = 'https://blog.csdn.net/a19990412/'main(url)print('In [date]: %s' % date, thebestOne_name, '\nIts count is %d' % thebestOne_count)print('The Sum of all the article is %d' % Sum_count)
爬取CSDN最新月份所写的文章的最高阅读量文章(以及统计整个月所写的文章的阅读量的累积和)相关推荐
- 使用Python爬取CSDN历史博客文章列表,并生成目录
使用Python爬取CSDN历史博客文章列表,并生成目录 这篇博客将介绍如何使用Python爬取CSDN历史博客文章列表,并生成目录. 2020年 2020年04月 cv2.threshold() 阈 ...
- copy outerHTML、python爬取csdn文章、一键打包个人csdn文章保存到本地
文章目录 1copy outerHTML复制网站源码法 1.1复制源码 1.2 遇到的问题 2 python爬取CSDN博客文章(保存为html,txt,md) 2.1 安装依赖 2.2 完整代码 3 ...
- 用爬虫来爬取csdn大神的文章的url
上一篇文章中爬虫来获取廖老师python教程的url并加入搜索url功能,这一篇文章会爬取csdn大神july的所有博客的url,并实现搜索功能就像下面这样 请输入你要查询的知识点:Machine M ...
- python爬虫爬取csdn博客专家所有博客内容
python爬虫爬取csdn博客专家所有博客内容: 全部过程采取自动识别与抓取,抓取结果是将一个博主的所有 文章存放在以其名字命名的文件内,代码如下 #coding:utf-8import urlli ...
- Crawler:基于BeautifulSoup库+requests库实现爬取2018最新电影《后来的我们》热门短评
Crawler:基于BeautifulSoup库+requests库实现爬取2018最新电影<后来的我们>热门短评 目录 输出结果 实现代码 输出结果 实现代码 # -*- coding: ...
- 四十二、Scrapy爬取csdn的博客标题和网址
@Author:Runsen 每天一爬虫,健康生活每一天. 今天使用Scrapy爬下CSDN的文章的url 目标:爬取CSDN的各类文章的url,简单使用scrapy 来爬取 创建的Scrapy项目如 ...
- 【爬虫+数据可视化】Python爬取CSDN博客访问量数据并绘制成柱状图
以下内容为本人原创,欢迎大家观看学习,禁止用于商业及非法用途,谢谢合作! ·作者:@Yhen ·原文网站:CSDN ·原文链接:https://blog.csdn.net/Yhen1/article/ ...
- 爬虫案例若干-爬取CSDN博文,糗事百科段子以及淘宝的图片
前面学习了基本的浏览器伪装的方式,现在来看三个实例: 例1 爬取CSDN首页的博文 思路很简单,伪装浏览器之后,通过正则获取对应的url链接,然后把对应的url的文章都下载下来 #!/usr/bin/ ...
- 简单爬取CSDN下载资源信息
这是一篇Python爬取CSDN下载资源信息的例子,主要是通过urllib2获取CSND某个人所有资源的资源URL.资源名称.分数等信息:写这篇文章的原因是我想获取自已的资源所有的评论信息,但是由于评 ...
最新文章
- 2022-2028年中国钢桶行业市场研究及前瞻分析报告
- java泛型函数 返回值_java 泛型(类)方法返回值为什么是 Object??
- python 按键获取_Python中按键来获取指定的值
- 致开发者:2018年AI技术趋势展望
- Django项目之小博客
- [NOIP2002] 提高组 洛谷P1031 均分纸牌
- TextSwitcher--文本切换器
- 当您尝试从大于 5000 的 TCP 端口连接时您会收到错误
- 前端学习(2965):路由的参数传递
- Spring Boot文档阅读笔记-FileHandling解析及抓包分析
- centos 6.6 mysql5.7_CentOS 6.5/6.6 安装(install)mysql 5.7 最完整版教程-Go语言中文社区...
- java质因数的分解_Java实现分解任意输入数的质因数算法示例
- LeetCode刷题——345. 反转字符串中的元音字母
- QQ sdk和Android sdk 28的兼容处理
- 【手写数字识别】基于matlab PCA手写数字识别【含Matlab源码 309期】
- 适合python组态软件_组态软件心得体会
- Postgresql数据库介绍15——客户端认证
- MySQL报错:ERROR 3546 (HY000): @@GLOBAL.GTID_PURGED cannot be changed: the new value must be a superset
- UI设计需要的软件到底有哪些?UI新手必看
- layui select 选中改变字体颜色 正常为绿色,不正常为红色
热门文章
- LCT维护子树信息(BZOJ4530:[BJOI2014]大融合)
- Sundown EK:漏洞利用工具中的抄袭大师
- Spring bean加载多个配置文件
- js实现购物车数量的增加与减少,js实现购物车数量的自增与自减
- 财务报销人员是公司亲信的弊端
- SAPscripts 到导数程序中取数据的实例
- Active Diretory 全攻略(三)--建立域(2)
- 总结基于ArcGIS Server 9.2 Dot Net ADF的WebGIS项目部署问题
- 【正一专栏】故意豪宅纵火的保姆会判死刑吗?
- (转载)简单linux C++内存池