之前爬了一些数据,没有做分析,今天在练习jupyter notebook的使用,干脆拿了2月七号爬取的七日热门数据来进行简单的分析,主要运用了mongodb的pipeline管道等技术加上charts包的使用。

七日热门的文章发布日期

第一次看了下效果,感觉是标题党(说好的七日热门呢),可能是因为有些文章太好,以至于一直存留吧,然后对超过七天的文章进行剔除。

每天的收录数量都很平均,2月6号偏少的原因可能是来不及统计(我是2月7号爬虫)。再看看发布的具体时间:

文章大数为下午,晚上所写。大部分为上班原因。(其实很佩服那些白天上班,晚上还给大家分析学习的人)。

排名

先看看热评文章的作者:

以此类推,也可以分析出打赏最多等统计数据。最后看看综合排名最高的文章(评论,浏览,打赏和喜欢):

最后一击!2016年Mac 系列里我认为最值得推荐软件
学霸的笔记,教育的失败?
春节这几天,我看的7部电影
曾经有人和我道晚安
春晚小品不好笑我可以忍,但大过年出来恶心人就不对了
简年14:暗恋真的是一个人的事吗?
非功利性英语学习工具推荐(iOS版本)
三分钟即席演讲与月入10W+,这才是你要学会的本领
我是如何从土肥圆逆袭成为白富美的?
嫁给穷男人不幸福?我就是那个坐在自行车上笑的女人

看来大家都喜欢看一些舒缓的文章(我已哭晕在厕所)。

Python数据分析之简书七日热门数据分析相关推荐

  1. python关键词 打标签详解_Python学习日记13|利用python制作简书首页热门文章关键词标签云...

    今天是6.16号. 昨天去面越秀金融风险控制部计算机实习生,去面了才知道主要也就是做数据抓取这一块.面试过程中有问到分词,然后自己心虚的说了有接触过分词这一块,面试结果就不去想了,过不过都其实不重要了 ...

  2. [译] 12步轻松搞定python装饰器 - 简书

    [译] 12步轻松搞定python装饰器 - 简书 呵呵!作为一名教python的老师,我发现学生们基本上一开始很难搞定python的装饰器,也许因为装饰器确实很难懂.搞定装饰器需要你了解一些函数式编 ...

  3. Python爬虫获取简书的用户、文章、评论、图片等数据,并存入数据库

    Python爬虫获取简书的用户.文章.评论.图片等数据,并存入数据库 爬虫定义:网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维 ...

  4. Python玩转简书钻,简述钻是否对文章权重有影响?结果确实有!

    2018年11月15号,简书迎来大变革,取消了以往的积分制度,换为去中心化的简书钻,每日发放一万简书钻.首先,简书给出了获取钻石的途径:写文点赞,与以往的阅读,评论,点赞,关注,写作都能获取积分(不同 ...

  5. python 排序算法 简书_Python---简析八大排序算法

    前言 1 .排序的概念 排序是计算机内经常进行的一种操作,其目的是将一组"无序"的记录序列调整为"有序"的记录序列. 排序分为内部排序和外部排序. 若整个排序过 ...

  6. 简书python_用python轻松刷简书文章访问量

    作者:bigtrace 很多人大概都为自己辛辛苦苦写的文章没人看而烦恼,本文就以简书为例,通过python来轻松刷访问量. 刷访问量需要当前没有用户登录,页面每刷新一次,阅读量就会增加一次.Repla ...

  7. 简书爬ajax接口获取csrf,Python爬取简书主页信息

    主要学习如何通过抓包工具分析简书的Ajax加载,有时间再写一个Multithread proxy spider提升效率. 1. 关键点: 使用单线程爬取,未登录,爬取简书主页Ajax加载的内容.主要有 ...

  8. selenium+python爬取简书文章

    页面加载逻辑 当你兴致勃勃地从网上学习了基本的爬虫知识后就像找个目标实践下,拥有大量文章的简书包含了大量的有价值信息,所以自然成为了你的选择目标,如果你尝试之后会发现并没有想象的那么简单,因为里面包含 ...

  9. python工厂模式 简书_工厂

    思考题 public void printMenu() { PancakeHouseMenu pancakeHouseMenu = new PancakeHouseMenu(); ArrayList ...

  10. 用 python selenium 爬简书,Python自动化领域之 Selenium WebDriver 学习第2篇

    本篇博客使用 selenium 实现对简书官网的操作. 文章目录 通过 selenium 执行 JS selenium 实现简书搜索 selenium 隐式与显式等待 selenium 采集京东图书 ...

最新文章

  1. Linux 命令之 stat -- 显示文件的状态信息
  2. php strpos与strrpos,PHP开发之 strpos stripos strrpos strripos的区别
  3. 《Python Cookbook 3rd》笔记(1.18):映射名称到序列元素
  4. linux网络包截获,用C实现截获网络数据包
  5. qdir安装 多窗口资源管理软件
  6. android没有实现glFlush或glFinish
  7. python全栈测试题(一)
  8. Qt 5.14.2安装教程
  9. 利用css做导航栏,利用CSS制作导航栏
  10. srs信道估计_信道估计(channel estimation)图解——从SISO到MIMO原理介绍
  11. 2019当今互联网赚钱的六大方式,赠送给迷茫的网赚新手
  12. 互联网金融学习总结(5)——市场主流的风控模型简要学习总结
  13. 有效 TCP RST
  14. magisk卸载内置软件_Win10自带软件怎么卸载 Win10自带软件卸载方法【详细教程】...
  15. 华为服务器修改root密码,华为云服务器root权限设置密码
  16. 基于labview开发平台的声音信号采集及处理系统设计(任务书+lunwen+翻译及原文+vi源文件+查重报告)
  17. Ruoyi 图片上传
  18. 2020年,阿里最新的java程序员面试题目含答案带你吊打面试官
  19. 安卓ndk开发,全世界都在问Android开发凉了吗?送大厂面经一份!
  20. C语言之strtok函数

热门文章

  1. 如何快速实现一个抽签小程序
  2. i3能装Linux虚拟机,使用i3wm重新安装Ubuntu
  3. 支付宝”向他付款”,定额付款收款链接生成
  4. 数字图像处理-知识点总结
  5. 第十四届恩智浦智能汽车大赛车队规划概要
  6. qt opengl 天空盒
  7. iweboffice文档内容服务器文件,iWebOffice2015使用常见问题-NTKOOffice文档控件.doc
  8. OCR识别中级篇,Halcon实战项目讲解一,点状字符。
  9. win10系统怎么改奇摩输入法_教你打造最强「Windows 10」微软拼音输入法 + 600万词库下载...
  10. oracle三大索引类型