腾讯微博10年数据对比,看看过去的辉煌,曾经的全球第一微博
本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。
以下文章来源于早起Python ,作者早起Python
转载于
https://mp.weixin.qq.com/s?src=11×tamp=1600153733&ver=2585&signature=qiRlZpT8etc29k*HoQqLW*wXgJ0MAPwregBQ5HY12jAHI9YWXfTbMCJ83qr2PNpybbYMUk6g4BsgAO4PQJeCiW5qRv5ll8t11GDaWCGIeQD46rOQlN6aRBzfS1QnawGe&new=1
你用过腾讯微博吗?9月4日,腾讯微博团队突然发布公告称,将于9月28日停止服务和运营,此条消息一出,新浪微博立马安排了一条热搜并引发网友热议!
部分用户很震惊腾讯微博居然关了,也有些用户很震惊腾讯微博居然还活着,还有部分用户甚至不知道腾讯微博的存在,腾讯微博已经被淹没在互联网的长流中,但互联网是有记忆的,本文就将通过Python爬取历史数据,尝试探索背靠数亿流量的腾讯微博是如何一步步退出舞台。
为了研究腾讯微博的历史数据,很自然的就想到从网页入手,但是让人遗憾的是,虽然官方公告说9月28日正式停止运营,实际上大概在去年就几乎打不开了
而就算经过不断尝试成功打开页面,你会发现除了报错代码后什么内容都没有,也无法登陆,那既然官方网站这条路走不通,要怎样才能找到腾讯微博的历史数据呢?
我们都知道搜索引擎在收录网页时,会对网页进行备份,以网页快照的形式存在自己的服务器缓存里,这样我们就可以通过点击网页快照来查看网站的历史状态。除了搜索引擎,还有一些网站会对互联网做备份,比如Wayback Machine
https://web.archive.org/
自从1996年以来,Wayback Machine就在给整个互联网做备份,现在已经保存了3300亿网页,所以现在让我们搭乘网页时光机回到十年前吧!
时光机
首先打开上述网站(国内暂时无法直接访问,请自行探索解决办法)并在地址栏输入t.qq.com
按下回车之后就会显示该网站收录的腾讯微博全部历史网页
并且自2010年2月1日以来,共采集了86942条历史快照,打开2012年的某一条微博
除了满满的年代感就是对青春的回忆,并且可以看到该网站对于腾讯微博最新的记录是2020.9.10,可能这条关停通知就是腾讯微博最终的画面
但是互联网的记忆不会被时间磨灭,现在我们将使用Python爬取Wayback Machine网站数据并进行分析,本节将不会对爬取过程做过多说明,详细的技术解析会在下一节进行讲解。
历史快照总量对比
如果一个网站热度越高,那么被收录的次数就越多,首先来看对新浪微博与腾讯微博历史快照的总量进行分析
我们可以看到,在这10年间新浪微博的历史快照是腾讯微博的近2倍,而将数据单独拆开来看的话,从2010年两个微博网站被收录以来,新浪微博就以碾压的姿势超越腾讯微博,在2012年两者的新增快照数量均达到最高值,然后趋于稳定。
快照内容拆解分析
除了对比历史快照数总量,所有的快照都是由一个个HTML文件组成,现在我们将所有的快照内容进行拆解分析
可以看到,每一个快照文件中,新浪微博除了html文本,还有一部分为应用、图片、音视频等多样化内容,而腾讯微博基本上就是html文本组成,是不是和和QQ空间有种同样的感觉,而微博却应该给用户提供一个不一样的发声平台,这可能也是腾讯微博不敌新浪微博的一点因素。
粉丝活跃度分析
为了研究背靠庞大QQ流量的腾讯微博是在哪一年开始下滑,本小节将基于主持人何炅的腾讯微博历史数据(头部大V、2012年腾讯微博热门第一名,有较多的历史数据)进行分析,使用Python爬取该网站收录的何炅的全部历史微博
一共采集到1506条微博,每条微博分别有5条字段:
- 年份
- 发博日期
- 内容
- 粉丝量
- 粉丝互动量(转发与评论)
先对何炅的粉丝量变化进行可视化
可以看到何炅粉丝主要增长集中在2012年间,但增势放缓也发生在2012年末,因此2012年对于腾讯微博来说是非常关键的一年,在大量吸收粉丝后却没能留住粉丝。我们接着通过粉丝互动率来分析
通过对近十年粉丝的转发回复数量进行计算得到粉丝互动率,可以发现2012年依旧是腾讯微博最辉煌的一年,单条微博的互动率最高达到近2%,而后在2013年迅速下滑至0.19%,降低了10倍之多。
技术解析
本节我们将用Python示例如何爬取何炅的历史微博,使用到的库有:
- requests
- pandas
- bs4
- waybackpack
首先打开https://web.archive.org/并搜索t.qq.com/hejiong
如上图所示,一共收录了何炅的107条腾讯微博历史数据,很自然的就想到如何把这些URL提取出来,此时我们只需要使用pip安装waybackpack库,并在Jupyter notebook中执行
! waybackpack t.qq.com/hejiong --list
该命令就会返回全部的URL,注意执行该命令依旧需要自行解决国内无法访问的问题
现在我们打开第一个网站并F12,按照下图的指示找到存储微博数据的数据包
接下来就是遍历每一个url,使用requests构造请求,接着使用bs4解析数据,再使用pandas清洗存储数据即可
weibo_hejiong = pd.DataFrame(columns=['年份','日期','内容','粉丝量','粉丝互动量'])
for i in range(len(url_hejiong)):url = url_hejiong[i]res = requests.get(url=url,headers = headers) soup = BeautifulSoup(res.text)followNum = soup.find_all('strong',class_ = "followNum")[0].text #粉丝数year = url[28:32] #年份wb_time = soup.find_all('a',class_ = 'time')[::-1] #发博时间wb_text = soup.find_all('div',class_="msgCnt")[::-1] #博客内容wb_relayNum = soup.find_all('b',class_="relayNum")[::-1] #互动量[wb_time.remove(k) for k in wb_time if 'rel' in str(k)][wb_text.remove(k) for k in wb_text if 'strong' in str(k)]for j in range(len(wb_time)):wb_time_t = wb_time[j].textwb_text_t = wb_text[j].textwb_relayNum_t = wb_relayNum[j].textdata = pd.Series([year,wb_time_t, wb_text_t, followNum, wb_relayNum_t], index = weibo_hejiong.columns)weibo_hejiong = weibo_hejiong.append(data,ignore_index=True)
腾讯微博10年数据对比,看看过去的辉煌,曾经的全球第一微博相关推荐
- 腾讯云10亿扶持小程序:3元套餐可能免费
腾讯云10亿资金扶持"小程序·云开发",对超过100万小程序开发者提供免费云开发资源支持. 1月9日,正值小程序正式发布两周年,腾讯云在2019年微信公开课PRO上宣布,将推出总价 ...
- 【原创】指针和下标的10条对比
[原创]指针和下标的10条对比 摘要:在编程语言中,指针和下标都是访问数据的有效手段,本文以C/C++语言为例,讲解它们之间的区别. 要想完全理解本文,读者可能需要:1.至少熟悉一门含有指针和下标语义 ...
- 一加到1亿。C语言_可能是今年最难选的2部手机:小米10详细对比一加8T
原标题:可能是今年最难选的2部手机:小米10详细对比一加8T 在智能手机行业里流传着这样一句话:旗舰处理器只能决定一款机型的下限,而不能决定它的上限:决定一款机型上限的是旗舰处理器之外的屏幕.拍照.U ...
- 荣耀9i升级android10,荣耀9i和荣耀10哪个好_荣耀9i和荣耀10评测对比_飞翔教程
不少小伙伴都很期待荣耀9i和荣耀10的对比,今天我们就来帮大家解答一下,荣耀9i和荣耀10都是非常注重性价比的手机,两款手机都采用了麒麟处理器,非常适合年轻用户使用.接下来我们会分析两款手机的配置参数 ...
- Python英超联赛10年数据爬虫
英超联赛10年数据爬虫 引言:今天对国外某足球网站进行爬虫,爬取英超联赛10年数据,主要包括比赛双方以及比分. 1.网站分析 网址:https://www.premierleague.com/resu ...
- 华为gsm模块_出货量全球第一,华为阿里腾讯都是其客户,上海移远通信牛在哪?...
近些年来,我们明显感受到了科技进步带来的便捷,微信支付.支付宝付款早已经成为绝大多数人的支付方式:交水费.电费等再也不用去缴费大厅排队,手机就能一键实现:出门也不怕迷路了,滴滴出行.手机地图等让你想去 ...
- 【高盛重磅报告干货解读】中国 AI 剑指全球第一,BAT 实力对比
神经高盛最新发布报告,认为中国已成为AI领域主要竞争者,在人才.技术.研发投入.数据等方面竞争优势明显,唯一的短板在芯片.本文摘编报告重点内容,分为上下两篇进行呈现:上篇描绘中国AI领域的整体发展,下 ...
- 解读微博2019年Q3财报:进入5亿时代,微博正走向纵向发展
11月14日,国内知名社交平台微博正式发布了2019年第三季度财报.根据微博财报数据显示,微博2019年第三季度净营收为4.678亿美元,同比增长2%:非美国通用会计准则归属于微博的净利润为1.761 ...
- (C++)输入10个整数,将其中最小的数与第一个数对换,把最大的数与最后一个数对换。要求用3个函数实现,分别为输入10个数、进行处理、输出10个数。要求使用指针的方法进行处理。
#include<cstdio> //输入10个整数,将其中最小的数与第一个数对换,把最大的数与最后一个数对换.要求用3个函数实现,分别为输入10个数.进行处理.输出10个数.要求使用指针 ...
最新文章
- linux sftp 中文,Linux(CentOS)上配置 SFTP服务器
- 《代码大全2》读书笔记 Week 1
- Spring-学习笔记08【面向切面编程AOP】
- 像加载DLL一样加载EXE
- php sdk微信,GitHub - swayer/wechat-php-sdk: 微信公众平台 PHP SDK
- mysql004操作表.增删改
- mysql管理员就业_MySQL管理员必备的十大工具盘点
- 解决HttpServletRequest InputStream只能读取一次问题
- java实现堆栈排序_Java代码为例讲解堆的性质和基本操作以及排序方法
- c语言dll导出函数举例,DLL中导出函数的两种方式(dllexport与.def文件)
- Java获取微信用户昵称时昵称里有特殊符号导致插入数据库失败(解决方案)
- [工业互联-6]:PLC工业控制系统快速概览
- 云原生之使用Docker部署BookBrowser电子书浏览器
- 心得 ~ 使用 zlib库 解压缩 zip文件
- android和ios测试环境搭建,iOS自动化测试环境搭建
- web前端高级必备面试资料
- wish新卖家如何运营好账号?
- Sift中尺度空间、高斯金字塔、差分金字塔(DOG金字塔)、图像金字塔
- 高程、方位角、图幅编号
- a类计算机机房建设标准,A类机房建设标准和B类机房建设标准有什么差别