戳蓝字“CSDN云计算”关注我们哦!

作者 | 徐麟,某互联网公司数据分析狮

来源 | 数据森麟(id:shujusenlin)

吃瓜前言

关于新浪微博,向来都是各路吃瓜群众聚集之地,大家在微博中可以尽情吃瓜,各种类型的瓜应有尽有,只有你想不到的,没有你吃不到的。微博热搜榜更是各路明星的“必争之地”,能够上热搜也是代表了其知名度,“包月热搜套餐”,“买热搜”是否存在迄今也是一个未解之谜

除了吃瓜群众,新浪微博也聚集着一群被整个互联网圈所同情的一群苦逼程序员,每当有明星放出新闻,特别是结婚、离婚、分手、恋爱这类婚恋题材,新浪微博程序员都会严阵以待,此时的服务器会因为吃瓜群众的大量涌入而变得脆弱起来,随时有崩溃的风险,下图就是一张此前广为流传的程序员在自己婚礼处理服务器崩溃的经典图片:

我们此次通过爬取2019年2W+条热搜数据,包括内容以及搜索指数,为大家揭开微博热搜2019的诸多秘密,一起利用数据“硬核吃瓜”,包括:2019微博热搜最大的瓜,微博程序员集体加班的日子,微博热搜的常客,热搜里的2019互联网……

瓜源获取

我们此次并没有直接去爬取微博的原始数据,而是从一个专门记录微博热搜历史数据的网站获取,网站界面如下:

通过网站的数据接口,我们获取到了今天1月1日至今的2W多条数据,爬取代码如下:

resou = pd.DataFrame(columns=['date','title','searchCount','rank'])
resou_date = getBetweenDay('2019/01/01','2019/07/12')
for i in resou_date:print(i)url= 'https://www.enlightent.cn/research/top/getWeiboHotSearchDayAggs.do?date={}'.format(str(i))html = requests.get(url=url, cookies=cookie, headers=header).contentdata = json.loads(html.decode('utf-8'))for j in range(100):resou = resou.append({'date':i,'title':data[j]['keyword'],'searchCount':data[j]['searchCount'],'rank':j+1},ignore_index=True)

最终获取到的吃瓜数据如下:

硬核吃瓜

有了前面的瓜源获取过程,我们获取到了2W+吃瓜数据,下面就可以开始利用这些数据愉快地开始我们的吃瓜之旅

第一瓜:2019微博热搜最火事件

说到吃瓜,大家首先关注的一定是那些最大的瓜,要吃就吃最大的瓜也是广大吃瓜群众所遵从的基本原则,我们通过对比热搜数据的搜索指数,选取出了15个最大的瓜,数据如下:

看来最大的瓜都是婚恋题材,排名前四的瓜涵盖了结婚、离婚、分手这些广大吃瓜群众所最为关心的内容,并且有了明星加成,结出这些巨型瓜也就不足为奇,大家可以看到排名第14的热搜“今天到底是什么日子”可能会好奇,为何这种标题也会有那么高的搜索量,想要知道这个问题的答案,就请继续去品尝下面的瓜

第二瓜:2019最让微博程序员抓狂的日子

刚才的瓜中,我们留下了一个悬念,为何“今天到底是什么日子”这种看似没有任何营养的内容,都会有那么高的搜索指数。为了回答这个问题,我们统计了2019年每天的TOP100热搜话题平均指数,并绘制了日历热度图:

可以看到6月27日的指数远高于其他天数,而且基本上是其他时间的两到三倍,这一天就是“今天到底是什么日子”这个话题的诞生之日,并且这一天微博服务器毫无疑问地“应声倒地”,我想这一定是让微博程序员怀疑人生的日子

下面我们就来具体看看,这一天到底发生了些什么:

看到这份榜单,我们仿佛看到了程序员们6月27日的绝望。宋慧乔&宋仲基离婚这个巨型瓜的出现,程序员们还可以用自己的信念支撑着服务器不要崩溃,然而正当程序员们以为稳操胜券的时候,范冰冰&李晨分手这个更加巨大的瓜出现了,我想程序员们内心一定是这样的:

因为有了这两个巨型瓜的存在,使得“张若昀&唐艺昕”,“马思纯当司仪”,“杜江否认出轨”这种平时能够轻松hold住的瓜也产生了威力加成,进一步压垮程序员,就连平时低调的B站也请来了五月天,真可谓是“瓜团锦簇”的一天。我想“今天到底是什么日子”这条热搜的创造者很有可能就是新浪微博的程序员

第三瓜:2019最勤劳的瓜生产商

前面提到了6月27日是微博程序员最为抓狂的日子,那么又有那些生产商为广大吃瓜群众源源不断地创造吃瓜素材呢,我们也统计了相关数据,想必这些生产商也是广大程序员们最怕的人:

榜单中易烊千玺以80次的出现次数荣登榜首,也就是说平均每两天他就会为广大群众生产一次“吃瓜素材”,也是非常地勤劳,想到作者一个月一篇原创的节奏,默默留下了悔恨的泪水。周董也在榜单中以78次的数据位居次席,毕竟周董是一代人的青春记忆,大家也都在时刻关注着周董。

或许大家会认为榜单都被娱乐圈所霸占,没啥新意之时,东哥站了出来,成为荣登本榜单的唯一互联网人士,不过个人还是希望今后不要在榜单中再看到东哥的身影,毕竟老话说得好“no news is good news”。

第四瓜:那些专属热搜的词语

如同“****,是怎样的体验”这样的知乎体,“震惊!***”这样的uc体,热搜也有一些比较常出现,能代表热搜独特气质的词语,我们从中选取了一些比较有代表的词语并统计其出现次数

华为在榜单中出现了86次,也印证了大家在上半年对于华为的关注度,未来也希望有更多类似于“华为**系统上线”这样振奋人心的消息出现在热搜中。

同时在小编看来否认,道歉,心疼这三个词是非常有特色的热搜词语,毕竟很难在其他的地方会时不时就看“心疼**”这种标题,我们针对于这三个词语制作了相应的词云:

否认版

208次否认相关话题出现在了热搜榜单,足以说明在这个信息爆炸的时代有太多的事情难以去分辨真假,其中一些内容确实是虚造的,当事人也及时站出来进行否认。不过对于其他的一些事情,想必是“真亦假来假亦真”,需要大家自己去判断

道歉版

强烈建议广大读者收藏上图,特别是在被老板骂或者因为生产BUG而被同事怼的时候拿出来看一下,调节一下自己的心情。想到连菲利普亲王都要道歉,及时认个怂好像也没啥,毕竟你的工资卡里也没剩几个钱

心疼版

最后这个可以说是极具微博特色了,广大吃瓜群众可谓忧国忧民,心疼的对象从韩庚到吴谨言,张雨绮,就连梅西都心疼名单中,这体现出了吃瓜群众乐于助人的正确价值观

不过小编表示还是要先心疼一下自己,上面那些被心疼的人收入都是小编的上百倍甚至更多,还是先心疼一下自己的花呗比较现实

除此之外,微博热搜也十分热衷于关心明星是不是哭了以及是不是胖了这种话题,可谓“先天下之忧而忧,后天下之乐而乐”,满满的责任感

第五瓜:明星婚恋话题到底有多火

此前提到,排名靠前的内容大多都是明星婚恋题材的内容,比如**和**离婚,**和**结婚又离婚,或者**和**结婚又离婚又复婚……,我们就来看一下这些话题出现的次数

不出所料,广大吃瓜群众对于这类题材都有着非常高的好奇心,为别人的婚恋情况操碎了心,可以说是很努力了,想必未来的**婚恋上市公司的老总一定会在吃瓜群众中诞生,我们也来具体看看那些相关的话题。

结婚 VS 离婚

恋情VS分手

最后我们以一句话来结束这部分的吃瓜内容:“贵圈真乱”

第六瓜:2019热搜中的互联网专属瓜

前面说的那些大多都是娱乐圈的内容,作为互联网从业(banzhuan)人员,对于互联网的专属瓜品也有着强烈兴趣,我们从中选取了互联网圈为2019热搜所生产的瓜品:

出人意料的是TOP2居然都和B站有关,经过查证,这两条都发生在最让微博程序员抓狂,瓜团锦簇的6月27日(比较奇怪的是B站十周年应该是6月26日,但上榜时间确是27日),平时八成熟的瓜立刻熟透。相信互联网人看到这份榜单,也会回忆起很多上半年发生的事情,2019上半年的互联网也是热闹非凡。

吃瓜结语

今天的吃瓜之旅就到这里结束了,看来吃瓜也是门学问,微博热搜数据也是一个大的分析宝库,里面还有很多可以继续分析的点,等待大家去挖掘

福利

扫描添加小编微信,备注“姓名+公司职位”,加入【云计算学习交流群】,和志同道合的朋友们共同打卡学习!

推荐阅读:

  • 做了中台就不会死吗?每年至少40%开发资源是被浪费的!

  • 美女主播变大妈:在bug翻车现场说测试策略

  • 漫画高手、小说家、滑板专家……解锁程序员的另一面!

  • 手把手教你如何用Python模拟登录淘宝

  • 鸿蒙霸榜 GitHub,从最初的 Plan B 到“取代 Android”?

  • 每天超50亿推广流量、3亿商品展现,阿里妈妈的推荐技术有多牛?

真香,朕在看了!

上万条数据撕开微博热搜的真相!相关推荐

  1. 硬核吃瓜!上万条数据撕开微博热搜真相

    作者 | 徐麟 来源 | 转载自数据森麟(ID:shujusenlin) 吃瓜前言 关于新浪微博,向来都是各路吃瓜群众聚集之地,大家在微博中可以尽情吃瓜,各种类型的瓜应有尽有,只有你想不到的,没有你吃 ...

  2. 利用 Python 自动抓取微博热搜,并定时发送至邮箱

    点击上方"Python爬虫与数据挖掘",进行关注 回复"书籍"即可获赠Python从入门到进阶共10本电子书 今 日 鸡 汤 夜阑卧听风吹雨,铁马冰河入梦来. ...

  3. Python爬取微博热搜数据之炫酷可视化

    可视化展示 看完记得点个赞哟 微博炫酷可视化音乐组合版来了! 项目介绍 背景 现阶段,微博.抖音.快手.哗哩哗哩.微信公众号已经成为不少年轻人必备的"生活神器".在21世纪的今天, ...

  4. 抓取微博热搜榜数据并保存在Excel中

    PC端我们抓包常用到工具是Fiddler,那app端要怎么抓包? 1.首先将jsoup-1.8.1.jar(点击下载).poi-3.7.jar(目前上传不了,可以CSDN资源中去搜索下载)这两个包放到 ...

  5. 15--jQuery插件大全-- 使用jsoup爬取酷我音乐和微博热搜数据

    目录 歌曲来自于酷我音乐热歌榜 热搜数据来自于微博热搜 库我音乐前台代码如下: 库我音乐后台代码如下: Servlet代码: model代码: HTTPUtils工具类 微博热搜前台代码如下: 微博热 ...

  6. 微博数据解析:综艺节目如何频上微博热搜?以《令人心动的offer》为例

    随着经济的发展.互联网的崛起以及精神世界的需求等一系列原因,使得网络综艺顺应时代蕴运而生.如今,网络综艺已经广泛渗透到人们的日常生活当中,潜移默化的影响着观众. 目前综艺节目市场规模庞大,各种综艺节目 ...

  7. python爬取微博热搜数据并保存!

    主要用到requests和bf4两个库将获得的信息保存在d://hotsearch.txt下importrequests;importbs4mylist=[]r=requests.get(ur- 很多 ...

  8. Python 超简单爬取微博热搜榜数据

    微博的热搜榜对于研究大众的流量有非常大的价值.今天的教程就来说说如何爬取微博的热搜榜. 热搜榜的链接是: https://s.weibo.com/top/summary/ 用浏览器浏览,发现在不登录的 ...

  9. Python爬取微博热搜榜,将数据存入数据库

    一直想学习用Python来进行数据的爬取,也一直想知道Python连接数据库的操作,今天刚好看到的这篇文章满足了这两个条件,我试着爬了下微博,并成功将数据添加到数据库中,颇为欢喜.作者写的很简单,有些 ...

最新文章

  1. Tomcat的配置及优化
  2. 深度学习指数的使用——np.exp(-4)和1e-4的区别
  3. python数据库管理实例_西游之路——python全栈——学员管理实例之数据库设计
  4. 机器学习算法:补一个k-近邻算法的测试
  5. 23. Spring Boot启动加载数据CommandLineRunner【从零开始学Spring Boot】
  6. ASP.NET Core 2.0使用Log4net实现记录日志功能
  7. 酷客多郝宪玮:不够小程序化的企业,将错失最近5年的流量红利
  8. c语言中1%100是什么意思,**************
  9. Python 爬虫实战2 百度贴吧帖子
  10. 吴甘沙创业照见自动驾驶十年变迁,产业爆发在下一个春天里 | 自动驾驶这十年...
  11. RTM-DSP项目总结
  12. linux服务器如何备份成镜像,Linux下rsync 数据镜像备份
  13. 数据结构课程设计题目
  14. RFC4568规范:SDP协商SRTP密钥
  15. Excel基本操作方法
  16. 理解v8的Isolate调度
  17. 计算机考研402,2021双非无项目科班402分上岸中科大-数学经验+复试全过程
  18. 在excel/wps中如何实现批量翻译
  19. 自学Python第二十六天- Tornado 框架
  20. 过账期间未清和关帐过帐期间设置

热门文章

  1. 读中文_校友分享预告 | 在港中文读物理是什么体验?理科就业转商科有何经验心得?...
  2. js 字符串替换_正则精要:玩转JS正则表达式,也许只需这一篇(建议收藏)
  3. 1997年投稿,2021年发表!收到录用信那一刻,我即将退休……
  4. 从李一男,到美女博士姚婷,任正非:要把中国的天才,留在中国
  5. 只有数学老师懂的15个泪流满面的瞬间~
  6. 厉害了,我的清华大学,各系横幅让网友看花眼,尤其是第3条
  7. 我恋爱了,对象是纸片人
  8. java文件下载至linux乱码,JAVA 文件下载乱码问题解决办法
  9. excel中VBa应用总结
  10. 【java机器学习】词向量在贝叶斯中的概念