微博账号@爱可可-爱生活是数据科学圈的网红,因每天分享大量精选的数据科学领域的学习资料而出名,深受粉丝关注和喜爱。该账号每天从早晨4-5点开始发微博,日均发布大几十条原创,有人不禁质疑,它的运营者北邮模式识别实验室的副教授陈光,每天的时间是怎么安排的,除了科研、教务、带学生、写基金等工作,是如何做到每天发布这么多内容。莫非是一个团队在维护?再或者,他其实是利用工具自动追踪arXiv、大牛博客、科技网站、twitter、G+,外加自动谷歌搜索一些关键词,然后把这些内容提取标题、图片发布到微博上?

对爱可可老师的微博内容究竟产自人工还是机器的疑问,成为了粉丝最感兴趣的话题之一,很多粉丝甚至会凌晨给爱可可微博留言,试图测试出他是否会自动回复。今天,我们用大数据分析了爱可可微博的特征,并与写作机器人进行对比,来看看爱可可老师到底是否在用机器发微博。

@爱可可-爱生活的微博特征


爱可可老师的微博账号创建于2010年底,初期的微博内容充满了人情味,分享了爱女出生的喜悦、行业资讯、学习资料,以及人生工作感悟。

热词分析显示,爱可可微博是从2014年底开始热度变高,此时该账号已是每日凌晨四五点起分享大量的学习资料。

在分享资料的间隙,爱可可老师也会发布一些个人见解,其中有一条微博内容值得玩味。

一个机器人账号,连微博昵称带内容一起转发了某位它的关注人的微博,被该博主发现了,评价它“此机器人有点二”,然后爱可可老师评论道:“有点调皮,有点任性,有自己一套标准的小机器人,不是挺好吗?”

由此可见,爱可可老师觉得微博机器人是很有趣的,同时,他也经常分享该机器人转发的内容。

从2015年1月以后,爱可可老师的微博内容基本为学术资料,且不带任何感情色彩,让人不禁猜测,这些资料是否全由机器人挖掘并转发呢?

我们采集了该账号从2017年10月30号——2017年11月30号所有微博的信息做了如下统计:

这个月以来,他一共发布了1952条微博,平均每天发布61条,时间集中在凌晨四点半至晚上十点半以前,平均每天凌晨4点44分开始发布第一条微博。由统计图看出,爱可可老师发微博最集中的时间段为每日凌晨四点半到六点半,在这两个小时之内,他平均发布25条,占每天总数的近一半。

具体统计每日4点—6点半的数据可以发现,爱可可在该时间段发微博的频次非常高,特点为连续两、三分钟内发送一条或多条带6-9张图的微博。

根据词频分析微博内容,出现最多的词语全部与数据科学相关。

根据微博来源可以看出,爱可可老师最常使用的是Mac客户端和微博网页版。在前几年充满人情味的微博里,尚且有Android客户端的来源显示,而现在的内容全部发自于电脑。

我们还对爱可可老师的粉丝进行了分析,发现最活跃的用户画像为北京IT男青年,而且还是严谨细致内敛腹黑的摩羯座。粉丝对爱可可老师的留言,多半是保存资料和表达感谢,然而爱可可老师很少与他们互动。

那么,爱可可老师的微博内容究竟是否由机器人产出呢?下面我们将盘点出机器人写作的特点,并与之进行比较。

机器写作效率VS爱可可老师写作效率

从工作方式和步骤来看,机器写作与人工写作相像,都是三步走的工作模式:围绕报道主题采集信息——分析信息,联系背景解读意义——按照新闻格式和语法规则写出文章。不同的是,写稿机器人是一套执行命令的程序,能够快速抓取、处理海量的文献资料数据;而人类作为生物,先天具有生理和行动局限,在处理数据方面与机器人相形见绌,比速度自然落后。九寨沟发生7级地震后,地震信息播报机器人在21个小时的时间内,连续自动推送了15条地震速报,字数均在110-634字之间,最快的一条耗时5秒成稿为126字。

对比爱可可老师,该账号在7年内发布近45000条微博,日均18条左右,只是现阶段活跃度远高于其早期阶段,近一个月日均在60条左右。此前,微博大V“@任志强”在5年多时间内发出9万余条微博,日均50条左右,属于典型的活跃性微博用户,所以日均五六十条微博的频次也不足以对@爱可可-爱生活的运营者做出准确判断。然而,爱可可老师发送微博的特点为特别时间段非常密集,一到三分钟发一条、甚至几条微博是常有之事。这样的高效率背后,是难以做到从浏览文章到分享文章的流程的。

此外,机器运作的微博可以实现实时推送的功能,而爱可可老师虽然推送频率高,但并不是实时进行分享,而是集中性分享,所以,爱可可老师应该是通过集中性的浏览文章,或者是利用机器学习自动抓取信息结合自己空闲时间手动进行高频率的集中性推送。

机器写作内容VS爱可可微博内容

机器人写作本质上是一种程序化运作,这套程序在规则作用下进行逻辑推理,处理数据量丰富、时效性强的工作,因此,写稿机器人从基因上决定了其自动化生产偏向以数据为基础的内容。具体就是擅长财经、体育、自然灾害等模式化领域。如今年年初,南方都市报社上线的写稿机器人“小南”,基于机器学习算法,融合领域知识,能够对数据进行深度分析,发掘重要的消息和事件,并用自然语言进行表达。

而爱可可老师微博高频更新的内容绝大多数属数据科学领域,又倾向于机器学习这一分支。制定以“机器学习”“算法”等为关键词的规则,连接并抓取学科资源库数据,是方便高效可操作性强的选择,猜想@爱可可-爱生活由机器运营也并不奇怪。不过,目前出现微博上的机器人账号,程序大都比较简陋,在人类看来有些“愚笨”,如果爱可可老师用机器发微博,想必此套程序更加智能巧妙。

机器写作风格VS爱可可微博风格

引入机器写作的目的就是解放人力、服务社会,归根结底,机器写作服务人就要模仿人。例如,在编辑团队的指引下,“小南”就会学习人类的写作方式,以人类特有的生活化语言表述某一事实的现实影响,如“小南”在判断出列车剩余票数不足后,小南会使用“票数紧张”提醒读者。随着用户社交数据的接入,机器将不断发掘洞察用户习惯,越来越有人情味,以精准化的服务提升用户体验,人工和机器作业的界限将越来越模糊。另外,据英国《每日邮报》3月10日报道,南加利福尼亚大学进行的一项最新研究发现,推特中的机器人数量达4800万,占15%,它们能发出“点赞”、“转发”、“关注”等社交行为。

反观爱可可老师的微博,涉及个人观点和情感的内容几乎为零,而微博评论以网友内部交流为主,博主参与较少,且回复语句较短,互动活跃度不高,有可能是机器运营的结果。

通过以上分析,@爱可可-爱生活发布的微博内容很可能有机器学习算法的参与,参与环节在信息收集、筛选方面的可能性较大。



如果你是爱可可老师的迷弟/迷妹,在评论区聊一聊你的推测吧~


划重点!如果有机会面基爱可可老师,你最想请教什么问题呢?(数据派也许会满足你的求知欲哦!)

独家 | 数据分析@爱可可-爱生活是否在用机器学习算法运营微博相关推荐

  1. 独家 | 数据分析@爱可可-爱生活是否利用机器学习算法运营微博

    微博账号@爱可可-爱生活是数据科学圈的网红,因每天分享大量精选的数据科学领域的学习资料而出名,深受粉丝关注和喜爱.该账号每天从早晨4-5点开始发微博,日均发布大几十条原创,有人不禁质疑,它的运营者北邮 ...

  2. 专访@爱可可-爱生活:如何做好科学研究(干货满满)

    来源:NewBeeNLP作者:Maple小七 北京邮电大学·模式识别与智能系统本文约9100字,建议阅读10+分钟陈光老师教你如何做好科学研究. 「采访目的」 如何做好科学研究 「采访时间」 2021 ...

  3. 揭秘@爱可可:“寂寞呆子”成长记

     从一个人的狂欢到一群人的狂欢,到除了我以外其他人的狂欢,我其实是越来越冷静了.--陈光 陈光算得上是地道的北邮人.从本科到博士,一直到留校任教,刚满 40 的陈光超过一半的时间都是在北邮度过的. ...

  4. 专访《Javascript设计模式与开发实践》作者曾探:爱编程 爱生活

     专访<Javascript设计模式与开发实践>作者曾探:爱编程 爱生活 发表于12小时前| 2742次阅读| 来源CSDN| 8 条评论| 作者夏梦竹 专访曾探图书作者Javascr ...

  5. 吐血整理!10 个机器学习教程汇总,爱可可推荐!

    点击上方"AI有道",选择"星标"公众号 重磅干货,第一时间送达 今天给大家推荐 10 个机器学习课程清单,含课程视频.这份教程是由一名来自硅谷的计算机科学家 ...

  6. 重磅 | 深度学习“四大名著”发布!爱可可推荐!

    红色石头的个人网站:redstonewill.com 前几天,红色石头在逛微博的时候,发现有人转发了@爱可可老师的这样一篇微博: 红色石头很有共鸣,这四本书着实很不错!我们都知道现在机器学习.深度学习 ...

  7. 五个简单的习惯让我更爱我的生活

    你的习惯与你的生活质量直接相关.良好的习惯会带来生活中的快乐和满足,而不那么好的习惯会让你渴望生活与众不同. 我想我一直都知道,我只是希望我早日把它铭记于心.迟到总比不到好,对吧? 五个简单的习惯让我 ...

  8. 爱python的胖虾_爱了爱了!0.052 秒打开 100GB 数据,这个Python开源库火爆了!

    原标题:爱了爱了!0.052 秒打开 100GB 数据,这个Python开源库火爆了! 编译 | AI科技大本营(ID:rgznai100) 许多组织都在尝试收集和利用尽可能多的数据,以改善其经营方式 ...

  9. 幸福就是把爱留给爱你的人

    那一年,她二十二岁,他二十三岁,他对她说,如果十年后你我都没有彼此的另一半的话,我第一个会考虑要不要追你. 她听了,哭了,哭的那么开心! 一年前. 他们是大学同学,男孩失恋了,交往了两年的女朋友离他而 ...

最新文章

  1. 网站服务器怎么组件,网站服务器搭建与配置详解!
  2. 基于BASYS2的VHDL程序——交通灯(状态机版)
  3. 【深度学习】Keras vs PyTorch vs Caffe:CNN实现对比
  4. Git的简单使用以及在Django中有关日志文件的忽略
  5. BZOJ1996:[HNOI2010]CHORUS 合唱队(区间DP)
  6. SpringBoot_数据访问-整合MyBatis(一)-基础环境搭建
  7. 为什么Linux与众不同?
  8. 深度学习神经网络的预测间隔
  9. 通信网络基础知识复习
  10. 饭店计算机软件系统FIDlLIL,【万迅千里马餐饮管理系统_饭店餐厅管理软件】免费试用_餐饮软件_选软件网...
  11. SegNet论文笔记及其创新点代码解析
  12. 正逆运动学解(三维)
  13. Epicor ERP 学习笔记
  14. 百度指数-批量查询器
  15. 计算机教程求和,excel筛选求和的方法步骤图
  16. 西湖大学教授怎么看AI制药革命?|量子位智库圆桌实录
  17. c语言解三色旗问题加注释,三色旗问题(Three
  18. 外研社计算机英语试题,外研社七年级下册英语期末试卷
  19. windows 下在 码市(coding.net) 上配置远程 git
  20. 编写一个应用程序:输入长方形的长度、宽度,计算长方形的周长、面积并输出:

热门文章

  1. iOS 网络状态判断方案(支持iOS11和iPhoneX)
  2. JS --正则表达式
  3. Atitit. Async await 优缺点 异步编程的原理and实现 java c# php
  4. 读去excel文件内容写入数据库
  5. Windows Socket 编程_ 简单的服务器/客户端程序 .
  6. [转]ArcGIS.Server.9.3和ArcGIS API for Flex实现Query查询定位中心功能(七)
  7. 网络-开发-CIO全面覆盖——51CTO.com今日变脸
  8. 动态改变_【清涧一小动态】改变从学习做起,教育从家庭出发——延安市家庭教育协会助力清涧县第一小学全方位提升育人水平...
  9. 转 sklearn: TfidfVectorizer 中文处理及一些使用参数
  10. Adaboost原理与推导