原作者:高济禾

僵尸假扮人类、人类识别僵尸似乎会成为“魔高一尺道高一丈”的拉锯战,至少在数字化社会网络时代将长期如此

【引言】

写这篇文章的时候苹果还没发布Siri,现在理解僵尸粉或者说cyborg的进化以前更简单了,只要想想“人们为什么热衷于与Siri的互动,这种互动与真实人类的互动有何不同”。

在“僵尸粉”的围攻下,新浪微博似乎正在被僵尸占领、并逐渐失去对普通用户的吸引力,在微博平台、广告商、品牌主、普通网民复杂的利益纠缠当中,“微博大战僵尸”一触即发。这场战争中的制胜武器是算法——识别算法vs.伪装算法的能力与进化速度决定了最终的成败得失。那么,在打击“僵尸粉”的未来道路上,会不会出现一劳永逸的识别算法使僵尸永无出头之日,抑或是加速了机器算法的进化、并最终从根本上改变我们对社会网络的基本定义?

【正文】

媒体的价值来源于其所提供的信息的价值,微博作为国内社会化媒体的代表,其价值在于它能够以最便捷的形式传达给每个用户他/她个人最关心的信息(这是微博的即时性和高可定制性决定的)。这样来看,僵尸粉的危害主要是产生无用信息——虚假的粉丝数、误导性的评论和转发。需要强调的是,本文中的“僵尸粉”指所有受控制的社会网络帐号,包括受外部操控的机器人(bot)和半机器人(cyborg),这个定义也许与目前国内的主流定义略有不同,后者主要强调“僵”,而忽略了“受控”——其实活动的僵尸、即微博营销界cyborg性质的“水军”,才是微博生态圈的主要危害来源。

微博的信息价值可以用信息熵表示(介绍见这里,和这里)。如果将微博全部信息看作一个“舆论场”系统的话,高价值的信息能够降低总信息熵(信息熵是负值);而低质量的信息增加总信息熵(值得一提的是,“信息熵”在国内存在着广泛的误读与误用,例如这个误导性的言论、这篇文章记录的中国学术界曾经的乱象,特别是这个针对社会网络结点价值的疑似伪理论)。微博用户言论的信息熵能够在一定程度上反映他/她的言论质量,这个思想已经体现在辨别僵尸粉的学术文章中(Zi Chu et al,2010)。

当然,单纯使用信息熵不足以判断僵尸身份,还需要结合其他方法,如语义网络结构、社会网络结构、以特殊目的为线索(文中所附链接地址、发送信息的终端类型)等。这些方法无外乎分为三大类:(1)计算语言学范畴(从说什么入手),(2)社会网络分析范畴(从社会关系入手),以及(3)其他类。目前已经出现了辨别僵尸粉的twitter应用,爱影响团队也在开发适应国内微博环境的类似应用,所用方法基本可归为以上三类。将这些方法合理组合,以现阶段僵尸粉的伪装技术水平,基本上能实现通吃。

问题是现在用类似工具扫除僵尸粉的行动还属于个案——而一旦开始全网范围的大规模行动会发生什么?僵尸粉也就会开始加速进化——本质上,上述方法都是基于样本的统计差异识别僵尸粉,“僵尸”的伪装算法具有巨大的提升空间:在一次次的剿灭与幸存中,通过更新语义库、构建更完善的社会网络等方法,僵尸将更好地模仿“自然人”的行为模式。例如,自从这个僵尸粉统计器小小地出名了一把之后,5个粉丝、5条发言就成为了僵尸粉的新标配,因为该统计器的三条判断标准当中两条就是“粉丝数低于5”、“微博数低于5”。那么,当识别算法升级到“用户发言的语义网络与所属群组统计偏离度”、“用户的社会网络结构-传播网络互动记录与群组统计偏离度”…等等更为“高端”的标准之后,会发生什么?

这种挑战的本质属于图灵测试(Turing Test)。辨别僵尸粉就是一种在网络的社会化、也即我称之为数字化社会网络时代的“基于社会网络的图灵测试”。图灵测试用于判断机器是否能够思考,这涉及到自然语言处理、机器学习等若干种基础性人工智能课题,R M French写了一篇重要的历史回顾(Robert M. French,2000)。微博数据记录了人的过往言论,以及这些言论在社会网络中的传播路径,因此“僵尸军团”实际上是在发展一种基于一切社会网络过往行为记录的伪装算法。

考虑到未来技术将记录和保存人一生中全部经历,为语义库、机器学习等人工智能算法提供海量数据的支持,“微博大战僵尸”还提供了算法的实战训练场,“伪装算法”最终战胜“识别算法”就是最有可能的未来了。

这是微博版本的“机器的反击”?差不多。僵尸粉生存的目的就是与真实人类互动从而(在多种意义上)实现营销目标。所以僵尸粉最有力的反击就是用高质量信息创造高质量用户体验。现在,一些没什么人关注的僵尸粉会转发知名教授学术观点等高质量内容——这很好理解,这就是僵尸在“吃饭”,用富营养内容武装自己——据我猜测,现阶段基于内容的识别算法基本上和垃圾邮件算法无甚区别,所以内容本身就是解药。现在这种方式仍然很低端,没错,但是未来会怎样呢?如果对用户来说,一个僵尸粉发的信息比他的朋友转发的无聊八卦还有价值——如果他们成为用户的媒体过滤器和社交助手,不是默默无言、不是整天转发促销打折信息、也不再在评论中留下一堆无意义的编码,而是每天和你互动,讲笑话,为你推荐餐馆、娱乐场所,参与到你和朋友的讨论并明确支持其中一方的言论,甚至作为倾诉对象,你是否会关注他?成为朋友?

进化的“僵尸粉”,或者说cyborg,将会与人类长期共存。其实这并不稀奇,与很多习以为常的人机互动并无本质不同。这种图景很适合用“行动者网络理论”(Actor-network theory)描述。僵尸粉提高了社会系统的整体智慧,人类的社会网络在与之互动的过程中也会改变——就像google改变人脑的记忆方式一样,由人和机器组成的网络将在社群级别上改变人类的社会互动方式:机器人朋友围绕在我们周围,模拟出与真实的社会交流无异的社会环境,抑或,帮我们解决“人类的孤独”这类终极命题?

如何辨别僵尸粉--利用信息熵、图灵测试和数字化社会网络相关推荐

  1. 机器学习-利用信息熵来学习如果分辨好西瓜

    决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法.在机 ...

  2. 爬虫侵入计算机系统,【探讨】利用“爬虫技术”获取数据行为的刑事考量 ——以一起非法获取计算机信息系统数据案为例...

    在本案中最为主要的争议焦点是"公开的信息"是否属于非法获取计算机信息系统数据中的犯罪对象.非法获取计算机信息系统数据罪的保护法益是计算机信息系统安全和数据安全.那么信息是否等同于数 ...

  3. CAAI演讲实录丨李德毅院士:交互认知——从图灵测试的漏洞谈开去

    8月26日至27日,在中国科学技术协会.中国科学院的指导下,由中国人工智能学会发起主办.中科院自动化研究所与CSDN共同承办的2016中国人工智能大会(CCAI 2016)在北京辽宁大厦盛大召开,这也 ...

  4. 【智能制造】【APS】数字化智造下APS软件的架构与展望

    APS(Advanced Planning and Scheduling) 高级计划与排程均衡供应链与生产过程中各种资源:在不同的供应链与生产瓶颈阶段给出最优的生产计划与排程:实现快速计划排程并对需求 ...

  5. 【CCAI 2016】李德毅院士:交互认知——从图灵测试的漏洞谈开去

    8月26日至27日,在中国科学技术协会.中国科学院的指导下,由中国人工智能学会发起主办.中科院自动化研究所与CSDN共同承办的2016中国人工智能大会(CCAI 2016)在北京辽宁大厦盛大召开,这也 ...

  6. Gartner:如何利用数字孪生帮助企业创造价值?

    ❑ 导 读 白皮书预测:到2021年,半数的大型工业企业将使用数字孪生,从而使这些企业的效率提高10%.到2024年,超过25%的全新数字孪生将作为新loT原生业务应用的绑定功能被采用. 全文共计17 ...

  7. 阿里云制造行业总经理胡鑫:中台技术如何支撑企业数字化转型

    https://www.yuntask.com/news/158089.html "阿里数字化转型的关键词是一切业务数据化,整个阿里巴巴集团的业务都是基于这个理念而搭建的."阿里云 ...

  8. 土地利用结构信息熵_科研成果快报第163期:基于市政用水时序数据的城市混合土地利用感知与分析...

    基于市政用水时序数据的城市混合土地利用感知与分析 Sensing Mixed Urban Land-Use Patterns Using Municipal Water Consumption Tim ...

  9. 宜泊科技阿里云,加速智慧停车产业数字化发展

    简介:近日,宜泊信息科技有限公司与阿里云联合发布基于云原生架构的智能停车系统解决方案,为停车场的管理者和使用者提供平台化的运营服务,围绕"智慧停车场景"与"云原生技术&q ...

最新文章

  1. 难忘的一天——装操作系统(一)
  2. 《Rhino3D 4.0产品造型设计学习手册》——导读
  3. Chrome将于2016年4月终止对Windows XP的支持
  4. [转] spdk 块设备
  5. GPIO模拟I2C程序实现
  6. Django2.2安装
  7. Google帮助IE浏览器实现对SVG支持
  8. oracle 安全备份与rman_Oracle 11g下使用RMAN进行备份和恢复操作(一)
  9. jquery 统计统计子标签的个数
  10. [dp] LeetCode 62. Unique Paths
  11. 浅谈堆栈问题-C++
  12. webservice helloworld案例
  13. python实践winrm,实现远程连接Windows服务器,并执行指定命令
  14. 现在手机屏幕为什么都这么大?
  15. 3ds max制作马克杯
  16. android adb命令安装apk的步骤
  17. Tomcat日志文件catalina.out文件过大问题解决方法
  18. Gradle | Gradle构建之Groovy语言基础
  19. 流媒体-H264协议-编码-x264学习-相关概念x264编译及文件解析(一)
  20. Graphite安装

热门文章

  1. Intermec PM4I 高性能条码打印机 特价促销
  2. OLED取模软件的编码算法(自己取模时候注意)
  3. 讨论 如何带领好新的员工
  4. 如何查到营业执照_怎么查别人的营业执照
  5. 我雄鹰一样的男人也咩了,呜呜呜~~~
  6. 算法E---欧几里得算法
  7. ruby on rails hash删除key值以及value值,删除多个key
  8. 【RCJ-2 AC220V 0.015A静态冲击继电器】
  9. NB-IoT之BC95调试记录
  10. 低版本的Hadoop实现 Apriori 算法Java代码