2019独角兽企业重金招聘Python工程师标准>>>

2013 年 7 月初,某位美国教授接到了一通来自大西洋对岸的电话,话筒另一端的陌生人请他破解一道谜题。一周内,他成为了镁光灯的焦点,所有的国际报导都是他的消息。这很像丹.布朗笔下的情节,写成小说搞不好还能卖出几百万册。但这是真人真事,主角并非《达文西密码》的罗伯.兰登,而是派崔克.卓拉;卓拉的研究领域不是象征符号学而是「文本计量分析」,而这次他要研究的对象也不是天主教教会,而是 J. K. 罗琳。卓拉是资工系教授,专长是用计算机分析文本来推断作者身分,《星期日泰晤士报》的记者请他调查一本新小说,书名叫《杜鹃的呼唤》,作者是罗勃.盖布瑞斯。这位作家是个文坛菜鸟,他在英国皇家宪兵队服役多年后开始创作推理小说。然而,记者手上握有情报,据说根本没有盖布瑞斯这个人,这本书真正的作者其实就是大名鼎鼎、写下《哈利波特》的 J. K. 罗琳。这是真的吗?卓拉接下了这个案子,不到三十分钟,计算机就给出了充分的证据来支持这项情报。但卓拉能证明这本书是罗琳写的吗?不能,不过他愿意赌一把,于是他将分析结果对外公布。当年的 7 月 13 日,尽管不甘愿,罗琳终于承认那是她的作品。

每个人独一无二的创作指纹

罗琳说,她用「罗勃.盖布瑞斯」的笔名创作,是因为她必须要假装成文坛新人,才能得到最真实的评价,否则大家在阅读之前早有成见。如果你像她一样曾经卖出过五亿本《哈利波特》,就知道在聚光灯或放大镜底下创作有多困难。所以,她能不能请大家拿掉滤镜、忽略她的名声,认真客观地评价她的小说?或许不能──除非她冒充成其他人。但罗琳发现,在自己的作品出版以后,要创造一个新身分就没那么简单了。所以她特别挑选了不同的类型、不同的读者、不同的题材和不同的情节,为的就是要让自己「心里的那个家伙」能够顺利创作;而且如盖布瑞斯所说,她要「像个男人」。她这次是为成人读者而写,不再是青少年小说。尽管她刻意使用了不同的语汇,但罗琳发现,一个人实在很难改变或隐藏她的创作指纹。多年来累积的「作者分析」与「文本计量分析」都指出,我们每个人都有独一无二的创作指纹或文字风格。就算罗琳想要放弃自己的风格、刻意使用「罗勃.盖布瑞斯」的笔触写作,文字里还是有一些丢不掉的习惯和模式。卓拉的计算机才花几分钟就侦测了到这些模式,而这都是我们平常容易忽略的小细节,像是介系词、代名词和标点符号的使用,这些便造就了一个作家的写作风格。若要分析数千本小说的风格,这工程就比研究第一句话来得复杂多了。实际上,我们的风格分析要先从收集数千种写作特征开始,这些写作特征都是很普遍的字,像是「of」、「the」、「and」、「a」、「but」等。此外,我们也收集了语法、句长、标点、人称等信息,以及作者最常使用的动词、名词、形容词和副词。

为了找出这些写作特征,我们计算了每一本书各种字词的使用频率。以《达文西密码》为例,丹.布朗大概每一百字里会用到七次定冠词「the」;但葛里逊在《黑色豪门企业》里每一百字内使用到「the」的次数不到六次。如果你拿这两位作者的书让我们盲测,我们从定冠词的密集度就可以很有把握地辨别作者身分。在戈马克.麦卡锡的《长路》里,「and」是使用频率第二高的字(最高的是定冠词「the」);第三高则是「he」,每一百字内会出现四次。代名词「she」在《长路》中虽鲜少出现,每两千字才出现一次,但「she」是《杜鹃的呼唤》里使用频率第七高的字,每一百字内出现 1.5 次。在安东尼.杜尔的二战小说里,男、女主角戏份一样重要,而「his」和「her」在书中的使用频率也一样高(约一百字内出现一次);但是在诺拉.罗伯特的《最后一任男友》里,「her」的使用频率是「his」的两倍。罗伯特不常用到第二人称「you」,但尼可拉斯.史帕克的《手札情缘》和亚当.强森的《没有名字的人》都经常提到「you」(史帕克每一百字以内使用了 1.3 次,强森则是 1.4 次)。这些细节看似琐碎,但就像人的指纹,微小却很重要。

我们的模型检视着每一块打造风格的砖头──不只是为小说奠基的砖块,还包括了凝聚砖块的水泥──然后让我们看到这些字如何出现或消失在所有小说里。当我们一块一块检视这些砖头时,可以用最微观的角度去理解作者的风格──他用了多少逗号、多少冒号、多少删节号,还有各种名词、介系词、代名词与连接词的使用频率。我们可以从分析结果看出最常见的基本动词如「did」和「want」、最常见的基本名词如「man」和「woman」,以及各种常见的形容词和副词的出现频率。在这个层次,我们讨论的风格差异并不是指句子要写成「彼得要求用那种常见的园艺工具,可以去芜存菁的那种设备」,还是「彼得说圆锹就是好用的铲子」;我们要说的是,透过文本计量分析,我们可以很快地知道第一句话有几个定冠词、几个介系词、几个量词,而这些字词的使用频率和第二句话有什么差别。第一句话里面的冠词、代名词和介系词就是风格的表现,因为越是迂回的句子越需要更多结构上的支撑。而作者的文字风格便可以经由计算写作特征的频率被推断出来,所以当罗琳下笔的时候,不管她用的名字是「J. K. 罗琳」或「罗勃.盖布瑞斯」,都还是会透露出她特有的风格记号。我们把数千本小说输入到畅销书量表,并设定程序注意风格的基本元素,计算机就会发现畅销书作者一贯的风格,以及重复出现的模式。事实上,我们只要输入 491 个最常出现的单字和标点符号,计算机就有 70% 的机率可以正确判断一本书是畅销书还是冷门书;纵使只输入 148 种写作特征,计算机的准确率还是可以高达 68%。而这只是用最常见的文法类单字和标点符号来预测分析,还没有加入名词、形容词、动词、语法和句型等数据。

当我们研究计算机模型的分析结果,并仔细观察计算机模型辨识出的畅销作家写作特征,我们开始发现几个令人着迷的现象。首先来看一些比较概略的发现:助动词「do」在畅销书里出现的机会是冷门书的两倍,而畅销书里出现「very」的频率只有冷门书的一半。威廉.史壮克和 E. B. 怀特曾在写作入门课本《英文写作风格的要素》里批评「很」这个字是「寄生在文藻池塘里的水蛭」,相信他们也会认同这个分析结果。至于否定缩写「n’t」在畅销书里出现的频率则是冷门书的四倍。各类型的缩写在畅销书里都很常出现,尽管高中老师看了可能会摇头,觉得这种写法不够正式,但缩写很适合大众文学,因为叙事语调会因此变得比较亲切、真诚、现代,可以赢得读者的信赖。说书人不管是用第三人称或第一人称,都必须要让读者有真实感,才会愿意继续读下去。畅销书里情态助动词的缩写「-’d」出现频率是冷门书的十二倍,人称动词的缩写「-’re」或「-’m」则是冷门书的五倍。我们几乎可以听到诗人威廉.华兹华斯在坟里大喊着:「没错,就是这样!语言就是要贴近老百姓!」当代畅销书显然很服从华兹华斯的指示。其他比较不正式的书写方式也很受到读者喜爱,像「okay」在畅销书里的比例高三倍;经典文学作品中通常不会有「ugh」这个字,但在畅销书里却很常见。此外,畅销书里的人物也比较爱问问题,我们发现上榜的小说里面问号比较多,但是惊叹号就不见得了,惊叹号是畅销书的反指标。畅销作家都晓得「没灯了!楼梯要垮了!搞不好有鬼!」只会惹恼读者;两个惊叹号的「我爱你!!」还不如「我爱你。」原文来源至:http://partner.henkel.com.cn/local/index.php

删节号在正式文书里通常代表删除或省略的文字,但在畅销小说里却不这么用,而是用来描述断断续续的想法或对话,读者通常会自行脑补。「他又穿了那件燕尾服,胡渣还没刮。老天爷……」大部分的读者不需要其他的标点符号或单字就知道「老天爷」在这里不是祷告词。我们阅读的乐趣之一,就是在碰到删节号时会觉得自己和说书人更加贴近,而畅销小说常用删节号就是因为删节号可以创造出人物与读者的默契──这招读者很买单。我们得承认,对我们这种嗜字如命的人来说,数据分析实在太迷人。你可以想象我们全盯着一张大电子表格,手上捧着咖啡,没想到「thing」这个词在畅销书里出现的频率是冷门书的六倍。其他文字爱好者一定也会坐在那里苦思良久,和我们一样纳闷像是「thing」这样琐碎的小字怎么能当做畅销书的指标。但这份文字研究不光是满足我们文字宅的痴念,而是真的要解开畅销书密码,这些数据可以告诉我们哪些书能大卖。想象一个女人缘极差的男人在酒吧里,对身旁的朋友说他的新战术是同时和五个女生约会。他朋友把啤酒给呛了出来,然后开口。朋友的响应可能有两种:

「如果你约完会还能活下来我会很惊讶!」

或者:

「哦,如果你约会完还能活下来,那我会很惊讶。」

哪一种听起来比较自然、比较生动?很显然地,第二种。请注意一下这些细微调整后语调和语域的明显变化。第二句话用句点和「哦」取代第一句话的惊叹号,呆板的语气就立刻生动了起来。我们注意到惊叹号在畅销书里出现得少,而这个例子便让我们看出来句尾少了惊叹号之后,语调可以更微妙。赢得市场佳绩的作品里面,句号比较常见,分号和冒号则相对少见。这些细微的写作特征或许没办法一一拿出来说明,但整体来看,写作特征形成了一个显著的模式,建构出畅销小说的语调和语域。当作者选择用「I’d」来取代「I would」,或用「you’re」取代「you are」,这个决定远比我们想象的还要重要。在畅销小说里,形容词和副词比较少见,尤其是形容词,这表示畅销书里的句子比较简洁,没有无谓的赘字。句子不需要靠额外的子句来装饰,名词也不必一再修饰。动词在畅销书里出现的次数比较多,但动词旁边也不需要拖着可爱的副词。畅销书里的句子不是俗气的圣诞树,带着刺眼的颜色,挂着灯泡、彩带、天使和星星的重量;最好是一棵让人一看就很放松疗愈的冷杉。

转载于:https://my.oschina.net/u/4024424/blog/2987551

短短30分钟!计算机轻松判断J. K. 罗琳隐姓埋名写新作相关推荐

  1. k8s aws 部署_如何在短短30分钟内使用CircleCI设置到AWS S3的持续部署

    k8s aws 部署 by Adam Watt 通过亚当·瓦特 如何在短短30分钟内使用CircleCI设置到AWS S3的持续部署 (How to setup Continuous Deployme ...

  2. 苹果手机静音还有快门声怎么解决?短短1分钟,轻松解决

    相信有不少的小伙伴正在使用的手机是苹果手机.在使用苹果手机拍照的时候,很多小伙伴会很苦恼苹果手机拍照时会发出很大的快门声,尤其是手机静音后在图书馆等安静的场所.苹果手机静音还有快门声怎么解决?不用担心 ...

  3. 抖音评论怎么发图片?短短1分钟,轻松学会

    如今的抖音已经成为了很多小伙伴娱乐消遣的手机应用之一,很多小伙伴每天都会刷抖音,有的还会在评论区进行留言.小伙伴留言的时候发现,很多人可以在抖音的评论中发图片,这到底是怎么做到的呢?如果你也想知道如何 ...

  4. 【视频】谷歌大佬30分钟让你入门机器学习(2019谷歌I/O资源分享)

    如果你是个谷粉,就一定会知道: 谷歌向来都很大胆.当所有的科技公司都在讲产品.讲利润的时候,2019年的谷歌开发者大会的主题却是:人文关怀.要知道,这是政府操心的事,而不是一家公司的任务. 谷歌敢这样 ...

  5. php k线15分钟 30分钟,15分钟30分钟K线战法

    A.一种利用均线,你在15分钟K线图上设置一根21天均线及一根5天均线,当你看到5天上穿21天均线时那就是买入信号:卖出方法有两种:一般情况下,看到5天均下穿21天均线就要坚决离场:特殊情况下,如该股 ...

  6. 5分钟k线数据 存储_成功率极高的“分时K线战法”:15分钟K线战法+30分钟K线战法...

    实战看盘最常用的就是日.周.月等K线图.这些图形对于我们分析个股走势的确帮助很大,然而遇到调整时,就显示了其宏观有余.微观不足的缺点.但假如我们用分时K线图进行微观的观察与分析,就可以找到一些个股在调 ...

  7. php k线15分钟 30分钟,成功率极高的“分时K线战法”:15分钟K线战法+30分钟K线战法...

    原标题:成功率极高的"分时K线战法":15分钟K线战法+30分钟K线战法 实战看盘最常用的就是日.周.月等K线图.这些图形对于我们分析个股走势的确帮助很大,然而遇到调整时,就显示了 ...

  8. 同花顺如何切换k线_30分钟线可分析出庄家的意图:教你如何用30分钟K线选股做超短线...

    30分钟做超短线的好处 1.兼具超短线和短线的优点,是联系超短周期和短周期的有利武器. 2.30分钟线把一天分成8个部分,正好是一个神奇数字,自然界中很多神奇的规律不可不信! 3.对于庄家控盘的股票, ...

  9. 困扰数学家90年的猜想,被计算机搜索30分钟解决了

    晓查 发自 凹非寺 量子位 报道 | 公众号 QbitAI 数学家会代码,就连困扰人类90年的数学猜想也挡不住. 来自斯坦福.CMU等高校的4名数学家,直接将一个数学难题转化成了对10亿个结果进行&q ...

最新文章

  1. 一篇与众不同的 String、StringBuilder 和 StringBuffer 详解
  2. 逻辑模型设计步骤-分析主题域
  3. 用户空间和内核空间通讯之【proc文件系统】
  4. 5、leetcode剑指offer53 二分查找之0~n-1缺失的数字**
  5. linux 网络编程学习
  6. 字符串-文本对齐方法演练
  7. 十问十答 Ms-PL 许可证
  8. 使用tcpdump,adb进行手机抓包
  9. 大数据每周分享第 008 期
  10. Maven项目POM文件错误,提示“Plugin execution not covered by lifecycle configuration”的解决方案...
  11. Jquery常用操作select篇
  12. 机器学习常见概率模型
  13. 分享 25 个有用的 JS 单行代码
  14. Excel 技巧篇 - 选择性粘贴表格数据,excel只粘贴数值不粘贴公式
  15. NVIDIA GPU Compute Capability
  16. 美赛数模论文之优缺点写作
  17. Linux重置root 密码
  18. CTS、CTS Verify、GTS测试以及GMS认证
  19. app渗透之Burp抓取app数据包
  20. 我的世界java蜜蜂_在最新的《我的世界》Java版更新中 蜜蜂是所有的热点

热门文章

  1. CentOS中怎样查看系统版本和内核版本
  2. Webstorm中提示Cannot find module 'webpack.dev.conf.js'
  3. java中==和equals引发的思考
  4. 从冲咖啡看统计过程控制
  5. Linux环境搭建 手把手教你配置Linux虚拟机
  6. 1 Zookeeper安装
  7. 如何做项目工作量估算
  8. php表单复选传值,jQuery+SpringMVC中的复选框选择与传值实例_jquery
  9. java string()函数_转载java String.split()函数的用法详解
  10. 最新发布丨金融新基建系列报告:银行业六大中期趋势展望