编译:曹培信、周家乐

来源:大数据文摘(ID:BigDataDigest)

随着毕业季的邻近,翟天临又一次被网友们骂上了微博热搜。

翟的论文抄袭事件过后,许多高校都加强了论文评审标准,更有严格的院校连非毕业生的论文结课都要查重。

许多深夜改论文的学生于是结伴来到微博@翟天临:你睡了吗?你怎么睡得着?我还在改论文!你配睡觉吗!

图片来自微博

翟天临自己可能也没有想到,竟然阴差阳错对中国高校教育做出了卓越的贡献。

然而,也有学渣表示,以后查重这么严,抄袭是不可能了,只能找人代写了。

早有媒体曝光过学术圈“论文代写”的产业链。据第一财经报道,相关淘宝搜索的本科文科论文每千字200元左右。

不过,这条“学术歪路”也要被AI堵死了。近日,哥本哈根大学的研究人员的最新研究称,刚刚开发出一款“反枪手代写”的AI系统。

这款系统意图通过智能写作分析技术,来检测论文作弊。可以根据你的写作习惯,确定论文究竟是你自己写的作业还是由他人代写。

根据对13万份书面作业的分析,科学家们可以以近90%的准确率检测出学生究竟是自己写的作业,还是由代笔撰写。

基本上可以达到“代写”作业一抓一个准的结果了。

高中代写成风,哥本哈根大学的神操作


这套针对学生论文作弊行为的研究,已经在哥本哈根大学计算机科学系(DIKU)进行了几年了,最初,这款研究是针对丹麦的高中生进行的。

在丹麦,高中目前主要使用的作业查重平台叫做Lectio,可以用来检查学生的作业中是否有段落是直接复制先前提交的作业的。

然而,随着各类线上服务平台的盛行,在丹麦高中生中,找人代写作业变得越发容易。

面对这种情况,学校一直缺乏有效的检测手段。

学习轨迹项目或“SRP”(丹麦语的“Studie Retnings Projekt”)是丹麦高中毕业生的必修跨学科课程,也是一项非常重要的书面作业。在这个项目中的作弊现象尤其引人注目。

由于SRP对于毕业十分重要,很多学生们在丹麦竞拍网站Den Bla Avis上发布他们的写作任务来找人代写。

和中国的老师和大多数查重系统一样,Lectio只能查重,没法判断一份作业是否是找人代写的。

哥本哈根大学的一些院系一直和很多高中有着SRP项目的合作,深受代写作弊行为之害,一直在探究解决之道。

这所大学的计算机科学系DABAI项目组决定教教这些偷懒的高中生们“做人”。

DABAI(丹麦大数据分析驱动创新中心)是一个成立于2016年的丹麦国家研究中心。除了研究机器学习的高效算法,这个研究小组本来就对学生教育特别关注。之前,他们曾研究了“优化学生的个性化学习”、“提高教师洞察力”等教育项目。


名叫“枪手”的反枪手神器


这个防作弊程序被叫做Ghostwriter(枪手),它本质上属于一种基于机器学习和神经网络技术的一款文本分析程序。

项目组成员Stephan Lorenzen博士称,这款程序可以比较该学生最近提交和以前提交的文章来识别写作风格的差异。

“程序会关注单词长度、句子结构以及单词的使用方式等诸多特征。例如,它会察觉‘for example’被写成了‘ex’,还是‘e.g.,’。”

其数据集来自为丹麦高中提供Lectio平台的MaCom公司,该公司覆盖了丹麦90%以上的高中,他们为GhostWriter项目的研究人员提供了13万份不同高中学生书面作业。

这个研究组认为,这款产品非常具有实际效用,很多学校对于找出“论文究竟是谁写的”这个问题有着越来越高的技术需求。

但Stephan Lorenzen博士也认为,“在此之前,还需要认真讨论一下应用这项技术所面临的伦理问题。我们不能把这个程序得到的结论作为判别是否作弊的唯一标准,更应该把它看作一份辅助性的证据。”

Ghostwriter是怎么工作的?

Ghostwriter程序使用Siamese 神经网络来区分不同文本的写作风格:通过大量数据的训练,学习不同写作风格的外在表现(representation),然后进行比对。

这个项目分两步来解决作者身份验证问题。首先是解决了计算两个文本之间写作风格相似性的问题,主要通过使用Siamese网络学习相似度函数s:T×T→[0,1]。其次是再解决作者A的验证问题,通过比对未知作者文本X和已知是作者A的文本T之间的相似性。

在网络方面,他们考虑使用不同的输入通道考虑几种不同的体系结构(例如,char,word,POS-tags),最终确定了一种表现最佳的网络架构:

Best performing network

编码部分包括一个字符嵌入(Embd),然后是两个不用的卷积层,每个卷积层后面都有一个全局最大池化层(GMP)。

在比较部分,他们首先计算合并层中的编码之间的绝对差值,然后,应用4个密集层,每层有500个神经元,最后使用具有两个输出的softmax层来进行归一化。

他们将数据集分为三份,T-train用于训练,T-val用于训练提前停止和selecting Cs,T-test仅用于估测试模型。

经过训练,模型的准确率达到了87.5%。

最后实现的功能就是,当学生提交作业时,该网络会将其与以前的作业进行比较。对于每个作业,神经网络都会计算出一个百分数,用于表示新旧作业的相似性。然后,通过综合考虑新旧作业相似性、交作业时间等多种因素计算出一个加权平均值。这个最终值就可以用来表示新作业和学生写作风格之间的相似性。

这一研究已经被发表在一篇名为《识别高中代写“枪手”》的论文中。

论文链接:

https://www.science.ku.dk/presse/nyhedsarkiv/2019/fristet-til-at-snyde-med-eksamensopgaven-kunstig-intelligens-opdager-dig-med-90-procent-sikkerhed/Detecting_Ghostwriters_in_High_Schools.pdf

除了论文,还能与警方合作筛查伪造文本


除了代写作业,Ghostwriter的技术也可以应用于社会的其他地方。

例如,该程序可辅助警方的文档审查员执行各类文件的真伪分析任务,比如一份商业合同是否是伪造的;或者一个离奇的自杀案中,死者留下了一封遗书,这封遗书是不是死者本人写的等等。

“与警方合作将是一件有趣的事情。警方现有的方法是聘用文件审查员来定性的比较文本之间的相似性和差异。而我们的方法则适用于大数据并自动找到其中潜藏的模式。我认为结合两者将有利于警察开展工作。”Lorenzen说,他强调这里也同样需要讨论其面临的伦理问题。

这项利用人工智能来检测作业中作弊行为的技术,具有广泛的应用前景。

目前,它还被用来分析Twitter文本,以确定文本内容是由真实用户撰写的,还是由水军或机器人编写的。也就是说,淘宝店铺雇佣水军好评,很有可能也能被识别出来。

相关报道:

https://www.sciencedaily.com/releases/2019/05/190529145048.htm

往期精选

- 加入社群吧 -

“翟天临”克星?新开发的反“枪手”AI,识别作业代写准确率接近90%相关推荐

  1. “翟天临”克星?哥本哈根大学开发反“枪手”AI,识别作业代写准确率接近90%...

    大数据文摘出品 编译:曹培信.周家乐 随着毕业季的邻近,翟天临又一次被网友们骂上了微博热搜. 翟的论文抄袭事件过后,许多高校都加强了论文评审标准,更有严格的院校连非毕业生的论文结课都要查重. 许多深夜 ...

  2. 没有灵魂的AI,沦为代写的工具!谁来为AI植入心灵?

    你们应该培养对自己,对自己的力量的信心,百这种信心是靠克服障碍,培养意志和锻炼意志而获得的.--高尔基  中国软件网每日精选文集 想必大家最近都听说了一款抄作业"神器" 这&quo ...

  3. 「蚂蚁呀嘿」克星来了!中科院23岁博士生开发「听音识人」,准确率近90%

    转自:新智元 看脸和声音是否匹配,这种黑科技如今走向了现实.中科院计算所23岁的博士生温佩松主导开发出一种「听音识人」的 AI 技术,只需1秒就能将声音和正确人脸进行匹配,准确率接近 90%. 「AI ...

  4. MIT新开发的 AI 模型有望改进恶性脑瘤治疗

    来源:人工智能和大数据 美国研究人员新近开发出一种人工智能模型,能够为胶质母细胞瘤患者设计出最小剂量给药方案,在缩小肿瘤的同时减少药物带来的毒副作用,改进患者生活质量. 胶质母细胞瘤是一种常见的恶性脑 ...

  5. 新技术,新挑战,新能力:金融+AI 的产品实践

    11月中旬,由人人都是产品经理与腾讯大讲堂联合主办的2017中国产品经理大会在北京北苑大酒店完美落幕.京东金融风险管理部产品总监孟繁星老师从提问引入:你的业务中哪些环节可以利用人工智能?为大家分享&l ...

  6. AlphaFold2立功!清华团队用深度学习增强新冠抗体,创AI里程碑

    AlphaFold 2的问世可谓是生物学界海啸级地震,让蛋白质结构预测走上另一个新阶段.同时,AlphaFold的开创性方法也对其他研究产生深远的影响.这不,清华和MIT研究团队在最新研究中就用上了它 ...

  7. bucket sort sample sort 并行_IBM布局AI硬件大杀器:硬软件并行开发、开源模拟AI工具包...

    原标题:IBM布局AI硬件大杀器:硬软件并行开发.开源模拟AI工具包 智东西(公众号:zhidxcom) 编 | 子佩 智东西11月4日消息,为了解决AI对数据.能源和内存资源的巨大需求,IBM一直致 ...

  8. 如何评价百度新目标:Everyone can AI ?| 在现场

    李根 安妮 发自 凹非寺  量子位 报道 | 公众号 QbitAI 百度AI开发者大会,昨天一定也刷了你的时间线. AI芯片昆仑.量产L4级无人车并出口日本.推出外呼客服AI,整齐划一进入3.0版本的 ...

  9. 新网银行金融科技挑战赛 AI算法赛道 亚军方案

    比赛链接:https://www.kesci.com/home/competition/5ee1f35f73aef4002c76ef3b 代码获取方式:关注公众号 ChallengeHub 回复&qu ...

最新文章

  1. 模板设计模式_设计模式-模板方法模式
  2. MSSQL优化之 1.1 存储架构之文件和文件组
  3. python time,datetime当前时间,昨天时间,时间戳和字符串的转化
  4. Linux下设置环境变量
  5. Android 系统(59)---Android开发:Handler异步通信机制全面解析(包含Looper、Message Queue)
  6. c语言 prototype_(创建型模式)Prototype——原型模式
  7. php 中文key_API常用签名验证方法(PHP实现)
  8. IDEA中Maven项目中界面右边的Maven Projects窗口找不到不出来
  9. 消防给水及消火栓系统技术规范_对于高位消防水箱《消防给水及消火栓系统技术规范》是如何规定...
  10. HDFS 命令深入浅出
  11. Seek and Destroy
  12. asp车辆租赁-汽车租赁管理系统
  13. 步进电机结构C语言程序,51单片机驱动步进电机(含电路图和C语言源程序代码)
  14. SVG (SVG的概念 、SVG 实例 、SVG 在HTML中 、SVG 矩形 、SVG 圆形 、SVG 椭圆 、SVG 直线 、SVG 多边形、svg验证码 )
  15. Shell修改命令提示符
  16. 申宝证券-市场呈现出震荡分化走势
  17. 比 Xshell 还好用的 SSH 客户端神器!
  18. ubuntu/linux系统管理(12)Ubuntu 22.04 安装文件比对工具Meld替代Beyond Compare
  19. sql语句(基础篇)
  20. BZOJ4810 [Ynoi2017]由乃的玉米田

热门文章

  1. 想要产品更容易被记住,起个好名字很重要
  2. freeswitch1.10.7公网安装配置
  3. 高斯分布/概率分布总结
  4. 联想拯救者Y7000 用的好好打突然键盘失灵了
  5. (自创) 一种新的轻量级文本标记语言 - MarkOwl
  6. 对携住Upad 7寸设备的破解分析之二
  7. 一个java web 快速开发脚手架思路
  8. python 中文转拼音原理_Python_ jieba、snownlp中文分词、Pinyin中文转拼音
  9. ImageIO 裁剪头像
  10. G-S迭代求解线性方程,以及三对角矩阵求解