以下转自:http://www.zaojiance.com/news/news-detail-2014-04-23-16-22-05.html

摘 要:论文抄袭的检测是知识产权保护中一项重要的内容,已有众多的识别方法和系统。本文从抄袭检测的技术概述定义、数字指纹和词频统计两大类技术和方法和抄袭剽窃识别系统等方面为基本思路,对该领域中已提出的主要研究方案进行了分类阐述和比较分析,总结了其最新研究进展,为下一步的研究提出了新的课题和设想。

随着数字图书馆和互联网的飞速发展,数字化文档唾手可得。近年来学术剽窃现象屡见报端,①公众人物学术造假事件的曝光使得民众对学术不端行为的关注进一步提升,其行为的危害已经引起社会各界的广泛重视。如何有效的防范、遏制抄袭等学习不端行为成为人们研究的热点,随着各种抄袭检测技术的研究不断深入,各种学术不端检测系统应运而生。本文要探讨的是抄袭的识别技术和检测工具。

1 研究背景

抄袭现象之所以存在有着多层面的原因,首先,各种利益的驱动或者自身能力的限制使得抄袭者产生了主观的故意;毫无疑问,互联网的广泛普及,搜索引擎的强大功能都为抄袭等行为提供了便利;网络及各种全文数据库收藏的海量文献为抄袭者提供了原材料;抄袭检测工具应用不够普及、功能有待提高使得抄袭者心存侥幸;对抄袭行为可能引起的法律问题严重的认知不足等等。抄袭应用的领域可能是一篇学术论文、一篇博客、一段程序代码等等,本文关注的是中文学术论文的抄袭。从技术层面上来说,杜绝抄袭可以从两个方面入手:一是在写作过程中阻止;二是在发表过程中检测。“检测”方法的设计思路是这样的:不关心文章以何种方式完成,只是在定稿的文档中进行检测,确定其中是否含有抄袭的内容即可。显然使用检测的方法来判别可操作性更强。

2 抄袭检测技术概述

对于自然语言的抄袭检测技术的核心就是文档复制检测技术。文档复制检测有两类基本的检测方法:

一类是基于字符串比较的方法;另一类是基于词频统计的方法。

基于字符串比较的方法也称为数字指纹法,这类方法通过某种选取策略在文档中取一些字符串作为“指纹”,把指纹映射到Hash 表中,最后统计Hash 表中相同的指纹数目或者比率,作为文本相似度依据。

基于词频统计的方法也称为基于语义的方法。词频统计法源于信息检索技术中的向量空间模型,该类方法首先都要统计每篇文档中各个单词的出现次数,然后根据单词频度构成文档特征向量,最后采用点积、余弦或者类似方式度量两篇文档的特征向量,以此作为文档相似度的依据。

3 抄袭检测技术的发展

使用计算机开展抄袭识别的研究首先要对数字文档进行分析处理,而数字文档又可分为两种类别,即:自然语言文本和形式语言文本。形式语言文本比较典型的是计算机程序源代码,虽然抄袭的案例较多,但因其具有规范的语法和语句结构特点,相对比较容易分析处理,针对此类抄袭识别的研究也较早。而自然语言文本(如:论文等)复制检测技术的出现比程序复制检测晚了20 年。②1993 年,美国亚利桑那大学的Manber提出了“近似指纹”概念,基于此提出了sif 工具,用基于字符串匹配的方法来度量文件之间的相似性。美国斯坦福大学的Brin 等人首次提出了COPS 系统与相应算法,其后提出的SCAM 原型对此进行了改进了。SCAM 借鉴了信息检索技术中的向量空间模型,使用基于词频统计的方法来度量文本相似性。香港理工大学的Si 和Leong 等人采用统计关键词的方法来度量文本相似性,建立了CHECK 原型,并首次在相似性度量中引入文档的结构信息。到了2000 年,Monostori 等人用后缀树来搜寻字符串之间的最大子串,建立了MDR 原型。在此之前,全美国的教育工作者们现已懂得综合运用课堂书写段落样本、互联网搜索工具和反剽窃技术三结合手段遏制欺骗的源头对于中文论文的抄袭识别,存在更大的困难。汉语与英文不同,它以字为基本的书写单位,词与词之间没有明显的区分标记,因此,中文分词是汉语文档处理的基础。

汉语文本抄袭识别系统首先需要分词作为其最基本的模块,因此,中文文本自动分词的好坏在一定程度上影响抄袭识别的准确性。同时计算机在自然语言理解方面有欠缺,而抄袭又不仅仅局限于照抄照搬式的,很难达到准确的抄袭识别。所以解决中文论文抄袭识别问题还不能全盘照搬国外技术。北京邮电大学张焕炯等用编码理论中汉明距离的计算公式计算文本相似度。中科院计算所以属性论为理论依据,计算向量之间的匹配距离,从而得到文本相似度。程玉柱等以汉字数学表达式理论为基础,将文本相似度计算转换为空间坐标系中向量夹角余弦的计算问题。西安交通大学的宋擒豹等人开发了CDSDG系统,采用基于词频统计的重叠度度量算法在不同粒度计算总体语义重叠度和结构重叠度。此算法不但能检测数字正文整体非法复制行为,而且还能检测诸如子集复制和移位局部复制等部分非法复制行为。晋耀红基于语境框架的相似度计算算法,考虑了对象之间的语义关系,从语义的角度给出文本之间的相似关系。大连理工大学的金博、史彦军、滕弘飞针对学术论文的特有结构,对学术论文进行篇章结构分析,再通过数字指纹和词频统计等方法计算出学术论文之间的相似度。张明辉针对重复网页问题提出了基于段落的分段签名近似镜像新算法。鲍军鹏等基于网格的文本复制检测系统提出了语义序列核方法的复制检测技术。金博、史彦军、滕弘飞少给出了一个基于语义理解的复制检测系统架构,其核心是以知网词语相似度计算为基础,并将应用范围扩大到段落。聂规划等基于本体的论文复制检测系统利用语义网本体技术构建论文本体和计算论文相似度。

4 抄袭检测系统的应用

运用信息技术反剽窃是国内规范学术行为的有效措施之一。④国外从20 世纪70 年代初,就开始有研究防止程序抄袭的软件,但直至1991 年第一个自然语言文本抄袭识别软件WordCheck 才诞生,目前广泛应用并具有代表性的软件有很多。如论文作业抄袭检查平台TurnItIn,由iParadigms 开发,系统采用基于数字指纹的抄袭检测方法,检测资源包括网络资源ProQuest 论文库、论文作业库等。提供的英文反剽窃服务目前已经服务于包括美国加州大学伯克利分校、杜克大学、德国汉堡大学等在内的2500 多所高校和科研机构,遍及九十多个国家,检索网页数量超66 亿,用户达650 万。据称,该网站目前已阻止了世界范围内将近600 万的学生和教育者的剽窃行为,在使用的高峰期,每天可以收到2 万篇论文。由Cross-Ref 与iParadigms 共同开发的抄袭检测平台CrossCheck,于2008 年6 月19 日正式启动。CrossCheck 的功能由两部分组成:一个基于全球学术出版物所组成的庞大数据库和一个基于网页的检验工具。这个基于网页的工具可用于编辑过程中去鉴别相似文档,生成对比报告,并通过分析去判断是否存有学术剽窃行为。截止2010 年3 月,正式会员包括Elsevier,Springer,牛津出版社,美国科学进步协会(AAAS),美国物理学会(APS),植物生物学会、《浙江大学学报》(英文版)等75 家单位。

国内已研发出两款较成熟的专门软件,且两款软件的核心都是基于数字指纹的抄袭检测方法进行文档相似性检测。一款是武汉大学沈阳副教授研制的“ROST反剽窃系统”软件,目前已在全国20 多所高校院系推广和100 多家期刊社使用。另一款是中国学术期刊电子杂志社与中国知网共同研制的“学术不端文献检测系统”,目前全国已有3000 多家期刊和360 所高校的研究生院免费使用这个软件。ROST 系统和CNKI 系统当前的一个主要差异在于其使用的参照文档数据库不同。“ROST 反剽窃系统”软件通过将切割文档后混合引擎将其与188 亿个网页和490 万篇文献进行模糊匹配,标示出每个文本块与文献库中的某些文献的最大相似度。中国知网从2006 年开始立项研发基于全文的“学术不端文献检测系统”,以《中国学术文献网络出版总库》为全文比对数据库,采用基于数字指纹的多阶快速检测方法,支持从词到句子、篇章级别的数字指纹,可对图、表等特殊检测对象进行基于标题、上下文、图表内容结合的相似性检测处理,还可根据特定的概念、观点、结论等内容进行智能信息分类处理,实现语义级别内容的检测。中国知网拥有文献量居国际国内同类产品之首,这为其进行检测提供了丰富的对比文献资源。科技期刊检测系统已经检测的10 多万篇科技文献中,文字复制

比超过30%的超过1 万篇;学位论文检测系统检测5000 篇学位论文,重合字数超过1 万篇的论文约1000 篇。目前Internet 上还有一些提供文本抄袭检测服务的网站和工具。例如,Plagiarism、mydropbox、WordCheck 等。针对中文的paperpass 提供法学论文和教育社科类论文的免费检测服务;中国搜网站的文章照妖镜工具基于谷歌和百度提供免费的检测服务;拷克提供针对网页内容抄袭的免费检测服务。

5 抄袭检测技术存在的问题

到目前为止,抄袭检测技术主要集中在文档复制检测上,针对图像、音频、视频的抄袭检测还有赖于基于内容的检索技术更进一步的发展。各系统集中解决在同一语种范围内的抄袭检测问题,对于中、外文间经过翻译后进行的抄袭行为还没有很好的检测解决方案。针对文档的抄袭研究已经取得了很多成果,但是针对论点(或创意)进行的抄袭一般难以直接断定出来,还需要进一步进行人工判定。另外,对已经明确在参考文献中列出的部分,有的检测系统在判定抄袭的时候并未进行特别处理。

赵春燕  李峣

北京政法职业学院

探究论文检测系统抄袭的算法原理等技术研究相关推荐

  1. 【引用】免费论文检测 系统 软件 论文免费检测 论文抄袭检测大师 万方数据论文相似性检测系统 万方论文检测...

    转载请注明:http://jiancelunwen.blog.163.com/blog/static/2031182372009420928035/ 免费论文检测+论文检测免费+论文抄袭检测大师 +论 ...

  2. 学位论文检测系统的说明与修改

    关于知网学位论文检测系统的说明与修改 1.对格式的要求 知网学位论文检测为整篇上传,格式对检测结果可能会造成影响,需要将最 终交稿格式提交检测,将影响降到最小,此影响为几十字的小段可能检测不出. 但都 ...

  3. 基于Vue和SpringBoot的论文检测系统的设计与实现

    作者主页:Designer 小郑 作者简介:Java全栈软件工程师一枚,来自浙江宁波,负责开发管理公司OA项目,专注软件前后端开发(Vue.SpringBoot和微信小程序).系统定制.远程技术指导. ...

  4. 不同系统下的shell的不同_不同论文检测系统有哪些区别?

    不同论文检测系统有哪些区别?目前世面上的论文检测系统五花八门的,很多学生都难以辨别知晓,论文检测系统是一个较为复杂的数据体系,建议使用论文检测系统前先弄懂这些,让你在选择论文检测系统得心应手.对于毕业 ...

  5. 检测范围_论文检测系统的检测范围有哪些

    为了能够让研究人员,甚至一些专业的学术专家在进行论文创作的时候,端正自己的学术态度,很多人都会要求他们在提交甚至是发表论文之前,附上自己的查重证明,只有查重率低于一定程度时,提交的论文才是合格的.特别 ...

  6. 论文检测系统如何选择?

    事实上,在写一篇论文很多大学生很困惑,因为现在每个人的论文基本上在互联网上搜索,为了避免被发现重复内容,很多学生会提前测试他们的论文,所以对于论文检测系统如何选择,以下帮助你总结. 在选择论文查重系统 ...

  7. 维普论文检测系统(大学生版)-维普查重入口

    维普论文检测系统(大学生版)V5.1,是用于大学生论文重复率检测的系统.权威性高.检测速度很快,结果符合很多高校的要求,即就是说和高校维普查重结果有一致性. 维普论文检测系统(大学生版)系统入口 维普 ...

  8. 【看论文】之《番茄采摘机器人关键技术研究_王丽丽 》

    论文信息 论文题目:<番茄采摘机器人关键技术研究> 作者:王丽丽 单位:北京工业大学 来源:中国知网 论文性质:博士学位论文 论文提交时间:2017.5 摘要 主要研究内容: (1)总体设 ...

  9. matlab的多变量dmc源程序,基于MATLAB多变量DMC算法的仿真技术研究

    基于MATLAB多变量DMC算法的仿真技术研究 基于MATLAB多变量DMC算法的仿真技术研究 作者:李凤霞 于佐军 来源:<科技创新导报>2011年第17期 摘 要:利用MATLAB开发 ...

最新文章

  1. 深入浅出解释FFT(四)——fft分析信号频率和相位
  2. FD_CLOEXEC用法及原因_转
  3. java升级为jdk1.8_jdk1.7升级为1.8
  4. 《HTML5多媒体应用开发》——第2章 HTML5多媒体元素2.1 Web多媒体历史
  5. 1、MySQL性能优化简述
  6. 【MM模块】Reservation 预留
  7. android umeng,GitHub - umeng/umeng_community_android: 友盟微社区Android SDK开源项目
  8. Java实现单链表的合并(保证数据的有序性)
  9. 人力资源管理系统详细设计说明书
  10. 【非原创】python调用bartender操控打印机打印条码
  11. axio.js封装和环境配置
  12. 华盛顿大学计算机专业咋样,华盛顿大学计算机专业详解
  13. jsLint 检查分析
  14. linux so 加壳,[android] 从加壳的so文件中抽出symbols
  15. 【Python网络蜘蛛 · 8】:moviepy模块实现音频+视频的合成
  16. android 动画遮盖,android view用动画实现遮罩效果
  17. ubantu系统从命令行进入桌面
  18. 老贾笔记--轻轻松松oracle之logmnr篇[吃顿饭的功夫学恢复误删除(delete)的数据]
  19. 用Hostwinds快速搭建Wordpress网站教程
  20. cad-pol:正多边形命令学习

热门文章

  1. 如何写论文中的引言?
  2. 计算机安全法的发行日期,网络安全法实施时间,网络安全法是什么时候实施的?...
  3. DNA排序算法--代码
  4. Facebook广告投放5种技巧
  5. 白色相簿的季节(递归)
  6. 自制英语翻译(调用有道翻译接口)
  7. 学习表——受任于败军之际,奉命于危难之间(11.28-12.4)
  8. PMP考试六大管理学定律
  9. S270无线物联网数据监测4G RTU功能介绍
  10. Sublime 使用总结