这几天“差评洗稿”的事情,闹得沸沸扬扬,楼主本身也是内容创作的手艺人,简单说两句。

“运营为王”的今天,组一队编辑,起一个噱头标题,调整别人原创的内容(洗稿),在朋友圈/微信群/各渠道推广,个人原创作者根本防不胜防。

楼主最早写文章的配图都不带水印的,无奈抄袭成风的浮躁互联网,在N个平台发现了贴有“原创”标签的楼主的文章,才被迫打上“架构师之路”的水印。

画外音:楼主的配图很丑,很容易辨认。

当然,有些很用心的博主:

  • 会调整文章结构,文字顺序

  • 会重画架构图

反正就是不会说明来源。

洗稿又不犯法,怎么这么矫情?

大伙将心比心的感受下,辛辛苦苦花了5个小时缕思路,写文字,画图形,调格式发布的原创文字,5K阅读。

洗稿组织花了10分钟调整内容,打原创标签,多渠道运营,5W+阅读,原创作者会是什么感受?

大伙将心比心的感受下,辛辛苦苦花了4年时间,写了几百篇文章,只为分享知识。

被洗稿之后的文章,目的却是赚打赏赚广告费,原创作者会是什么感受?

真希望,这是“内容为王”的时代。

好了,技术公众号,还是多聊聊技术的东西。很多原创内容在网上被抄来抄去,改来改去,技术上有什么样的方法能够判断抄袭与洗稿,判断文章相似性,收集证据呢?希望本文能给大家一些思路。

两篇文章,如何判断一模一样?

:很容易想到的,一个字节一个字节的比对。

一个字节一个字节比对效率较低,有没有更高效的方法?

:可以用一个签名值(例如md5值)代表一篇文章,签名值相同则认为文章相同。

md5是一种常见的签名算法,常用来判断数据的完整性与一致性。例如:

  • 判断下载的区块链是否被篡改,只要比对本地数据md5,与预期的md5即可

  • 判断上线的二进制是否被篡改,只要比对线上二进制的md5,与编译机上二进制的md5即可

  • 判断消息是否被篡改,只要比对收到消息的md5,与传过来的md5值即可

md5设计原则:两篇文章哪怕只有1个字符不同,其md5签名值也会非常大,它只适用于“完整性”检测,并不适用于“相似性”检测。

对于一篇原创文章,洗稿者可能删除了5%的内容,修改了5%的内容,调整顺序了5%的内容(一般没有时间增加5%的内容)。此时的签名值并不相同。

洗稿这种场景,并不适合签名值比对。

有没有一种哈希算法,文章越相似,哈希值也越相似呢?

:局部敏感哈希LSH(Locality Sensitive Hash)是典型解决方案(感兴趣的同学自行百度),这里分享一下minHash的思路。

什么是minHash?

:minHash是局部敏感哈希的一种,它常用来快速判定集合的相似性,也常用于检测文章的相似性。

其思路为:用相同的规则抽取集合中的少部分元素代表整个集合,如果少部分元素的重合度很高,非常可能整个集合的重复度也很高。

举例:待判定的集合为A{1, 7, 5, 9, 3, 11, 15, 13}

已有的集合为:

B{10, 8, 2, 4, 6, 0, 1, 16},

C{100, 700, 500, 900, 300, 1100, 1500,1300},

D{1, 3, 2, 4, 6, 5, 8, 7}

假设使用部分元素代替全体集合的规则为:集合内元素进行排序,取值最小的4个(这个过程有信息损失,我们可以认为是一个hash过程)代表整个集合。

处理结果为:

A{1, 3, 5, 7}

B{0, 1, 2, 4} =>A与B有1个元素相同

C{100, 300, 500, 700} => A与C有0个元素相同

D{1, 2, 3, 4} => A与D有2个元素相同

判断结论:认为集合A与集合D是最相似的。

例子说明了整体思路,实际执行的过程中:

  • 可以使用更多的元素来代表集合,以提高准确性

  • 可以使用更多的hash函数来代表集合,以提高准确性

  • minHash可以量化评判相似度

  • 文章库中的哈希值都可以提前计算

minHash可以检测集合相似度,它与文章相似度有啥关系?

:如果能将每一篇文章,用一个集合来表示,那么文章的相似度就能用minHash来解决了。

如何将文章转化为集合?

:分词。

举例:文章为A{我是58沈剑,我来自58到家}

已有文章库为:

B{我是一只来自58的狼}

C{58到家,服务到家}

D{这事和我没关系,我是凑数的}

使用分词将上述文本集合化:

A{我,58,沈剑,来自,到家}

B{我,58,来自,狼}

C{58,服务,到家}

D{事,我,凑数,关系}

判断结论:转化为集合后,可以快速判断文章A与文章B的相似度最高。

实际执行过程中,除了分词还可以考虑词频,以及词的权重。用这种方法进行文章相似度检测,准确率非常高(文本越长越准)。

能否进一步优化,提升效率,保留证据,证明洗稿者抄袭?

答:使用上述方法进行文章相似度检测,需要进行中文分词,词频统计,哈希值计算,相似度计算,计算量微大。可以这么优化:

  • 不再进行分词,而是进行“分句”,用标点符号把长文按照句子分开,使用N个句子作为文章的签名,能大大降低工程复杂度,并且准确度也异常的高

  • 故意留一些错别字,洗稿者很难发现这些错别字,能够很快证明抄袭成立

总结

  • 签名,例如md5经常用于判断文章相同,其效率比全文比对效率高

  • 局部敏感哈希,例如minhash经常用于判断文章相似

  • minhash的原理是,使用子集代表全集合,以子集的相似性模拟全集合的相似性

  • 把文章转化为集合的常见方法是分词

  • 分句,故意留错别字能够提高检测效率

画外音:看了下后台,创作4年,总打赏10797.72元,感谢大家。文章中部广告,文章底部广告,文章底部二维打赏码都非常影响用户体验,楼主就不这么切入广告了。平时发的推广软文,大家多帮忙扫扫码,多帮忙点击点击,多帮忙转发转发哈,撰文不易。

做技术,思路更重要,求转。

洗稿,技术上怎么判断文章相似性?相关推荐

  1. TF-IDF结合余弦相似性 判断文章相似性

    摘自:阮一峰的网络日志(http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html) 为了找出相似的文章,需要用到"余弦相似性 ...

  2. 如何看待ai洗稿取代人工的文章

    随着人工智能技术的日益发展,AI洗稿取代人工编辑已经成为一个备受关注的话题.一些人认为,AI洗稿技术的不断进步和普及,将会彻底改变出版行业的格局和人们的阅读体验,使人工编辑的职业前景变得不甚明朗.然而 ...

  3. 洗稿用什么软件-洗稿软件免费

    洗稿文章的主要优势 洗稿文章的主要优势在于提高文章的质量和效率.以下是洗稿文章的几个主要优势: 优化结构和语言 洗稿可以删除冗余.无用和重复的内容,同时对文章的结构和语言进行优化,提高文章的可读性和吸 ...

  4. 人工智能洗稿-免费自媒体洗稿工具

    文字洗稿 文字洗稿是指通过修改.重组.删除.替换等手段对文本进行优化.清理和调整,以达到改善文章质量.增加独特性和提高可读性的目的.文字洗稿是自媒体行业的一个重要需求,尤其是在批量撰写文章或需要大量修 ...

  5. 洗稿伪原创工具-洗稿生成器

    chatgpt快速洗稿一篇文章 做自媒体创作的人都知道,文案创作是一件十分耗时间和精力的事情,而且要做好一篇文章,还需要考虑排版.语法和语气等问题.为了让自媒体写作更简单.更快速,我们推出了一款名为C ...

  6. python文章抄袭检测_CSDN文章被洗稿、抄袭严重!用Python做一个“基于搜索引擎的文章查重工具”,解决!...

    前言 文章抄袭在互联网中普遍存在,很多博主.号主深受其烦. 近几年随着互联网的发展,抄袭等不道德行为在互联网上愈演愈烈,甚至复制.黏贴后发布标原创屡见不鲜,部分抄袭后的文章,甚至标记了一些联系方式从而 ...

  7. CSDN文章被洗稿、抄袭严重!用Python做一个“基于搜索引擎的文章查重工具”,解决!...

    公众号后台回复"图书",了解更多号主新书内容 作者: 1_bit 原文链接:http://suo.im/5V1JpX 前言 文章抄袭在互联网中普遍存在,很多博主.号主深受其烦. 近 ...

  8. 清华本科、港科大准博士被指论文抄袭,网友:这是有技巧的“洗稿”

    来源:整理自新智元.Reddit.知乎等 不是吧?清华自动化本科,香港科技大学硕士生发表的顶会论文竟然是抄的? 而且抄袭对象还是另一篇顶会论文? 近日,眼尖的网友发现两篇分别发表在 ICML 2021 ...

  9. LeCun论文被指「洗稿」? LSTM之父发文怒怼:抄我的还标原创

    编 | 好困 Joey David 源 | 新智元 LSTM之父.暴脾气大爷Jürgen Schmidhuber又开炮了?这回怼的是LeCun,说最近的新论文是炒了自己20多年前的冷饭,只不过换了种说 ...

最新文章

  1. CPU架构的llvm后端
  2. 2018年Python开源项目Top100!只在这里!
  3. 首个最全的MongoDB 3.6 全览
  4. weblogic如何在linux扩容,如何在linux的weblogic上增加启动参数
  5. javaweb k8s_阿里云部署K8Sweb项目
  6. 《Windows游戏编程大师技巧》三、Windows高级编程
  7. gdp笔记本 linux,linux中如何使用微软鼠标的第4、5键
  8. 关于windows注册表
  9. RHELServer6.2下编译GDAL和mysql和proj4支持
  10. Eprime Feedback state激活错误 其他报错
  11. 关于计算机的好处的英语作文,关于电脑好处的英语作文
  12. 电脑桌面上文件夹图标右上角有双箭头
  13. 支持跨平台的移动开发工具大盘点!
  14. gyb优化事项(4)
  15. 武汉大学计算机学院周维,周维勋
  16. iOS 最完整小说阅读器Demo
  17. 关于updated()函数没有执行
  18. [golang]简单文件上传服务
  19. 【Azure Data Platform】ETL工具(21)——Azure Databricks使用(1)——访问Azure Blob
  20. 2021-07-28 产品开发过程纪实-家用洗菜-智商税收割

热门文章

  1. 解决VC6.0出现的Error spawning cl.exe错误
  2. 麦肯锡7S模型(转载)
  3. Python个人主页项目-3.个人数据后端管理应用开发
  4. 顺序表类的声明java_顺序表实现解约瑟夫环_Java
  5. 朋友圈如何分享pdf
  6. easyui onselect多选_easyUI combotree 多选取值
  7. 2021 ICPC 四川省赛 L - Spicy Restaurant(多源BFS,DP)
  8. 以太坊合约语言开发简单介绍
  9. sqlserver 之STUFF的运用
  10. IT行业的发展走向趋势