时值毕业季,有不少小伙伴深受论文查重的困扰。因此我便想到做一个简单的自动去重的工具,先看看效果,我们再对原理或是代码实现做进一步的分析。

首先需要输入appid以及key,这些可以在百度翻译开放平台申请一个账号,可以免费申请一个账号。接着将需要进行降重的文本内容复制到相应的输入框内,点击开始按钮,即可输出不同但意思相近的语句,即达到降重去重的作用。点击复制按钮便可以将得到的新文本复制到剪贴板上,点击清楚按钮可以重新输入需要降重的文本,并且循环往复地进行。

去重原理

论文查重的粒度是句子,两个句子的相似度主要取决于句子包含哪些词,以及词在句子中的位置。句子相似度只是文字上的对比,不考虑语义上的相近。

正因如此,我们可以采取的措施便是变换句子结构,使用近似词替换。

为了完成这些句子的自动替换,从而达到降重的目的,这里很容易便想到利用不同语种之间的互相转换来生成新文本。比如在本工具中,我采用了中文→英文→韩文→中文的策略,你也可以采取更长的转换路径,但那样似乎会在很大程度上降低文本的可读性。

开放平台的使用

语句的翻译我采用了百度翻译开放平台的接口,简单地申请之后就可以获取每个月200万的免费字符翻译权限。

此API的接入方式略微有些麻烦,需要生成签名sign并且拼接完整的url。

def translate(q,lan_from,lan_to):

url = 'http://api.fanyi.baidu.com/api/trans/vip/translate'

salt = random.randint(1, 65536)

sign = hashlib.md5((str(appid)+str(q)+str(salt)+str(key)).encode('utf-8')).hexdigest()

params = {

'from' :lan_from,

'to' :lan_to,

'salt' : salt,

'sign' : sign,

'appid' : appid,

'q': q

}

r = requests.get(url,params=params)

txt = r.json()

if txt.get('trans_result', -1) == -1:

print('ERROR Code:{}'.format(txt))

return q

return txt['trans_result'][0]['dst']

总结

在弄清楚原理以及API的调用方法之后,我们可以轻松地写出一个GUI界面,也就是这个降重工具。当然这个工具非常初级,大家可以进行更加全面的扩展。

推荐阅读

python 论文降重_我用Python写了一个论文降重工具-Go语言中文社区相关推荐

  1. python怎么输出所有奇数_python输出100以内奇数的几种输出方式-Go语言中文社区

    自从看了一些Python的一些基础语言之后,发现Python这门语言还是蛮有趣啊,很多计算用Python效率还是蛮高啊,几行就搞定了.比方说输出100以内的奇数,用其他语言,可能都是先for循环遍历1 ...

  2. python爬虫过程中遇到的问题_python爬虫过程中出现的问题汇总-Go语言中文社区

    1.出现 UnicodeDecodeError: 'ascii' codec can't decode byte 0xe5 in position 7: ordinal not in range(12 ...

  3. python turtle 椭圆_Python易学就会(五)turtle绘制椭圆与递归-Go语言中文社区

    前两篇文章基本涵盖了turtle的大部分功能,同时也借由对turtle功能的展示,厘清了Python的一些语法特点,以利于新手入门.但是短短几个例子,阐述得还是有限,这里再展开两个知识点,一方面对tu ...

  4. python爬去音乐_Python爬虫——分析酷我音乐网站,并爬取歌曲-Go语言中文社区

    前言: 爬取数据,我们都先必须了解开发者工具的使用和网页的源代码,即Python导入第三方库的步骤. 开发者工具使用步骤: 使用F12或者Ctrl+Shirt+i打开开发者工具 说明: 1)先检查HT ...

  5. python怎么表白源码_Python浪漫表白源码(附带详细教程)-Go语言中文社区

    要知道我们程序猿也是需要浪漫的,小博我之前在网上搜寻了很多代码,确发现好多都不是最新的,所以自己就整理了一下代码,现在与广大博友们分享下 我们需要用到的包 使用pip install +(包名) tu ...

  6. pythonopencv人脸相似度_图像相似度算法的个人见解(pythonopencv)-Go语言中文社区...

    简述 前段时间写了篇博文 哈希算法实现图像相似度比较(Python&OpenCV) ,使用简单的哈希算法进行图像相似度判断.但是在实践中该算法达不到预期的效果: 图像缩放8*8大小,图片信息内 ...

  7. 科技论文中的分析与综合-如何写好科技论文之我见(七)

    科技论文中的分析与综合-----如何写好科技论文之我见(七) 闵应骅 分析与综合这两术语大家经常用.但是,真要说它们的定义,那可是哲学范围里的事.形式逻辑里面就有分析与综合.我在初中教几何的时候,就常 ...

  8. python实现数据可视化_使用Matplotib python实现数据可视化

    python实现数据可视化 I Feel: 我觉得: In today's digital world data has become as important as air. Machines &a ...

  9. python简单装饰器_简单介绍Python装饰器(一)

    装饰器的作用 相信大家在 探索过程中已经了解装饰器的作用,也有很多花里胡哨的介绍. 这次小冰也来讲解一下关于Python装饰器的一些小知识. 它的作用: 性能测试 日志 安全验证 ...... 相信大 ...

  10. python安全编码问题_浅谈Python中的编码问题

    对于Python的初学者来说,编码问题相当令人头疼.本文就根据我在学习过程中遇到的问题简单谈一下Python中的编码.首先简单介绍一下几种常见的编码. 一.几种常见的字符编码 ASCII码 ASCII ...

最新文章

  1. 如何在 Mutt 邮件客户端中使用密文密码
  2. 对称加密和不对称加密原理
  3. 64位 linux 32位连接器,意法半导体为 32 位微控制器发布了一款自由的 Linux 集成开发环境...
  4. 机器学习实战9-运行Tensorflow(california_housing数据集)
  5. Intel超线程技术 Hyper-Threading Technology (5) - 微架构/流水线与超线程技术(前端/执行核)
  6. Crazypony四轴飞行器代码框架
  7. file对象怎么才会有值_怎么去聊天女生才会跟你约会
  8. 解密Oracle备份工具-exp/imp
  9. Recoil 是 React 的状态管理库
  10. [简单]1.宝石和石头
  11. 2.SOA架构:服务和微服务分析及设计--- 理解面向服务架构
  12. 拓端tecdat|使用GIS制作静态地图和处理地理数据
  13. 人民币大写金额转换为数字
  14. 示波器电流探头应该怎么保养-PinTech品致
  15. 展望|人脸识别技术发展现状及未来趋势
  16. android爬取英文单词发音,并在app中播放。(使用百度接口)
  17. 100部5星国外经典电影
  18. ios VM snapshot invalid and could not be inferred from settings
  19. 上海税前12000税后多少_税前12000元月工资,税后能拿多少
  20. 济南商讯在线计算机,迅时IP话机 NRP2000W

热门文章

  1. 对项目工时的估算: PERT(计划评审技术) 三点估算法
  2. JDK1.8中HashMap如何应对hash冲突?
  3. MATLAB实战Sobel边缘检测(Edge Detection)
  4. 最详细的讲解过滤器,拦截器,AOP的区别
  5. python实战项目分析2—物流
  6. win10系统字体 chrome 修改苹果字体
  7. uni-app开发APP上架应用市场遇到的坑
  8. Linux logviewer的功能,文本日志查看器(LogViewer Pro)
  9. VUE引入JsBarcode组件异常记录
  10. [事务] 事务的传播机制