论文降重脚本思路(根据词性)
紧跟着上一次的利用Synonyms库对论文进行降重,期间发现了使用上一版本的会出现文章与降重后的意思完全不一样,所以这次我是用了根据词性进行精准降重(例如只针对副词、形容词等等)
Synonyms库对论文进行降重
本次改动较大,主要使用了Synonyms和jieba库
pip install jieba
程序代码整体结构如下
# -*-coding:utf8 -*-
import newsyn.newsyn
import jieba.posseg as psegoriginal_sentence = '随着现代信息化、智能制造的快速发展,工业数据在制造企业中呈日益增长趋势。其中标准件的数量更是占据了全部零件数量的绝大部分,而标准件的管理却依然采用着人工手动统计的方式,这种方式不仅浪费人力还容易出现种种差错,影响了制造企业快速设计、制造的趋势。在航空制造企业中,标准件件数量大、参数多,为了提高产品的设计效率,降低产品的开发成本,提高产品在市面上的竞争力,提出利用现代计算机语言创建飞机标准件库存管理系统,增强了企业对标准件的信息化管理。'words_jieba = pseg.cut(original_sentence)symbol = [',','.',',','。','?','‘','’','“','”','!','、']
str = [original_sentence]
swap_flag = ['p','a','ad','b','i','mq','f','vi','vq','vn','d','v','l','d','c','an']
sentence = ''def find_word(words_jieba):sentence = ''for word, flag in words_jieba:print('%s %s' % (word, flag))if flag in swap_flag:word_s = same_word(word)if word_s != 0:sentence += word_selse:sentence += wordelse:sentence += wordstr.append(sentence)def same_word(word):try:if word not in symbol:word_s = newsyn.newsyn.display(word)# print(word_s[0])if word_s[0] == []:print('<'+word+'>error')return 0else:print(word + '==>' + word_s[0][1])return word_s[0][1]except Exception as e:print(str(e))find_word(words_jieba)
print(str)
result = newsyn.newsyn.compare(str[0],str[1])
print('相似度:', result)
多说无用,来看看效果吧
↓↓↓↓↓↓
这是降重前的原文:
随着现代信息化、智能制造的快速发展,工业数据在制造企业中呈日益增长趋势。其中标准件的数量更是占据了全部零件数量的绝大部分,而标准件的管理却依然采用着人工手动统计的方式,这种方式不仅浪费人力还容易出现种种差错,影响了制造企业快速设计、制造的趋势。在航空制造企业中,标准件件数量大、参数多,为了提高产品的设计效率,降低产品的开发成本,提高产品在市面上的竞争力,提出利用现代计算机语言创建飞机标准件库存管理系统,增强了企业对标准件的信息化管理。
降重后:
随著现代信息化、智能生产的迅速经济发展,工业数据特别是在生产企业之中呈圆形日益增长趋势。其中标准件的数量可谓占有了全部配件数量的绝大部分,因而标准件的管理工作虽然仍然使用着人工手动统计数据的方式,这种方式不但浪费人力也难发生种种差错,负面影响了生产企业迅速结构设计、生产的趋势。特别是在航空生产企业之中,标准件件数量小、参数多,为的是提升产品的结构设计效率,减少产品的生产成本,提升产品特别是在市面上的竞争力,明确提出利用现代计算机语言建立飞机标准件库存管理系统,进一步增强了企业对于标准件的信息化管理工作。
可以看出结果照比之前有很大的提升,大体意思没有改变,只需要更改很小的一部分即可,已经完成了我当时80%的预想。
下面是运行结果
D:\Python\Python38\python3.exe C:/Users/28177/Desktop/py/lunwen/lunwen.py
smart_open library not found; falling back to local-filesystem-only
[jieba] default dict file path ..\data\vocab.txt
[jieba] default dict file path ..\data\vocab.txt
[jieba] load default dict ..\data\vocab.txt ...
[jieba] load default dict ..\data\vocab.txt ...
>> Synonyms load wordseg dict [C:\Users\28177\Desktop\py\newsyn\data\vocab.txt] ...
>> Synonyms on loading stopwords [C:\Users\28177\Desktop\py\newsyn\data\stopwords.txt] ...
[Synonyms] on loading vectors [C:\Users\28177\Desktop\py\newsyn\data\words.vector.gz] ...
随着 p
随着==>随著
现代 t
信息化 n
、 x
智能 n
制造 v
制造==>生产
的 uj
快速 d
快速==>迅速
发展 vn
发展==>经济发展
, x
工业 n
数据 n
在 p
在==>特别是在
制造 v
制造==>生产
企业 n
中 f
中==>之中
呈 v
呈==>呈圆形
日益增长 n
趋势 n
。 x
其中 r
标准件 n
的 uj
数量 n
更是 d
更是==>可谓
占据 v
占据==>占有
了 ul
全部 n
零件 mq
零件==>配件
数量 n
的 uj
绝大部分 m
, x
而 c
而==>因而
标准件 n
的 uj
管理 vn
管理==>管理工作
却 d
却==>虽然
依然 d
依然==>仍然
采用 v
采用==>使用
着 uz
人工 n
手动 n
统计 v
统计==>统计数据
的 uj
方式 n
, x
这种 r
方式 n
不仅 c
不仅==>不但
浪费 n
人力 n
还 d
还==>也
容易 a
容易==>难
出现 v
出现==>发生
种种 q
差错 n
, x
影响 vn
影响==>负面影响
了 ul
制造 v
制造==>生产
企业 n
快速 d
快速==>迅速
设计 vn
设计==>结构设计
、 x
制造 v
制造==>生产
的 uj
趋势 n
。 x
在 p
在==>特别是在
航空 n
制造 v
制造==>生产
企业 n
中 f
中==>之中
, x
标准件 n
件 zg
数量 n
大 a
大==>小
、 x
参数 n
多 m
, x
为了 p
为了==>为的是
提高 v
提高==>提升
产品 n
的 uj
设计 vn
设计==>结构设计
效率 n
, x
降低 v
降低==>减少
产品 n
的 uj
开发成本 l
开发成本==>生产成本
, x
提高 v
提高==>提升
产品 n
在 p
在==>特别是在
市面上 n
的 uj
竞争力 n
, x
提出 v
提出==>明确提出
利用 n
现代 t
计算机语言 gi
创建 v
创建==>建立
飞机 n
标准件 n
库存 n
管理系统 n
, x
增强 v
增强==>进一步增强
了 ul
企业 n
对 p
对==>对于
标准件 n
的 uj
信息化 n
管理 vn
管理==>管理工作
。 x
['随着现代信息化、智能制造的快速发展,工业数据在制造企业中呈日益增长趋势。其中标准件的数量更是占据了全部零件数量的绝大部分,而标准件的管理却依然采用着人工手动统计的方式,这种方式不仅浪费人力还容易出现种种差错,影响了制造企业快速设计、制造的趋势。在航空制造企业中,标准件件数量大、参数多,为了提高产品的设计效率,降低产品的开发成本,提高产品在市面上的竞争力,提出利用现代计算机语言创建飞机标准件库存管理系统,增强了企业对标准件的信息化管理。', '随著现代信息化、智能生产的迅速经济发展,工业数据特别是在生产企业之中呈圆形日益增长趋势。其中标准件的数量可谓占有了全部配件数量的绝大部分,因而标准件的管理工作虽然仍然使用着人工手动统计数据的方式,这种方式不但浪费人力也难发生种种差错,负面影响了生产企业迅速结构设计、生产的趋势。特别是在航空生产企业之中,标准件件数量小、参数多,为的是提升产品的结构设计效率,减少产品的生产成本,提升产品特别是在市面上的竞争力,明确提出利用现代计算机语言建立飞机标准件库存管理系统,进一步增强了企业对于标准件的信息化管理工作。']
[Synonyms] not exist in w2v model: 计算机语言
[Synonyms] not exist in w2v model: 计算机语言
相似度: 0.972进程已结束,退出代码 0
最后附上一个词性表,可以根据自己的需求改
en | cn | e.g. | 数量 |
---|---|---|---|
a | 形容词 | 高 明 尖 诚 粗陋 冗杂 丰盛 顽皮 很贵 挺好用 … | 4306 |
ad | 副形词 | 努目 完全 努力 切面 严实 慌忙 明确 仓惶 详细 … | 110 |
ag | 形语素 | 详 笃 睦 奇 洋 裸 渺 忤 虐 黢 怠 峻 悫 鄙 秀 … | 46 |
an | 名形词 | 麻生 猥琐 腐生 困苦 危难 负疚 刚愎 危险 悲苦 … | 40 |
b | 区别词 | 劣等 洲际性 超常规 同一性 年级 非农业 二合一 … | 1363 |
c | 连词 | 再者说 倘 只此 或曰 以外 换句话说 虽是 除非 … | 504 |
d | 副词 | 幸免 四顾 绝对 急速 特约 从早 务须 逐行 挨边 … | 2422 |
df | 不要 | 不要 | 1 |
dg | 副语素 | 俱 辄 | 2 |
e | 叹词 | 好哟 嗄 天呀 哎 哇呀 啊哈 嗳 诶 嗬 呜呼 哇塞 … | 34 |
f | 方位词 | 内侧 以来 面部 后侧 面前 沿街 之内 两岸 里 … | 351 |
g | 语素 | 媸 璇 戬 瓴 踔 鳌 撄 絷 膑 遘 醢 槊 胂 鹎 豳 … | 969 |
h | 前接成分 | 非 超低 | 2 |
i | 成语 | 绿荫蔽日 振耳欲聋 沧海一粟 一望无边 为尊者讳 … | 25583 |
j | 简称略语 | 交警 中低收入 四个现代 经检测 青委 车改 … | 1396 |
k | 后接成分 | 型 者 式 们 | 4 |
l | 习用语 | 不懂装懂 相聚一刻 由下而上 十字路口 查无此人 … | 17721 |
m | 数词 | 九六 十二 半成 戊酉 俩 一二三四五 丙戌 片片 … | 13178 |
mg | 数语素 | 寅 巳 | 2 |
mq | 数量词 | 半年度 四方面 十付 三色 一口钟 四面 三分钟 … | 80 |
n | 名词 | 男性 娇子 气压 写实性 联立方程 商业智能 寒窗 … | 117902 |
ng | 名语素 | 诀 卉 茗 鹊 娃 寨 酊 钬 雹 役 莺 谊 隙 族 鸩 … | 280 |
nr | 人名 | 雍正皇帝 小老弟 唐僧骑 铁娘子 小甜甜 璐 … | 72842 |
nrfg | 古近代人名 | 刘备 关羽 张飞 赵云 任弼时 … | 484 |
nrt | 音译人名 | 米尔科 达尼丁 三世 五丁 塞拉 埃克尔斯 贝当 … | 5941 |
ns | 地名 | 南明 锡山 拱北 南非 哥里 平北 丹井 佛山 广州 … | 17706 |
nt | 机构团体 | 浙江队 中医院 中华网 铁道部 广电部 联想集团 … | 4713 |
nz | 其他专名 | 培根 补丁 圣战士 英属 国药准字 … | 10441 |
o | 拟声词 | 哈喇 咝 哗喇 咔喳 飕 哇哇 喃 咕隆 咿呀 唧咕 … | 247 |
p | 介词 | 顺当 顺着 借了 连着 乘着 除了 较之于 根 自 … | 114 |
q | 量词 | 毫厘 盅 封 千瓦小时 立方米 盎 座 毫克 张 斛 … | 232 |
r | 代词 | 该车 这时 那些 甚么 鄙人 此案 睿智者 他 怎生 … | 759 |
rg | 代语素 | 兹 | 1 |
rr | 代词 | 偺们 妳们 其他人 | 3 |
rz | 代词 | 这位 | 1 |
s | 处所词 | 世外 肩前 舷外 手下 耳边 兜里 盘头 桌边 家外 … | 591 |
t | 时间词 | 新一代 清时 先上去 月初 昔年 无日 唐五代 佳日 … | 1768 |
tg | 时间语素 | 昔 晚 春 现 暮 夕 宵 | 7 |
u | 助词 | 则否 等 恁地 等等 似的 来说 矣哉 来看 般 的话 … | 20 |
ud | 得 | 得 | 1 |
ug | 过 | 过 | 1 |
uj | 的 | 的 | 1 |
ul | 了 | 了 | 1 |
uv | 地 | 地 | 1 |
uz | 着 | 着 | 1 |
v | 动词 | 批发 孕育 作成 纳闷儿 遭殃 留话 吻下去 创生 … | 34761 |
vd | 副动词 | 狡辩 持续 逆势 | 3 |
vg | 动语素 | 悖 谏 踞 泯 濯 掳 诌 疑 诲 吁 囿 酌 蟠 豢 匿 … | 160 |
vi | 动词 | 沉溺于 等同于 沉缅于 徜徉于 | 4 |
vn | 名动词 | 审查 相互毗连 销蚀 对联 劳工 漫游 … | 3235 |
vq | 动词 | 捱过 唸过 去过 去浄 | 4 |
x | 非语素字 | 舭 珑 婪 躅 蕺 蜓 螂 窀 蘅 葜 姆 榍 虺 楂 … | 367 |
y | 语气词 | 吓呆了 呃 呀 兮 哩 呐 嘞 哇 呗 意谓着 也罢 啦 … | 49 |
z | 状态词 | 歪曲 飘飘 慢慢儿 急地 沉迷在 晕呼呼 … | 2624 |
zg | zg | 鮛 瑑 灘 鄼 緣 嗙 獘 洅 暠 埄 涚 鞞 檺 肸 撻 … | 5666 |
论文降重脚本思路(根据词性)相关推荐
- 6论文降重小技巧(建议收藏)
论文降重小技巧(建议收藏) 今天给大家分享一下论文降重几个方法,希望对大家降重有帮助,喜欢的收藏加关注哦 一.文字叙述转换成表格形式 第一个降重小技巧是有科学依据的,依据就是"中国知网检测系 ...
- 毕业生查重必备!!论文降重小技巧 + 查重网站哪家强
我们学校有三次查重机会,所以第一次我头一热没有自己降重,就直接上传了.重复率44%,所以在多数人不需要担心是否在30%以内时,我就很惴惴不安,要努力降重!以下就介绍了我写论文的降重方法和查重网站的使用 ...
- 重视论文降重,应对论文查重
声明:提供此文章,不是为了作弊去完全依赖AI写论文,AI也不具备这个写通篇文章的努力,只是让需要的同学了解强大AI能力,可以减少冗杂的工作量,去做更有意义的事情. 论文查重始终是萦绕在准毕业生们头上的 ...
- 可以进行论文降重吗?
是的,可以进行论文降重.一种方法是通过删除冗长的内容.组织内容的结构.使用简洁明了的语言来减少论文的字数.同时,还可以通过缩短引用.综述等部分来减小论文的体积.最重要的是,确保论文仍然保留了所有的重要 ...
- 论文降重有效减少重复率修改的方法
今年,学校对论文检测的似乎比往年更加严格,对文章的重复率的要求也是再创新高,有些高校甚至要求重复率低于8%,所以对于学生掌握一些论文降重有效减少重复率修改的方法非常必要,具体方法小编整理如下: 一 ...
- 开源免费,electron+python制作图形化论文降重PC端工具
小程序 为了更方便用户使用,也制作了免费"永久论文降重"微信小程序,具备更多的降重功能,欢迎体验. PC端论文降重工具 开源项目地址 https://github.com/imok ...
- 怎么过论文查重,有哪些论文降重技巧?
阳春三月来了,对毕业生们来说,这个春天充满希望.毕业的下落是继续深入研究,还是进入社会成为打工,还是自己创业创新.此外,这个春天对毕业生们来说更加挑战:很多毕业生在毕业时需要完成反映自己学习成果的毕业 ...
- 计算机概念性的文字怎么降重,论文降重概念性的文字怎么改
毕业论文是每名学生都需要面临的挑战,而毕业论文当中的重复率是其重要的一项关卡,重复率不达标准的毕业论文则会被高校视为不合格论文,不给予毕业答辩的资格,甚至会影响后续的毕业,也因此学生都会在论文上交前对 ...
- 超详细|ChatGPT辅助论文降重教程100%降至13%
超详细|ChatGPT辅助论文降重教程100%降至13% 1. ChatGPT指令 1.1 同义词替换 1.2 同义词替换+改变语序 1.3 扩充字段 1.4 学术化内容 1.5 扩充+删减字段+学术 ...
最新文章
- [HNOI2013]切糕
- 哈希链表的原理及算法实现
- docker 启动容器_crontab入门二:定时启动docker容器并启动容器内部脚本
- java hql多条件查询_Hibernate结合JPA编写通用泛型多条件查询
- 最热web前端技术精粹
- 智联+影音,AITO问界M7想干翻的不止理想One
- 假定一种编码的编码范围是a~y的25个字母,从1位到4位的编码,如果我们把该编码按字典序排序,形成一个数组如下: a,aa,aaa,aaaa,aaab,aaac,…,…,b,ba,baa,baaa,b
- 用Java来解析torrent文件
- 蓝懿iOS 技术内容交流和学习心得 11.11
- PKI、KDC、DH、RSA都是些什么
- win10下配置maven
- 《AngularJS深度剖析与最佳实践》一2.10 承诺
- MySQL与Oracle主键Query性能测试结果
- 树(前序,中序,后序)
- 国二c语言程序,国家计算机二级c语言题库及答案
- 魔方教学系统(基于QT)
- Android蓝牙开发 — 经典蓝牙BLE蓝牙
- k8s.io/client-go@v0.20.2/tools/cache/reflector.go:167: Failed to watch *v1beta1.Ingress: failed to l
- 隆云通土壤ORP传感器
- 共享池,java池,大型池,PGA,SGA 笼统概念