要点:

中文去标点符号,中文繁体字转化简体字,列表检测并输出重复项,list当多个相同值时索引

安装包:

关于去标点,使用包 zhon,直接pip即可

安装及使用:https://blog.csdn.net/spring_willow/article/details/80211243#%E4%BA%8C%E4%B8%AD%E6%96%87%E6%96%87%E6%9C%AC%E5%8E%BB%E9%99%A4%E6%A0%87%E7%82%B9%E7%AC%A6%E5%8F%B7

关于中文繁简转换,安装opencc-python

安装及使用:https://pypi.org/project/opencc-python-reimplemented/

代码:

# -*- coding: utf-8 -*-
# @Author: zhr
# @Date:   2019-10-25 20:26:04
# @Last Modified by:   zhr
# @Last Modified time: 2019-10-25 21:43:29
from opencc import OpenCC
from zhon.hanzi import punctuation
import os
import ref = open("laoliangjia.txt", "r", encoding="utf-8")
text = f.readlines()
text = str(text[0])   # 转化为字符串,注意text为只有一个元素的列表
text = re.sub(r"[%s]+" %punctuation, "", text)   # 去标点
print(text[:100], "\n")cc = OpenCC("t2s")
text2 = cc.convert(text)   # 转简体text_list = list(text)
text2_list = list(text2)   # 字符串变列表
n = 0
for w in text_list:        # 找两列表不一样,即繁体字数量if w not in text2_list:n += 1
print(n, "\n")     print(len(text_list), " ", len(text2_list))   # 字数num = 0  # 同字个数
for i in range(len(text2_list)):   if text2_list[i] in text2_list[i+1:]:   # 如果该字在其后面的列表中出现print(text2_list[i], text2_list[i-(i%4):i-(i%4)+4])  # 输出四字index2 = text2_list.index(text2_list[i], i+1)   # 索引print(text2_list[index2], text2_list[index2-(index2%4):index2-(index2%4)+4])   # 重复的字所在四字num += 1
print(num)

list.index() 方法,第一个参数为值,第二三(可选)分别为查找的开始和终点位置

对于有重复值的list索引,另一种更直接的方法,采用enumerate():

https://www.cnblogs.com/alex-bn-lee/p/10556354.html

结果:

附文本:中华字经(郭保华)(部分)

乾坤有序,宇宙无疆,星辰密布,斗柄指航。昼白夜黑,日明月亮,风驰雪舞,电闪雷响。云腾致雨,露结晨霜,虹霓霞辉,雾沉雹降。春生夏长,秋收冬藏,时令应候,寒来暑往。远古洪荒,海田沧桑,陆地漂移,板块碰撞。山岳巍峨,湖泊荡漾,植被旷野,岛撒汪洋。冰川冻土,沙漠沃壤,木丰树森,岩多滩广。鸟飞兽走,鳞潜羽翔,境态和谐,物种安详。形分上下,道合阴阳,幽冥杳渺,天体著彰。凝气为精,聚能以场,缩浓而质,积微显量。化巨幻虚,恍惚成象,强固凌弱,柔亦制刚。终极必反,存兴趋亡,色空轮回,动静恒常。唯实众名,一理万方,父母爹娘,没齿难忘。兄弟姐妹,危困助帮,姑姨叔舅,亲戚互访。侄男闺少,哺育茁壮,夫妻相敬,梦忆糟糠。隔屋邻舍,遇事谦谅,伯公妪婆,慈孝赡养。尊朋礼友,仁义君郎,炎黄二帝,尧舜禅让。禹启世袭,灭桀商汤,周武伐纣,侯列各邦。秦皇集权,汉刘楚项,鼎立割据,乱晋八王。南北对峙,腐朽隋炀,贞观政要,五代续唐。陈桥兵变,耻辱靖康,耶律完颜,元建宋僵。钟离太祖,崇祯吊丧,清军入关,大臣驻藏。粉碎叛卓,犁域设将,台湾复归,守卫边防。鸦片战争,英占香港,戊戌维新,社会改良。辛亥革命,孙文思想,联盟抗倭,国共两党。定都京师,人民解放,诸子百家,孔孟老庄。扁鹊灵医,鲁班巧匠,罗盘硝药,针灸疗伤。蔡伦毕升,鉴真玄奘,易经论语,史记达畅。河图洛书,算术九章,西三红水,聊儒瓶厢。诗词曲赋,戏剧说唱,琵琶琴瑟,锣镲铿锵。笙箫呜咽,卧笛悠扬,筝音奔奋,唢呐高亢。荆浩匡庐,董源潇湘,米芾写意,悲鸿骏昂。笔墨纸砚,匾楣楹榜,楷隶篆刻,碑帖草狂。敦煌石窟,长城伟墙,青铜甲骨,缕衣纱裳。虎符越剑,陶马俑葬,彩瓷宝瓮,丝绸他乡。凡尔赛宫,金字塔状,泰姬陵墓,彼得教堂。自由女神,希腊塑像,最后晚餐,创造亚当。亭榭楼阁,寺庙殿廊,蓬门荜户,丈室绿窗。府弟别墅,画栋雕梁,庭院踏步,影屏幕障。承尘藻井,篱笆柱桩,舷舵扶靠,凭栏眺望。悬崖峭壁,峰峦叠嶂,泉喷岚罩,湍急瀑宕。峡沟潭渊,溪涧流淌,池渠堰坝,沼泽泥塘。漩涡带波,礁屿连江,汹涌澎湃,惊涛骇浪。灾涝溢泻,汛潮浮涨,苍松寿柏,垂柳毛杨。芭蕉蒲扇,斑竹篾筐,槐椿榆桦,杉桂榕樟,斋扉紧闭,栅苑濒旁,坪埔莱茵,菲窥坞坊。蔷薇翩跹,莆菏蔚茫,蕴蒂荚芯,蓓蕾琳琅。奇花异卉,艳丽荣秧,兰荷菊梅,四季芬芳。杜鹃泣血,芙蓉吉祥,茉莉馥郁,玫瑰刺芒。瓜果蔬菜,葱蒜韭姜,茴椒芹葵,皮芥辣酱。芸苔芋笋,葫芦瓢瓤,番茄蘑菇,乳蛋醇酿。碘盐食醋,脆卜甜糖,珍馐旨甘,肴馔膏粱。葡萄美酒,玉液琼浆,咖啡益智,茗茶顺肠。桃李杏柿,汁鲜味爽,椰柚橙桔,渴饮品尝。菠萝柑橘,橄榄槟榔,梨枣苹楂,荔栗榴棠。蝌蚪摆尾,蛤蟆鼓囊,钓饵蚯蚓,蠕虫蚂蟥。鹦鹉学舌,蜜蜂穿忙,蝙蝠栖洞,梧桐引凰。蜘蛛牵补,螟蛉蛀粮,蜻蜓振翅,鸠鹏张膀。鸥莺燕雀,蝴蝶鸳鸯,鲤鲫鲇鲸,蛙蚌螺螃。蚜蛾蝉蛹,龟卵翼蝗,蚊蝇鼠蚁,蛇蝎鳝蟒。蜈蚣毒腺,蟋蟀蹬闯,鹿狈狐狸,熊豹豺狼。猿啼猴吱,鸵孵獭躺,雏猩攀梢,雌牡匿冈。砂舟骆驼,迅捷羚羊。中畢初繁,睡狮渐醒,玖久紀末,千年始零。宏業昌盛,妙策递迎,左右兼顧,總揽統領。内取稳進,外交志同,階梯過度,切忌狠猛。六贼七害,监視審聽,戒贪须效,践约宜行。貶恶褒绩,赏劝罚惩,操刃执斧,塞涓救荧。势如突起,抽薪熄平,途逢险兆,消芽于萌。调息止纷,贵在用衡,依法谋治,官吏皆正。推贤荐材,睹貌辨容,纯朴宽厚,侠烈尽忠。耿直肃仪,襟怀袒诚,谄媚狡猾,机敏慧颖。懈怠懒惰,拙笨碌庸,愚昧糊涂,偏才至聪。羞涩拘束,杰健悍雄,恭谨畏惧,缄默持重。骄奢傲慢,怯懦惶恐,超逸独居,恬淡匀宁。猜疑诡秘,威严毅勇,币帛钱钞,攘夺其宗。企财盼利,价值均等,务工开厂,增富减穷。资产累计,税率加乘,银行贷款,储蓄倍宠。抵押拆借,循例不停,供给需求,市货充盈。销售买卖,亏差余剩,债券股票,博赌输赢。闻赚虽喜,跌赔癫疯,休闲退优,涣虑受逍。拒宾疏客,忧谢欢招,把盏讲趣,倚床读晓。游景筏渡,迹绝喧嚣,茂冠蔽枝,莽园出条。碧岭滴翠,落叶飘摇,心澄彻透,雅悦去燥。挥毫绎就,佳句抒了,漆珠镶眸,秀眉斜弯。樱口含笑,脂靥隐现,敖鼻单翘,坠耳双环。舒额弹腮,龙睛凤眼,纤手藕臂,软颈削肩。乌发比臀,酥胸腰间,修腿负躯,弓脚婷站。沐浴洁身,梳妆乔扮,薄黛轻施,靓耀矫莲。服锦饰佩,缤绫绣缎,赞叹称颂,宛若娥仙。阿弥陀佛,觉悟融圆,僧尼寂寞,菩萨向善。情投系姻,欲净见缘,转识迷性,苦乐恼烦。圣诞基督,原罪赎还,目的辩证,裁判邪端。朝觐跪拜,先知注传,我主保佑,好娃阿丹。格林童话,伊索寓言,莎翁托氏,福摩探案。但丁哥德,伽丘十谈,培根牛顿,爱因斯坦。试管婴儿,克隆遗传,细胞速冷,脱氧核酸。脉冲数码,几何规范,网络通讯,程控遥感。驱逐舰艇,洲际导弹,激光辐射,捆绑火箭。声纳测距,贫铀污染,点线面段,球弧侧弦。菱锥棱角,凸凹顶尖,竖撇捺折,陡拱椭圈。奥运竞技,淘汰筛选,跨跃短跑,蹦跳撑竿。铁饼标枪,垒足排篮,汽车拉力,驾舢驶帆。刀锤棍棒,钩爪杖鞭,锁链杠铃,摔跤击拳。省区署郊,村镇屯店,耕耘耧耙,播耪搅拌。农垦灌溉,渔猎驳船,柴棚炊热,牧畜粪烟。膜压窖湿,肥攻磷氮,穴浇尿深,灰埋屎浅。稻麦谷豆,蓖麻薯棉,粟苞芝麸,秫秸稼秆。糜黍荸荠,蓑稗蔗豌,埂堤垄畦,荞秕稞旱。禾苗缨穗,蔓附藤缠,棕榈柠檬,枫棵紫檀。剪丫打杈,嫁接插扦,颗粒籽核,株蕊茎杆。鸡鸭抱群,猪仔满圈,驴骡啃坡,犬狗护岸。厩驹罕鬃,馴犊乍唤,鱼鳖虾蟹,猫兔鹅蚕。旋绕鹰鸽,哀孤鹤雁,宿营扎寨,枕戈待旦。哨岗戎诫,挎锐披坚,帥旗挺拔,訓士閱演。磐踞較勁,擎帜呼喊,偽装跟踪,信号遮掩。稍纵即逝,竟忽瞬暂,驭舆骋骛,靶轰州县。趁却骚扰,构筑壕堑,謀報频渗,御挡阻拦。耗损酬飼,迈历委艰,垢卸焚址,盔甩烬焰。擒敌破阵,調派遣返,围追堵截,伏剿全歼。崭旅另召,蜕衰勿厌,碉堡摧毁,拥挤逃窜。俘虏缴械,勝敗前沿,枉允肯否,咀嚼凯宴。惨遭牺牲,素裹席卷,坟棺尸鬧,魂魄寝眠。活着祈祷,死則祭奠,廉奉殉职,奖功頒衔。組織筹备,抚恤申签,部属僚員,涕泪潸然。彪炳铭册,炫烁灿烂。

Python检测重复字——部分中华字经重复字检测相关推荐

  1. 直到输到-1停止 c语言,python新人求助raw_input()问题,不断提示输入字元或数字直到输入空值停止提示。...

    python新人求助raw_input()问题,不断提示输入字元或数字直到输入空值停止提示.以下文字资料是由(历史新知网www.lishixinzhi.com)小编为大家搜集整理后发布的内容,让我们赶 ...

  2. php检测txt中重复数据,Python实现检测文件的MD5值来查找重复文件案例

    平时学生交上机作业的时候经常有人相互复制,直接改文件名了事,为了能够简单的检测这种作弊行为,想到了检测文件的MD5值,虽然对于抄袭来说作用不大,但是聊胜于无,以后可以做一个复杂点的. # coding ...

  3. python菜鸟学习Day9(requests,套接字socket)

    requests是一个基于http协议访问网络的第三方库. 例子:调用天行数据美女接口下载图片,写入文件. import requests from threading import Thread c ...

  4. 扬州python培训班哪家_扬是什么意思 带扬字的男孩名字 用扬字起名的寓意

    扬是什么意思 带扬字的男孩名字 用扬字起名的寓意 最近有31355位用户和你一起关注了这篇文章 带扬字的男孩名字,用扬字起名: 扬 (yáng):扬表示飞起.升高.扬厉. 繁体:揚.敭; 部首:扌,扬 ...

  5. 凯撒加密的python语言程序_凯是什么意思 凯字五行属什么

    凯字取名属性及五行属什么: 凯字的拼音:kai 凯的繁体字:凱(若无繁体,则显示本字) 凯字的起名笔画数:12 凯五行属什么:木 凯字的取名数理吉凶:吉 凯是否为姓氏:是 说明:"凯&quo ...

  6. python代码图片头像_Python玩微信——头像组字篇

    正好今天有位老哥过生日,结合着微信头像和点阵字,搞了个头像拼字的代码,朋友圈九宫格效果如下: 其中,每个字都是16*16的点阵,点阵中每个点可以拆解为4个好友头像图片: 代码中汉字文本可以自定义输入, ...

  7. 含类定义的完整python程序_含是什么意思 带含字的女孩名字 用含字起名的寓意...

    带含字的女孩名字,用含字起名: 含 (hán):含表示容纳.包容.怀有. 繁体:无繁体字; 部首:口,含为上下结构,姓名学笔画7画. 声调:阳平; 部首五行属水; 数理五行属金. 含81数理:(精悍) ...

  8. python表单防重复提交_防止表单重复提交的几种策略

    表单重复提交是在多用户Web应用中最常见.带来很多麻烦的一个问题.有很多的应用场景都会遇到重复提交问题,比如: 点击提交按钮两次. 点击刷新按钮. 使用浏览器后退按钮重复之前的操作,导致重复提交表单. ...

  9. python怎么筛选excel数据_python筛选数据excel表格-如何利用python提取两个excel对比后的重复值的信息?...

    怎么用python读取excel表格的数据 import xlrd #open the .xls file xlsname="test.xls" book = xlrd.open_ ...

  10. python删除重复值所在的行数_使用python读取txt文件的内容,并删除重复的行数方法...

    注意,本文代码是使用在txt文档上,同时txt文档中的内容每一行代表的是图片的名字. #coding:utf-8 import shutil readDir = "原文件绝对路经" ...

最新文章

  1. 【多线程】ConcurrentLinkedQueue 的实现原理
  2. 如何保护自己的android app
  3. UVa11853 Paintball
  4. 向数组添加元素 java_java如何向数组里添加元素
  5. 马冬晗学习计划表_一年时间提升学习和工作能力,我做对了这3点
  6. bootstrap-fileinput 简单使用
  7. LCD驱动 15-1
  8. c++ const
  9. # 遍历结构体_关于二叉树怎样建立和四种遍历方法你知道吗?
  10. 嵌入式开发与C++开发的区别是什么?
  11. python——item()返回可遍历的(键,值)元组数据
  12. ConcurrentLinkedQueue 的outofMemory错误解决方案
  13. 汇总|实时性语义分割算法(共24篇)
  14. combobox的method是get为什么发的请求是post_深入理解http get和post请求的区别,读完之后,大部分程序员收藏了...
  15. 已知二叉树的后序和中序遍历结果 求前序结果
  16. KITTI Benchmark原理_距离误差百分数
  17. 行业分析常用到的21个网站
  18. android bluez 编译,[android源码分析]bluez起动过程中的各种plugin的初始化(一)-bluetooth_builtin数组所耍的花样...
  19. Seo搜索引擎优化概述
  20. 【线性代数·浅学】(一)行列式——n阶行列式定义,行列式性质,行列式展开定理,拉普拉斯定理,范德蒙德行列式,克拉默法则

热门文章

  1. InternetDownloadManager(6.30.8)下载利器IDM破解版
  2. SCI写作Response to reviewers 范例
  3. 高性能软件系统设计中应该考虑的问题
  4. 行业研究报告-全球与中国白光LED电子皮镜市场现状及未来发展趋势
  5. 判断闰年的3种方法(判断+范围输出)
  6. WTS考勤系统报表实现原理
  7. 北大MBA夫妇不满现有教育系统 携女隐居终南山
  8. 引导页如何在pc端实现
  9. 1g1h1m mysql_mysql服务器优化
  10. 网页版html怎么设置合适iPad,html – iPad缩放以适应在内容最少的网页上不起作用...