学点实用工作小技巧【Python】汉字转拼音、繁体字和简体字互转、提取字符串中的中文(英文)、判断是否纯中文(英文)
大家早上好,本人姓吴,如果觉得文章写得还行的话也可以叫我吴老师。欢迎大家跟我一起走进数据分析的世界,一起学习!
感兴趣的朋友可以关注我或者我的数据分析专栏,里面有许多优质的文章跟大家分享哦。
前言
又到了每周末知识分享环节。今天想给大家分享的是我最近刚好碰到的一些知识点,主要是对于中英文文本的一些具体的处理。
本文真的干货满满,希望大家有所收获,现在用不着也可以先收藏起来,等后面用到了就来这里Ctrl+F一下,很实用哦。
目录
- 前言
- 1 判断字符串是否纯中文
- 2 判断字符串是否纯英文
- 3 提取字符串中的中文
- 4 提取字符串中的英文
- 5 汉字转拼音
- 6 繁体字和简体字互相转换
- 简体转繁体
- 繁体转简体
- 结束语
1 判断字符串是否纯中文
这里主要就是利用到了中文(基本汉字)在Unicode编码中的范围:\u4e00-\u9fa5
,如果有一个字符不在这个范围,则说明该字符串不是纯中文。
def judge_pure_chinese(key_str):for c in key_str:if not ('\u4e00' <= c <= '\u9fa5'):return Falsereturn True
这里贴上常见字符的Unicode编码的范围:
(图源网络)
2 判断字符串是否纯英文
这里判断英文的话同样也可以用上述判断纯中文的办法,不过下面这种也可以哦,主要是利用到了英文单词在Unicode中的范围就是acsii码中的前英文字母,即在unicode的前128种。
def judge_pure_english(key_str):return all(ord(c) < 128 for c in key_str)
3 提取字符串中的中文
这里主要是用到了re模块种的sub方法,将非中文部分除去。
import redef extract_pure_chinese(key_str):return re.sub("[^\u4e00-\u9fa5]", "", key_str)
4 提取字符串中的英文
同上。
import redef extract_pure_english(key_str):return re.sub("[^A-Za-z]", "", key_str)
5 汉字转拼音
# 汉字转拼音,但是多音字不好区分(例如“美的”的拼音为meide)
import pypinyindef chinese2pinyin(key_str):result_str = ''for s in pypinyin.pinyin(key_str, style=pypinyin.NORMAL): # style=pypinyin.NORMAL表示不带声调result_str += ''.join(s)return result_str
6 繁体字和简体字互相转换
简体转繁体
def simplified2traditional(key_str):""" 将key_str中的简体字转为繁体字:param key_str: str, 需要做简繁体转换的字符串:return: str, key_str对应的繁体字"""return zhconv.convert(key_str, 'zh-hant')
繁体转简体
def traditional2simplified(key_str):""" 将key_str中的繁体字转为简体字:param key_str: str, 需要做简繁体转换的字符串:return: str, key_str对应的简体字"""return zhconv.convert(key_str, 'zh-hans')
结束语
看完这篇,还有更多知识点分享给你哦,自己慢慢找哈,就在下面链接。
推荐关注的专栏
学点实用工作小技巧【Python】汉字转拼音、繁体字和简体字互转、提取字符串中的中文(英文)、判断是否纯中文(英文)相关推荐
- Python五种实用的小技巧
本文经"机器之心"授权,禁止二次转载. 作者:Peter Nistru 机器之心编译 参与:思 最开始学 Python 时,如果我能掌握这些方法,那么代码看起来会更加优美. 在本文 ...
- 工作中这些实用的小技巧,90%的程序员不知道
工作中这些实用的小技巧,90%的程序员不知道 Linux 有些Linux命令我们是经常用的,但是这些命令有的特别长(如进入层级特别深的项目部署目录),这时就可以为这些命令定义一个别名 系统级别定义的别 ...
- Excel文件 实用操作小技巧
Excel文件实用 操作小技巧 目录 1.为Excel文件 添加打开密码 审阅 - 保护工作簿 - 保护结构和窗口-输入密码点击确定 2.为Excel文件 添加作者信息 在Exce文件 图标上右键 ...
- 程序员求职高峰期,这12条工作小技巧必看
过完春节,该拿的奖金都拿了,又到了一年一度的离职高峰期,新老手程序员纷纷走上了求职之路. 今天给所有程序员提12条工作小技巧,让你在新工作上越做越顺. 1.写文档的能力非常重要 像Spring,hib ...
- html制作nba网页,NBA篮球_实用电脑小技巧:通俗解答html 自己动手建一个非常简单的网页_沪江英语...
沪江小编:对于很多人来说,电脑应该算是使用频率最高的工具了,可是你真的会用电脑么?实用电脑小技巧,用最简单明了的方式给你无比有趣的电脑使用新体验. html是什么,什么是html通俗解答: 通俗的讲h ...
- 教师节html源码,教师节_实用电脑小技巧:通俗解答html 自己动手建一个非常简单的网页_沪江英语...
沪江小编:对于很多人来说,电脑应该算是使用频率最高的工具了,可是你真的会用电脑么?实用电脑小技巧,用最简单明了的方式给你无比有趣的电脑使用新体验. html是什么,什么是html通俗解答: 通俗的讲h ...
- 25个实用编程小技巧
点击上方"朱小厮的博客",选择"设为星标" 回复"1024"获取独家整理的学习资料 如果每个程序开发人员都只是周而复始地写代码,想必编程的工 ...
- 怎样在word文档画虚线_班级工作小技巧——怎样在word里画出美观正式的四线三格?...
低年级的语文老师要划"拼音格",英语老师要划"英文四线格",这篇图文我们就来分享一下怎样在word里划出既美观又实用的拼音四线格. 一.首先在word里插入一个 ...
- 微信11个超级实用的小技巧,值得一试
目录 1.1 微信收藏当备忘录用 1.2 保存长图 1.3 分类存放微信文件 2.1 快速备注好友姓名 2.2 取消单条朋友圈的消息提醒 2.3 查看群聊中错过的红包 3.1 去除红点 4.1 换行 ...
最新文章
- 手把手教你生成对抗网络 GAN,50 行代码玩转 GAN 模型!(附源码)
- Win7中开启Telnet命令
- Angular自学笔记(?)ViewChild和ViewChildren
- 移动互联网下一步:“深度学习”配合大数据
- 3分钟搞定 C++ if else 语句 05
- 一键洞悉员工级人效!智邦国际集团业财一体化管理系统:业财一心,基业长青
- uni-app开发:tabar组件与顶部导航栏(功能开发篇)
- 重磅! flutter视图局部更新
- Linux工作笔记029---Centos7.3 服务器下查看tomcat服务是否启动,重启,查看错误日志等基本操作
- hdu 3930 Broot 二次剩余
- 战神背光键盘如何关系_神舟战神K660E-i7D8红色背光键盘,深夜战火不熄!
- OFFICE技术讲座:段落的行是如何布局不同对齐方式的
- ZigBee入门-CC2530-实验(一)-流水灯代码
- python如何屏幕截图_Python实现屏幕截图的两种方式
- 【2022西电A测】温度检测控制仿真系统
- cmd 控制台 提示:请求的操作需要提升!
- LVS之ipvsadm命令
- 猫抓 浏览器插件安装教程,适用Chrome浏览器和Edge浏览器
- D99、大佬都在学C/C++ - D系列总纲
- 数据结构——图的十字链表实现
热门文章
- REDIS09_LBS出现背景、GEO算法介绍、算法步骤、剖析、邻近网格位置推算
- 2014年5月最后一周工作总结
- Windows Server 2016 使用 PowerShell 进行 角色和功能 安装
- 达梦DM8搭建DSC集群
- Kubernetes 1.24 - 走向成熟的 Kubernetes
- hibernate 的缓存使用问题 转
- ppt可尝试修复此演示文稿_3个工具,可轻松创建演示文稿
- buu [2019红帽杯]xx1 wp
- “人工智能”吓人的外衣之下
- 计算机软件著作评职称有用吗,软件著作权评职称有用吗