比较笨的中文预处理 python
def clean_str(string):#半角英文特殊字符string = re.sub(r"[A-Za-z&\*\.;\?!,:\-\'\^\`/\(\)]", "", string)#去除中文特殊字符string = re.sub(r"(~)", "", string)string = re.sub(r"(《)", "", string)string = re.sub(r"(》)", "", string)string = re.sub(r"(@)", "", string)string = re.sub(r"(¥)", "", string)string = re.sub(r"(%)", "", string)string = re.sub(r"(·)", "", string)string = re.sub(r"(~)", "", string)string = re.sub(r"(、)", "", string)string = re.sub(r"(:)", "", string)string = re.sub(r"(()", "", string)string = re.sub(r"())", "", string)string = re.sub(r"(ヽ)", "", string)string = re.sub(r"(メ)", "", string)string = re.sub(r"(ノ )", "", string)string = re.sub(r"(#)", "", string)string = re.sub(r"(【)", "", string)string = re.sub(r"(】)", "", string)string = re.sub(r"(:)", "", string)string = re.sub(r"( )+", "", string)string = re.sub(r"(。)+", "。", string)string = re.sub(r"(?)+", "?", string)string = re.sub(r"(!)+", "!", string)string = re.sub(r"(;)+", ";", string)string = re.sub(r"(,)+", ",", string)#string = re.sub(r"( )+", "", string)#string = re.sub(r"\s{2,}", "", string)#中文空格是全角字符string = re.sub(r"[0-9]{1,}", "N", string)#所有的数字用N替换return string.strip()
比较笨的中文预处理 python相关推荐
- cnocr训练_cnocr: 极简的中文OCR Python包
Update 2020.04.21: 发布 cnocr V1.1.0 更轻量的 cnocr-V1.1.0 :最小模型只有 6.8M.具体说明见: BreezeDeus:更轻量的 cnocr-V1.1. ...
- python json.loads()中文问题-Python实现的json文件读取及中文乱码显示问题解决方法...
本文实例讲述了Python实现的json文件读取及中文乱码显示问题解决方法.分享给大家供大家参考,具体如下: city.json文件的内容如下: { "cities": [ { & ...
- python json.loads()中文问题-python中文编码json中文输出问题
python2.x版本的字符编码有时让人很头疼,遇到问题,网上方法可以解决错误,但对原理还是一知半解,本文主要介绍 python 中字符串处理的原理,附带解决 json 文件输出时,显示中文而非 un ...
- studioone精调效果包_cnocr: 极简的中文OCR Python包
Update 2020.04.21: 发布 cnocr V1.1.0 更轻量的 cnocr-V1.1.0 :最小模型只有 6.8M.具体说明见: BreezeDeus:更轻量的 cnocr-V1.1. ...
- python中文视频教程-中谷教育python中文视频教程(python视频教程) 完整版
中谷教育python中文视频教程(python视频教程)是一款非常好用的python中文视频教程.你是不是在找简单实用的python中文视频教程?那就来绿色先锋下载中谷教育python中文视频教程(p ...
- python中文读音-python中文谐音 Python 的中文谐音是什么?
Python 的中文谐音是什么?请尽量准确,.如:Windows:温豆斯 UNIX派森有时候,不得不假装很快乐,只是为了不让别人问你怎么了" python,英[ˈpaɪθən],美[ˈpaɪ ...
- python怎么读取中文文件-Python中使用不同编码读写txt文件详解
复制代码 代码如下: import os import codecs filenames=os.listdir(os.getcwd()) out=file("name.txt",& ...
- python语言中文社区-python语言中文
广告关闭 2017年12月,云+社区对外发布,从最开始的技术博客到现在拥有多个社区产品.未来,我们一起乘风破浪,创造无限可能. 为了得到一个可以正常返回的 url ,需要修改示例中的 secretid ...
- python语言中文社区-python中用中文
广告关闭 2017年12月,云+社区对外发布,从最开始的技术博客到现在拥有多个社区产品.未来,我们一起乘风破浪,创造无限可能. 花下猫语:在 python 中是否可以实现中文数字的四则运算呢? 答案是 ...
最新文章
- spring中IOC设计与实现
- JS 关闭window.open的窗体,并刷新父页面
- 从“等等”到“秒开”再到“直开”,是什么让闲鱼社区相见恨晚?
- 基于casperjs、resemble.js实现一个像素对比服务
- spring BeanFactory加载xml配置文件示例
- springboot集成环信sdk报错
- 学习bash的一些零碎知识总结(二)
- CentOS 6.2编译安装Nginx1.2.0+MySQL5.5.25+PHP5.3.13
- 创建txt文件_Mac电脑创建txt文件的方法
- 深度学习笔记——循环神经网络RNN/LSTM
- 渐进式加载 - 基础讲解
- Sqlserver2012卸载
- 聊聊我的Java自学之路
- x86 android armv7,说说Android项目中的armeabi,armeabi-v7a和x86
- 特别推荐BLOG(一) 程序猿DD的博客
- 网站搭建的流程是什么
- 粒子群课设_粒子群算法(人工智能结课论文)
- 【ROM制作工具】小白如何进行ROM解包,精简,修改,授权,打包详细图文教程
- 栈和队列的相同点和不同点
- Spring :singleton和protype区别
热门文章
- 第一步:Spring访问数据库(jdbcTemplate)
- 使用cos组建上传文件
- LaTeX tikz初探——利用emoji画GPS卫星2D分布图(2)
- linux mmap实例_Linux下通过共享内存和mmap实现进程间通讯(含实例)
- cartographer运行没有map_提高代码运行效率——Map的妙用
- java servlet乱码问题_Java编码和servlet乱码问题(1)-Java编码
- 积分竞猜网php源码_贵州省网络安全知识竞赛个人赛Writeup
- python实践项目(十一)
- Java21天打卡Day8-break
- android仿微信图片编辑器,electron/vue可编辑框contenteditable|仿微信截图