def clean_str(string):#半角英文特殊字符string = re.sub(r"[A-Za-z&\*\.;\?!,:\-\'\^\`/\(\)]", "", string)#去除中文特殊字符string = re.sub(r"(~)", "", string)string = re.sub(r"(《)", "", string)string = re.sub(r"(》)", "", string)string = re.sub(r"(@)", "", string)string = re.sub(r"(¥)", "", string)string = re.sub(r"(%)", "", string)string = re.sub(r"(·)", "", string)string = re.sub(r"(~)", "", string)string = re.sub(r"(、)", "", string)string = re.sub(r"(:)", "", string)string = re.sub(r"(()", "", string)string = re.sub(r"())", "", string)string = re.sub(r"(ヽ)", "", string)string = re.sub(r"(メ)", "", string)string = re.sub(r"(ノ )", "", string)string = re.sub(r"(#)", "", string)string = re.sub(r"(【)", "", string)string = re.sub(r"(】)", "", string)string = re.sub(r"(:)", "", string)string = re.sub(r"( )+", "", string)string = re.sub(r"(。)+", "。", string)string = re.sub(r"(?)+", "?", string)string = re.sub(r"(!)+", "!", string)string = re.sub(r"(;)+", ";", string)string = re.sub(r"(,)+", ",", string)#string = re.sub(r"( )+", "", string)#string = re.sub(r"\s{2,}", "", string)#中文空格是全角字符string = re.sub(r"[0-9]{1,}", "N", string)#所有的数字用N替换return string.strip()

比较笨的中文预处理 python相关推荐

  1. cnocr训练_cnocr: 极简的中文OCR Python包

    Update 2020.04.21: 发布 cnocr V1.1.0 更轻量的 cnocr-V1.1.0 :最小模型只有 6.8M.具体说明见: BreezeDeus:更轻量的 cnocr-V1.1. ...

  2. python json.loads()中文问题-Python实现的json文件读取及中文乱码显示问题解决方法...

    本文实例讲述了Python实现的json文件读取及中文乱码显示问题解决方法.分享给大家供大家参考,具体如下: city.json文件的内容如下: { "cities": [ { & ...

  3. python json.loads()中文问题-python中文编码json中文输出问题

    python2.x版本的字符编码有时让人很头疼,遇到问题,网上方法可以解决错误,但对原理还是一知半解,本文主要介绍 python 中字符串处理的原理,附带解决 json 文件输出时,显示中文而非 un ...

  4. studioone精调效果包_cnocr: 极简的中文OCR Python包

    Update 2020.04.21: 发布 cnocr V1.1.0 更轻量的 cnocr-V1.1.0 :最小模型只有 6.8M.具体说明见: BreezeDeus:更轻量的 cnocr-V1.1. ...

  5. python中文视频教程-中谷教育python中文视频教程(python视频教程) 完整版

    中谷教育python中文视频教程(python视频教程)是一款非常好用的python中文视频教程.你是不是在找简单实用的python中文视频教程?那就来绿色先锋下载中谷教育python中文视频教程(p ...

  6. python中文读音-python中文谐音 Python 的中文谐音是什么?

    Python 的中文谐音是什么?请尽量准确,.如:Windows:温豆斯 UNIX派森有时候,不得不假装很快乐,只是为了不让别人问你怎么了" python,英[ˈpaɪθən],美[ˈpaɪ ...

  7. python怎么读取中文文件-Python中使用不同编码读写txt文件详解

    复制代码 代码如下: import os import codecs filenames=os.listdir(os.getcwd()) out=file("name.txt",& ...

  8. python语言中文社区-python语言中文

    广告关闭 2017年12月,云+社区对外发布,从最开始的技术博客到现在拥有多个社区产品.未来,我们一起乘风破浪,创造无限可能. 为了得到一个可以正常返回的 url ,需要修改示例中的 secretid ...

  9. python语言中文社区-python中用中文

    广告关闭 2017年12月,云+社区对外发布,从最开始的技术博客到现在拥有多个社区产品.未来,我们一起乘风破浪,创造无限可能. 花下猫语:在 python 中是否可以实现中文数字的四则运算呢? 答案是 ...

最新文章

  1. spring中IOC设计与实现
  2. JS 关闭window.open的窗体,并刷新父页面
  3. 从“等等”到“秒开”再到“直开”,是什么让闲鱼社区相见恨晚?
  4. 基于casperjs、resemble.js实现一个像素对比服务
  5. spring BeanFactory加载xml配置文件示例
  6. springboot集成环信sdk报错
  7. 学习bash的一些零碎知识总结(二)
  8. CentOS 6.2编译安装Nginx1.2.0+MySQL5.5.25+PHP5.3.13
  9. 创建txt文件_Mac电脑创建txt文件的方法
  10. 深度学习笔记——循环神经网络RNN/LSTM
  11. 渐进式加载 - 基础讲解
  12. Sqlserver2012卸载
  13. 聊聊我的Java自学之路
  14. x86 android armv7,说说Android项目中的armeabi,armeabi-v7a和x86
  15. 特别推荐BLOG(一) 程序猿DD的博客
  16. 网站搭建的流程是什么
  17. 粒子群课设_粒子群算法(人工智能结课论文)
  18. 【ROM制作工具】小白如何进行ROM解包,精简,修改,授权,打包详细图文教程
  19. 栈和队列的相同点和不同点
  20. Spring :singleton和protype区别

热门文章

  1. 第一步:Spring访问数据库(jdbcTemplate)
  2. 使用cos组建上传文件
  3. LaTeX tikz初探——利用emoji画GPS卫星2D分布图(2)
  4. linux mmap实例_Linux下通过共享内存和mmap实现进程间通讯(含实例)
  5. cartographer运行没有map_提高代码运行效率——Map的妙用
  6. java servlet乱码问题_Java编码和servlet乱码问题(1)-Java编码
  7. 积分竞猜网php源码_贵州省网络安全知识竞赛个人赛Writeup
  8. python实践项目(十一)
  9. Java21天打卡Day8-break
  10. android仿微信图片编辑器,electron/vue可编辑框contenteditable|仿微信截图