只保留文本中的中英文和符号.,其余都删除


想要只保留文本中的中英文和符号.,其余都删除吗?下面这个程序可以帮您。它简洁、高效,用python实现,只要把正则表达式换成你想要的就可以了。(python3实现)



代码实现:

import remy_file_path = 'data/百度百科语料.txt'
save_file_path = 'data/百度百科语料_去除符号.txt'
# 打开文件
my_file = open(my_file_path, 'r', encoding='utf-8')
# 只保留中英文、数字和.的正则表达式
cop = re.compile("[^\u4e00-\u9fa5^.^a-z^A-Z^0-9]")for line in my_file.readlines():string = cop.sub("", line)save_file = open(save_file_path, 'a', encoding='utf-8')save_file.write(string)save_file.flush()save_file.close()# ascii(my_file.read(3)[0]) 获取unicode编码
# 关闭文件
my_file.close()

代码说明:[^\u4e00-\u9fa5^.^a-z^A-Z^0-9] 为需要替换的字符;string = cop.sub(“”, line) 即把文本中匹配到的字符替换成空字符;my_file_path为要处理的文件,里面是文本;save_file_path为处理完成之后的文本文件。

!!只保留文本中的中英文和符号.,其余都删除相关推荐

  1. python里边的单词都表示什么_Python:只保留字符串中的单词,每个单词都在newlin上...

    您可以不使用正则表达式来执行此操作.拆分管道字符上的字符串,使用生成器表达式和inbuild string.isalpha()函数筛选出仅为字母字符的单词,并将它们连接起来以形成最终输出:old_fr ...

  2. word 2010中设置默认粘贴为 只保留文本粘贴【visio也适用于快捷键方式】

    VISIO也适用如下方式: 3. 当然也可以直接是 Ctrl + Alt + V打开选择性粘贴选项卡 来选择其中某项来粘贴也是可以的 转: word 2010中设置默认粘贴为 只保留文本粘贴 2012 ...

  3. Word 2016 用宏实现「只保留文本」粘贴

    本文旨在用 Word 2016 (其他 Microsoft Office 部分产品中也附带)中自带的宏功能实现「只保留文本」粘贴的目的. 准备工作:显示「开发工具」选项卡 ① 单击「文件」选项卡: ② ...

  4. NLP:以周杰伦的《Mojito》歌词为例字符串切分之清除一段由列表组成的字符串文本中的所有杂乱符号

    NLP:以周杰伦的<Mojito>歌词为例字符串切分之清除一段由列表组成的字符串文本中的所有杂乱符号 目录 以周杰伦的<Mojito>歌词为例字符串切分之清除一段由列表组成的字 ...

  5. ckeditor:复制内容到ckeditor时,只保留文本,忽略其样式解决方法

    ckeditor:复制内容到ckeditor时,只保留文本,忽略其样式解决方法 参考文章: (1)ckeditor:复制内容到ckeditor时,只保留文本,忽略其样式解决方法 (2)https:// ...

  6. python统计中英文字符_如何统计文本中的中英文字符数?Python帮你解决

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 以下文章来源于小蚊子数据分析 ,作者小蚊子数据分析 代码 1import stri ...

  7. c语言字符串筛选字母,【程序设计】  功能:输入一个字符串,过滤此串,只保留串中的字母字 符,并统计新生成串中包含的字母个数...

    [程序设计] 功能:输入一个字符串,过滤此串,只保留串中的字母字 符,并统计新生成串中包含的字母个数0 mlfaxk2013.03.24浏览465次分享举报 求C语言高手解救!!!!!!哪里错了?#i ...

  8. java 区分中英文,Java 区分文本中的中英文字符函数

    Java 区分文本中的中英文字符函数 复制代码 代码如下: public class EnCnTest { public static void main(String args[]) { byte ...

  9. 练习2-4:重新编写函数squeeze(s1,s2),将字符串s1中的任何字符与字符串时s2中的字符匹配的字符都删除

    #include <stdio.h> void squeeze(char s1[], char s2[]); int main(){/*练习2-4:重新编写函数squeeze(s1,s2) ...

  10. word 2010中设置默认粘贴为 只保留文本粘贴

    以前看书做笔记的时候 老老实实把重点和难点从键盘输入,现在需要看的东西多了,而且需要记的重点也多了,还采用一起那么完全靠输入,这个笔记就没有做了. 然后就改用Ctrl + C : Ctrl + V   ...

最新文章

  1. oracle ora 14452,ORA-14452的出现原因解析及解决方法
  2. p标签里面不能嵌套div
  3. free技术详解 lock_lock free的理解
  4. NuGet.org服务管理变更,提升中国用户体验
  5. Android BroadcastReceiver,广播与进程通讯,APK安装广播,获取已安装列表
  6. linux c 内存elf,gcc加入linux ELF有什么功能?
  7. moment 时间戳_【通知】2020 CATTI 考试准考证打印时间
  8. 计算机学3d建模吗,计算机三维建模与动画基础
  9. 我的docker随笔27:基于容器的sqlite测试
  10. Vmware10组建局域网
  11. SpringCloud从0到丧心病狂
  12. Java 选择视频文件对话窗口
  13. linux shell获取当前脚本所在目录
  14. Android6.0权限
  15. vue项目中将视频链接分享至推特的解决方法及踩坑记录
  16. 全栈修炼:如何从Web前端迈向全栈开发
  17. R语言 数据正态化+标准化
  18. 600岁的故宫,已经越来越飘了!
  19. android探索宇宙app,AR研学星系探索app
  20. 22考研:学长学姐考研期间最后悔的事!引以为戒

热门文章

  1. Python Excel xlsx,xls,csv 格式互转
  2. 微信小程序token使用(首页获取不到token)
  3. 【C++】STL学习小总结
  4. 主板24pin接口详图_老电源也兼容 简单DIY 24Pin转接线
  5. 图像处理: 五种 插值法
  6. 运动目标检测方法综述
  7. SM6125平台扩容camera id的修改方法
  8. python实现英文新闻摘要自动提取_“关键字”法完成新闻摘要提取
  9. 通过ajax获取对象后动态插入文本框
  10. 什么是CBR,VBV,CPB