要处理文档,需要将一个TXT文档(如用户评论)的评论段将其所有的标点符号前后的评论都分成每一行。如:

帅府护病房,手机动画。
岁的胡思凡,是对俄方。

处理成:

帅府护病房 手机动画
岁的胡思凡 是对俄方

这样方便Python进一步对文本进行处理。通常有以下两种处理:

1 from string import punctuation
2 import re
3 lis=['帅府护病房,手机动画。','岁的胡思凡,是对俄方。']
4 b=["/".join([c for c in x if c not in punctuation])  for x in lis]
5 print(b)
6 #['帅/府/护/病/房/手/机/动/画/。', '岁/的/胡/思/凡/,/是/对/俄/方/。']
7 c=[ re.sub(r'[{}]+'.format(punctuation),'/',x ) for x in lis]
8 print(c)
9 #['帅府护病房/手机动画。', '岁的胡思凡,是对俄方。'] 

显然第一种是对每一个字进行判断,这样达不到预期,而第二种进过对punctuation的print

!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~

其实punctuation就是一个英文的标点库,那么把中文的也加进去就没有任何问题了。

1 import re
2 lis=['帅府护病房,手机动画。','岁的胡思凡,是对俄方。']
3 e=[ re.sub(r'[{}]+'.format(haha),'/',x ) for x in lis]
4 print(e)
5 for i in e:
6     ee=i.split('/')
7     print(ee)

这样print出来的结果是

['帅府护病房', '手机动画', '']
['岁的胡思凡', '是对俄方', '']

转载于:https://www.cnblogs.com/yinruyi/p/4318814.html

Python关于文本中标点符号及其他的替换相关推荐

  1. 如何用python读取文本中指定行的内容

    如何用python读取文本中指定行的内容 搜索资料 我来答 分享 新浪微博 QQ空间 浏览 5284 次 查看全文 http://www.taodudu.cc/news/show-64036.ht ...

  2. 用python统计字母个数_python统计字母个数 python 统计文本中字母个数

    python 统计文本中字母个数 作业文件等有人回答小编再发,之前发文件被屏蔽了明明转身就有一个温馨的港湾,却偏偏还要去追逐那无望的孤船. l = 0with open('file.txt', 'r' ...

  3. python过滤文本中的emoji表情

    python过滤文本中的emoji表情 最近在处理文本内容的时候发现很多文本会有特色表情,由于占位较多,想着能过滤掉就好,也不影响文本内容含义,并且对后续做语义分析也有帮助. 网上搜了下,总体还是通过 ...

  4. python提取文本中的字符串到新的txt_Python实现jieba对文本分词并写入新的文本文件,然后提取出文本中的关键词...

    版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明. Python实现jieba对文本分词并写入新的文本文件,然后提取出文本中的关键词思想 先对文本进行 ...

  5. python读取文本中的内容

    1.获取路径符 pathseq = os.path.seq 2.文本中获取内容 import os import sys from collections import OrderedDictdef ...

  6. python 去除文本中的中文、中文符号

    删除中文及中文符号的方法,网上很多是python2 的写法,现在将python3的用法记录如下. 知识点 - 正则表达式 - 中文字符库zhon.hanzi,使用命令行pip3 install zho ...

  7. 微信小程序开发——将一段文本中电话号码的中间四位替换成“*”

    match() 方法可在字符串内检索指定的值,或找到一个或多个正则表达式的匹配. Page({data: {content:'我的电话号码是:15301234567,132012314567'}, o ...

  8. Python去除文本中所有中英文标点符号

    from tqdm import tqdm import string from zhon.hanzi import punctuation as punallPun = string.punctua ...

  9. python 过滤文本中的标点符号(转)

    网上搜到的大都太复杂,最后找到一个用正则表达式实现的: import re s = "string. With. Punctuation?" # 如果空白符也需要过滤,使用 r'[ ...

最新文章

  1. 隐马尔科夫模型(HMM)解释 和 前向与后向算法[转] 讲解通俗易懂 赞
  2. 当我们说数据挖掘的时候我们在说什么
  3. Python中DataFrame关联
  4. java中截取字符串的方式
  5. Solr及Spring-Data-Solr入门学习
  6. (转)JAVA AJAX教程第三章—AJAX详细讲解
  7. 利用matlab实现SAR 图像线性拉伸显示
  8. PS提示错误1解决办法
  9. yii html 添加下拉框,php – Yii2下拉列表:在我的选项中添加像data-food =“…”这样的html标记...
  10. CDH 版本 Kafka 外网设置
  11. Clob类型转换为String
  12. centos调整页面大小_这2种方法都能调整PDF文档的纸张大小
  13. 知识付费阅读小程序源码,前端+后台+代理+分销
  14. 数据科学 IPython 笔记本 8.2 Matplotlib 的应用
  15. python文件目录提取_python-按日志提取文件并创建相关目录
  16. 用户可以通过软件对计算机,用户可以通过____软件对计算机软、硬件资源进行管理。...
  17. C#本地化国际化解决方案实现简介
  18. 线性代数(numpy.linalg)
  19. 一种基于优先级轮询调度负载均衡的crossbar结构
  20. c语言动态与静态分配内存空间的区别

热门文章

  1. beego 显示html文件,[Beego] 内置的模板函数(不同格式的字符串和html的互转)
  2. 侧边栏配置_vscode入门:熟悉vscode和初级配置
  3. 词云图可视化python_python 可视化 词云图
  4. latex公式对齐_论文中的公式如何对齐
  5. spark Bisecting k-means(二分K均值算法)
  6. NewSQL——优化的SQL存储引擎(TokuDB, MemSQL)+?
  7. Cordova error: tool 'xcodebuild' requires Xcode, but active developer directory '/Library/Deve
  8. Java7/8 中的 HashMap 和 ConcurrentHashMap 全解析
  9. flask Blueprint蓝图
  10. python爬虫鼠标模拟悬停并点击