Python关于文本中标点符号及其他的替换
要处理文档,需要将一个TXT文档(如用户评论)的评论段将其所有的标点符号前后的评论都分成每一行。如:
帅府护病房,手机动画。
岁的胡思凡,是对俄方。
处理成:
帅府护病房 手机动画
岁的胡思凡 是对俄方
这样方便Python进一步对文本进行处理。通常有以下两种处理:
1 from string import punctuation 2 import re 3 lis=['帅府护病房,手机动画。','岁的胡思凡,是对俄方。'] 4 b=["/".join([c for c in x if c not in punctuation]) for x in lis] 5 print(b) 6 #['帅/府/护/病/房/手/机/动/画/。', '岁/的/胡/思/凡/,/是/对/俄/方/。'] 7 c=[ re.sub(r'[{}]+'.format(punctuation),'/',x ) for x in lis] 8 print(c) 9 #['帅府护病房/手机动画。', '岁的胡思凡,是对俄方。']
显然第一种是对每一个字进行判断,这样达不到预期,而第二种进过对punctuation的print
!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~
其实punctuation就是一个英文的标点库,那么把中文的也加进去就没有任何问题了。
1 import re 2 lis=['帅府护病房,手机动画。','岁的胡思凡,是对俄方。'] 3 e=[ re.sub(r'[{}]+'.format(haha),'/',x ) for x in lis] 4 print(e) 5 for i in e: 6 ee=i.split('/') 7 print(ee)
这样print出来的结果是
['帅府护病房', '手机动画', '']
['岁的胡思凡', '是对俄方', '']
转载于:https://www.cnblogs.com/yinruyi/p/4318814.html
Python关于文本中标点符号及其他的替换相关推荐
- 如何用python读取文本中指定行的内容
如何用python读取文本中指定行的内容 搜索资料 我来答 分享 新浪微博 QQ空间 浏览 5284 次 查看全文 http://www.taodudu.cc/news/show-64036.ht ...
- 用python统计字母个数_python统计字母个数 python 统计文本中字母个数
python 统计文本中字母个数 作业文件等有人回答小编再发,之前发文件被屏蔽了明明转身就有一个温馨的港湾,却偏偏还要去追逐那无望的孤船. l = 0with open('file.txt', 'r' ...
- python过滤文本中的emoji表情
python过滤文本中的emoji表情 最近在处理文本内容的时候发现很多文本会有特色表情,由于占位较多,想着能过滤掉就好,也不影响文本内容含义,并且对后续做语义分析也有帮助. 网上搜了下,总体还是通过 ...
- python提取文本中的字符串到新的txt_Python实现jieba对文本分词并写入新的文本文件,然后提取出文本中的关键词...
版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明. Python实现jieba对文本分词并写入新的文本文件,然后提取出文本中的关键词思想 先对文本进行 ...
- python读取文本中的内容
1.获取路径符 pathseq = os.path.seq 2.文本中获取内容 import os import sys from collections import OrderedDictdef ...
- python 去除文本中的中文、中文符号
删除中文及中文符号的方法,网上很多是python2 的写法,现在将python3的用法记录如下. 知识点 - 正则表达式 - 中文字符库zhon.hanzi,使用命令行pip3 install zho ...
- 微信小程序开发——将一段文本中电话号码的中间四位替换成“*”
match() 方法可在字符串内检索指定的值,或找到一个或多个正则表达式的匹配. Page({data: {content:'我的电话号码是:15301234567,132012314567'}, o ...
- Python去除文本中所有中英文标点符号
from tqdm import tqdm import string from zhon.hanzi import punctuation as punallPun = string.punctua ...
- python 过滤文本中的标点符号(转)
网上搜到的大都太复杂,最后找到一个用正则表达式实现的: import re s = "string. With. Punctuation?" # 如果空白符也需要过滤,使用 r'[ ...
最新文章
- 隐马尔科夫模型(HMM)解释 和 前向与后向算法[转] 讲解通俗易懂 赞
- 当我们说数据挖掘的时候我们在说什么
- Python中DataFrame关联
- java中截取字符串的方式
- Solr及Spring-Data-Solr入门学习
- (转)JAVA AJAX教程第三章—AJAX详细讲解
- 利用matlab实现SAR 图像线性拉伸显示
- PS提示错误1解决办法
- yii html 添加下拉框,php – Yii2下拉列表:在我的选项中添加像data-food =“…”这样的html标记...
- CDH 版本 Kafka 外网设置
- Clob类型转换为String
- centos调整页面大小_这2种方法都能调整PDF文档的纸张大小
- 知识付费阅读小程序源码,前端+后台+代理+分销
- 数据科学 IPython 笔记本 8.2 Matplotlib 的应用
- python文件目录提取_python-按日志提取文件并创建相关目录
- 用户可以通过软件对计算机,用户可以通过____软件对计算机软、硬件资源进行管理。...
- C#本地化国际化解决方案实现简介
- 线性代数(numpy.linalg)
- 一种基于优先级轮询调度负载均衡的crossbar结构
- c语言动态与静态分配内存空间的区别
热门文章
- beego 显示html文件,[Beego] 内置的模板函数(不同格式的字符串和html的互转)
- 侧边栏配置_vscode入门:熟悉vscode和初级配置
- 词云图可视化python_python 可视化 词云图
- latex公式对齐_论文中的公式如何对齐
- spark Bisecting k-means(二分K均值算法)
- NewSQL——优化的SQL存储引擎(TokuDB, MemSQL)+?
- Cordova error: tool 'xcodebuild' requires Xcode, but active developer directory '/Library/Deve
- Java7/8 中的 HashMap 和 ConcurrentHashMap 全解析
- flask Blueprint蓝图
- python爬虫鼠标模拟悬停并点击