在文本清洗的过程,特殊符号的不规范是比较麻烦的事情,所以需要把文本中的特殊符号按照统一的标准处理。以下代码的作用就是将中文的特殊符号统一转成英文的,以及将全角符号转换成半角符号。参考代码# -*- coding: GBK -*-

import re

def strQ2B(ustring):

"""中文特殊符号转英文特殊符号"""

#中文特殊符号批量识别

pattern = re.compile('[,。:“”【】《》?;、()‘’『』「」﹃﹄〔〕—·]')

#re.compile: 编译一个正则表达式模式,返回一个模式(匹配模式)对象。

#[...]用于定义待转换的中文特殊符号字符集

fps = re.findall(pattern, ustring)

#re.findall: 搜索string,以列表形式返回全部能匹配的子串。

#对有中文特殊符号的文本进行符号替换

if len(fps) > 0:

ustring = ustring.replace(',', ',')

ustring = ustring.replace('。', '.')

ustring = ustring.replace(':', ':')

ustring = ustring.replace('“', '"')

ustring = ustring.replace('”', '"')

ustring = ustring.replace('【', '[')

ustring = ustring.replace('】', ']')

ustring = ustring.replace('《', '<')

ustring = ustring.replace('》', '>')

ustring = ustring.replace('?', '?')

ustring = ustring.replace(';', ':')

ustring = ustring.replace('、', ',')

ustring = ustring.replace('(', '(')

ustring = ustring.replace(')', ')')

ustring = ustring.replace('‘', "'")

ustring = ustring.replace('’', "'")

ustring = ustring.replace('’', "'")

ustring = ustring.replace('『', "[")

ustring = ustring.replace('』', "]")

ustring = ustring.replace('「', "[")

ustring = ustring.replace('」', "]")

ustring = ustring.replace('﹃', "[")

ustring = ustring.replace('﹄', "]")

ustring = ustring.replace('〔', "{")

ustring = ustring.replace('〕', "}")

ustring = ustring.replace('—', "-")

ustring = ustring.replace('·', ".")

"""全角转半角"""

#转换说明:

#全角字符unicode编码从65281~65374 (十六进制 0xFF01 ~ 0xFF5E)

#半角字符unicode编码从33~126 (十六进制 0x21~ 0x7E)

#空格比较特殊,全角为 12288(0x3000),半角为 32(0x20)

#除空格外,全角/半角按unicode编码排序在顺序上是对应的(半角 + 0x7e= 全角),所以可以直接通过用+-法来处理非空格数据,对空格单独处理。

rstring = ""

for uchar in ustring:

inside_code = ord(uchar)

if inside_code == 12288: #全角空格直接转换

inside_code = 32

elif (inside_code >= 65281 and inside_code <= 65374): #全角字符(除空格)根据关系转化

inside_code -= 65248

rstring += chr(inside_code)

return rstring测试代码if __name__ == "__main__":

str = '这是一个,【个人】deboke'

str_q2b = strQ2B(str)

print(str)

print(str_q2b)测试结果

参考链接:

python把中文转英文_Python 3.0_文本清洗之中文特殊符号转英文特殊符号及全角字符转半角字符...相关推荐

  1. python中文字体下载_Python在Matplotlib图中显示中文字体的操作方法

    1. 说明 本篇主要针对在Ubuntu系统中,matplotlib显示不了中文的问题,尤其是在无法安装系统字体的情况下,解决Python绘图时中文显示的问题. 2. 在系统中安装字体 $ fc-lis ...

  2. python text函数的应用_Python TextRank4ZH 应用TextRank算法对中文文本分词分句

    TextRank算法可以用来从文本中提取关键词和摘要. TextRank4ZH是针对中文文本的TextRank算法的Python算法实现. 而在TextRank4ZH库中,类TextRank4Keyw ...

  3. python把数字阿拉伯数字转换成中文10以内_Python实现把数字转换成中文

    #!/usr/bin/python #-*- encoding: utf-8 -*- import types class NotIntegerError(Exception): pass class ...

  4. python语言开发环境搭建_Python开发环境搭建-Go语言中文社区

    Python下载安装 因为pycharm是ide,是一个开发工具,运行脚本仍需要Python的解释器,所以要下载并安装Python 从Python官方网站下载64位的Windows可执行的安装文件 i ...

  5. 文本相似度计算 python去停用词_python专业方向 | 文本相似度计算

    欢迎关注我们的微信公众号"人工智能LeadAI"(ID:atleadai)步骤 1.分词.去停用词 2.词袋模型向量化文本 3.TF-IDF模型向量化文本 4.LSI模型向量化文本 ...

  6. python批量新建文件夹_python根据txt文本批量创建文件夹

    前言 前言:想写这个代码的原因是因为实习的时候需要根据表格名创建对应的文件夹,如果只是很少个数文件夹的话,ctrl+shift+n还可以接受吧,可是一次就要创建几百个文件夹,这就有点方方了.所以我写了 ...

  7. python文档字符串格式_Python字符串及文本模式方法详解

    一.你想在字符串中搜索和匹配指定的文本模式 遗漏点:re模块其实也是帮助我们进行字符串处理的重要工具,我之前总是想着用内建的函数来处理,其实如果是复杂的文本和数据结构,re模块能帮助我们处理很多信息. ...

  8. python将文字转换为语音_python实现将文本转换成语音

    1.[代码][Python]代码 # Text To Speech using SAPI (Windows) and Python module pyTTS by Peter Parente # do ...

  9. python统计重复的数_python统计一个文本中重复行数的方法

    本文实例讲述了python统计一个文本中重复行数的方法.分享给大家供大家参考.具体实现方法如下: 比如有下面一个文件 2 3 1 2 我们期望得到 2,2 3,1 1,1 解决问题的思路: 出现的文本 ...

最新文章

  1. 神经学家探寻:机器如何拥有意识!如何避免机器人伤害我们!
  2. 我的AngularJS学习轨迹
  3. 表达式类型的实现数据结构_Redis系列(九)底层数据结构之五种基础数据类型的实现...
  4. 169. Majority Element
  5. 滑动窗口在重构数据集的作用
  6. 【CF#2A】Winner(模拟 STL-map)☆
  7. 蚂蚁金服开源 SOFAJRaft:生产级 Java Raft 算法库
  8. java 拼音码_java代码将汉字转换成拼音
  9. 【389天】跃迁之路——程序员高效学习方法论探索系列(实验阶段146-2018.03.01)...
  10. vc下禁止按钮连续点击的方法
  11. java jui 正则表达式_正则表达式-Gorilla City-51CTO博客
  12. h5如何上传文件二进制流_Hadoop如何将TB级大文件的上传性能优化上百倍?
  13. linux中Chmod + X
  14. 计算机速录水平考试,汉字速录水平测试(速录证考试报名网站)
  15. Python + folium 制作美美的地图~
  16. 关于Oracle的PARALLEL MAX SEVERS参数
  17. 索迪斯携手喜茶致敬白衣天使、慰问抗疫英雄
  18. 信捷plc modbus通信
  19. 根据车牌获取信息 pom 文件
  20. TrustZone 基本信息介绍大全

热门文章

  1. 数据库设计范式实例解析
  2. 微信红包数字变化动态图片_11.11早安暖心祝福动态图片 微信朋友圈早晨问候语...
  3. 计算机二级报名学校白名单,干货丨2021机器人编程赛事+等级考试攻略之教育部白名单赛事篇...
  4. openstack rocky 安装_北京暖气安装费用-上海装修报价
  5. Linux C :C的汇编码生成
  6. pythonselenium设置_selenium 怎样设置请求头?
  7. wireshark 常用命令
  8. Cpp 对象模型探索 / 程序转化语义
  9. python循环捕捉异常_python异常捕捉以及处理
  10. mysql find()方法_Mysql find_in_set()函数使用方法