在工作中常常遇到很多特殊的标点符号,像中文标点符号,英文标点符号。英文的标点符号比较容易过滤,而过滤中文的标点符号较麻烦。下面是从邮件中过滤特殊符号的方式供参考。

下面是1封垃圾邮件的过滤实例:

"想做/ 兼_职/学生_/ 的 、加,我Q:  1 5.  8 0. !!??  8 6 。0.  2。 3     有,惊,喜,哦"

邮件中的“!?。、”都是中文的,而“/.”是英文的

下面是过滤方式:

#-*-coding:utf⑻-*-

import re

temp = "想做/ 兼_职/学生_/ 的 、加,我Q: 1 5. 8 0. !!?? 8 6 。0. 2。 3 有,惊,喜,哦"

temp = temp.decode("utf8")

string = re.sub("[s+.!/_,$%^*(+"']+|[+――!,。?、~@#¥%……&*()]+".decode("utf8"), "".decode("utf8"),temp)

print string

过滤后的效果以下:

想做兼职学生的加我Q158086023有欣喜哦

处理成上述格式后就容易进行分词分析处理了。

python标点符号全是英文吗_python 过滤中文、英文标点特殊符号相关推荐

  1. HTML5印章绘制电子签章图片,中文英文椭圆章、中文英文椭圆印章

    HTML5印章绘制电子签章图片,中文英文椭圆章.中文英文椭圆印章 原文:HTML5印章绘制电子签章图片,中文英文椭圆章.中文英文椭圆印章 电子签章图片采集 印章图片的采集两种互补方式: 方式1:在线生 ...

  2. HTML5印章绘制电子签章图片(中文英文椭圆章、中文英文椭圆印章)

    HTML5印章绘制电子签章图片(中文英文椭圆章.中文英文椭圆印章) 这篇文章主要介绍了HTML5印章绘制电子签章图片(中文英文椭圆章.中文英文椭圆印章),文中通过示例代码介绍的非常详细,对大家的学习或 ...

  3. python怎么处理中英文符号网名_python 过滤中文、英文标点特殊符号

    在工作中经常遇到很多特殊的标点符号,像中文标点符号,英文标点符号.英文的标点符号比较容易过滤,而过滤中文的标点符号较麻烦.下面是从邮件中过滤特殊符号的方式供参考. 下面是一封垃圾邮件的过滤实例: &q ...

  4. python分割字符串中文_python 分割中文英文混合字符串的正确方法

    python 里的字符编码不统一导致中英文的处理有不同的结果,下面介绍中文英文混合字符串 split 的方法. 分割词 #!/usr/bin/env python # -*- coding: utf- ...

  5. python编写英文字典_python如何制作英文字典

    python如何制作英文字典 发布时间:2020-09-18 09:23:03 来源:脚本之家 阅读:106 作者:黑脉金 本文实例为大家分享了python制作英文字典的具体代码,供大家参考,具体内容 ...

  6. python怎么把特殊字符打出来_python 过滤特殊字符 (emoji)

    1 前提背景 通过爬虫获取到的数据,要存入数据库,由于数据库的编码问题,一些特殊字符出现错误,无法进入数据库 解决办法:过滤掉这些特殊字符,包含emoji表情等各种特殊字符 2 剔除除中英文及数字外的 ...

  7. python爬取小说出现乱码_Python爬虫中文小说网点查找小说并且保存到txt(含中文乱码处理方法)...

    从某些网站看小说的时候经常出现垃圾广告,一气之下写个爬虫,把小说链接抓取下来保存到txt,用requests_html全部搞定,代码简单,容易上手. 中间遇到最大的问题就是编码问题,第一抓取下来的小说 ...

  8. php 正则 中文英文,php 用户名正则表达式(中文,英文,数字,字母)

    由字母a-z(不区分大小写).数字0-9.减号或下划线组成,只能以数字或字母开头和结尾 用户名长度为4-18个字符:^[a-za-z0-9]{1}[a-za-z0-9|-|_]{2-16}[a-za- ...

  9. HTML5印章绘制电子签章图片,中文英文椭圆章、中文英文椭圆印章 电子签章图片采集

    电子签章图片采集 印章图片的采集两种互补方式: 方式1:在线生成印章图片方式,但是这种方式有个弊端,对印章中公司名称字数有限制,字数越多可能就完蛋了. 方式2:上传印章扫描件,系统来对扫描图片进行处理 ...

  10. php去除英文和标点,php 过滤英文标点符号及过滤中文标点符号代码_php技巧

    php 过滤英文标点符号 过滤中文标点符号 代码 function filter_mark($text){ if(trim($text)=='')return ''; $text=preg_repla ...

最新文章

  1. 聊聊jesque的几个dao
  2. 升级IOS8游戏上传自定义头像功能失效的问题
  3. 2019北京高考分数分布一览表(成绩分布统计)
  4. 正确地使用投影仪和移动硬盘
  5. 免费下载 | 超级APP背后的移动端技术大揭秘
  6. MongoDB Driver:使用正确的姿势连接复制集
  7. JavaScript中使Promise模式进行异步编程
  8. 根据网页地址获取页面内容
  9. 前端学习(3347):数组方法的运用和总结稀疏数组
  10. 稀疏内存模型sparsemem memory model | 文章
  11. 【转】位操作基础篇之位操作全面总结
  12. js中eval的用法
  13. JAVA-JDK环境变量配置
  14. 永中office linux卸载,永中office Linux版
  15. 资源下载网站整站资源|建站6万资源数据32G整站下载
  16. 易安卓手机APP教程
  17. H5端嵌入公众号后,修改头部标题
  18. ios项目编译错误:error: Multiple commands produce 'Faun.app/Assets.car'
  19. Mysql——》索引存储模型推演
  20. 连接网络显示dns服务器不可用,上不了网,提示DNS服务器不可用如何解决

热门文章

  1. USACO Section 1.2 Name That Number
  2. ASP.NET分类信息站全站制作视频教程5(AJAX+SQLITE+生成静态HTML)
  3. 1. JavaScript Array 对象
  4. java爬虫技术怎么学_java网络爬虫基础学习(四)
  5. 数据结构与算法学习网
  6. 客户端(浏览器端)数据存储技术概览
  7. 使用Dom4j的xPath解析xml文件------xpath语法
  8. SpringBoot实现JWT保护前后端分离RESTful API
  9. 动态数据源四种实现方案对比
  10. [转] 雅虎团队:网站性能优化的35条黄金守则