前段时间跑了了一个自然语言的程序,主要是用来处理一段话,使他只有英文和数字。

我自己写了一个类,用来实现以下的功能

(1)去掉文字中的url

(2)去掉文字中所有的非英文的短语或者单词。

(3)去掉文字中所有的符号,如!,@#(&$*等

(4)去掉文字中的所有的\n \t \r

(5)把文字全部变成小写

(6)去掉文字中所有x00,x0z这样的特殊的符号,这里只能去掉x+数字着这样开头的文字

import re
#这个文件是专门处理str类型的文件,
#主要目的是去掉一段话里的非英文的内容,去掉url,去掉特殊字符如\n,\t,\r,x00这样的特殊字符
#还有就是去掉文字中的所有符号,
#把文字变成小写。
class process_str:def get_english(self,dd):st = ""for k in dd.split():if len(re.findall("[^a-zA-Z\d.]", k)) == 0:st = st + " " + kreturn stdef process_data(self,data) -> str:# 去掉urldata_first = re.sub(r'(https|http)?:\/\/(\w|\.|\/|\?|\=|\&|\%|-)*\b', '', data, flags=re.MULTILINE)# 去掉所有的符号,把大写改为小写。data_second = data_first.replace(r"\n", " ").replace("?", ' ') \.replace("/", ' ').replace(",", ' ').replace("\\", ' '). \replace("~", ' ').replace("+", ' ').replace("=", ' ') \.replace("!", ' ').lower().replace("#", ' ').replace("@", ' ').replace(r"""""", '') \.replace("$", ' ').replace("%", ' ').replace("(", ' ').replace(r"\r", ' ') \.replace(")", ' ').replace("-", ' ').replace("_", '').replace(":", ' ') \.replace(";", ' ').replace("'", ' ').replace("{", ' ').replace("}", ' ') \.replace("[", ' ').replace("]", ' ').replace("|", ' ').replace("*", ' ') \.replace(">", ' ').replace("<", ' ').replace("$", " ").replace("^", ' ') \.replace(r"\t", ' ')# 去掉x0z这类的东西data_three = re.sub(r'x[0-9][a-zA-Z.\d]*', '', data_second, flags=re.MULTILINE)# 去掉非英文和数字的部分data_four = self.get_english(data_three).replace(".", " ")return data_four

代码的py文件我放在了我的github上process_str.py中

python处理一段话,使他只存在英文,和数字相关推荐

  1. StringUtils.isAlphanumeric(String)方法检查中文是通过的,需要注意。它不能用来检测字符串是否只包含英文和数字。

    在org.apache.commons.lang3.StringUtils类中,有一个方法isAlphanumeric(String).它的用途是判断字符串是否仅由字母和数字构成,如果含有特殊字符是不 ...

  2. python 注释一段话_干货!Python入门基础知识点总结

    或看好Python的广阔前景,或看中Python的语法简洁,越来越多零基础的人选择学Python.但是Python基础知识有哪些呢?且看我的分析. Python部分基础知识点汇总 数据类型:编程中操作 ...

  3. python 注释一段话_Python快速入门(一)

    引言 Python作为一个,目前最火的编程语言之一,已经渗透到了各行各业.它易学好懂,拥有着丰富的库,功能齐全.人生苦短,就用Python. 这个快速入门系列分为六篇,包含了Python大部分基础知识 ...

  4. Python使用正则表达式识别代码中的中文、英文和数字实例演示

    Python 正则表达式识别代码中的中文.英文和数字 识别中文 识别英文 识别数字 拓展 在文本处理和数据分析中,有时候需要从代码中提取出其中包含的中文.英文和数字信息.正则表达式是一种强大的工具,可 ...

  5. python 删除一段话中某一个字符串开始之后的所有字符串

    python要删除一段字符串之后的所有字符串,可以使用partition函数. 比如: p_example = "尊敬的领导,你们好.在开发的s公司历时两年直到工程完毕至今,扔拖欠我们18万 ...

  6. vue项目 el-input输入框字符限制,只显示英文及数字

    element的el-input没有限制输入的内容,想要限制输入内容就需要自己来开发,我使用的方式是正则来判断进行再次赋值实现的, 不废话上代码: <el-input v-model=" ...

  7. QTextEdit 只允许英文输入

    设置 QTextEdit 的 WA_InputMethodEnabled 属性为 false,可使其只允许英文输入,其他类型输入框同理. QTextEdit *w = new QTextEdit(); ...

  8. markdown python整段话_(7)python少儿编程之基础语法(二)

    五.缩进 程序是有层次关系的 比如我们判断一个结果为是的时候要干什么 而干什么这个内容就要写在判断语句下 而python 约定4个空格缩进 为一个层次关系 我先写一个简单的语句 看不懂 没关系 理解这 ...

  9. python判断一个或者多个字符串,是否出现在一段话中

    python判断一个或者多个字符串,是否出现在一段话中 要判断一段话中是否有几个字符串,只要一个出现就为True,刚开始想用map函数,后来发现也挺麻烦. 查了一些资料,发现用 any比较好 比如 p ...

  10. 编程笔试(解析及代码实现):国内各大银行(招商银行/浦发银行等)在线笔试常见题目(猴子吃桃/字符串逆序输出/一段话输出字的个数/单词大小转换等)及其代码实现(Java/Python/C#等)之详细攻略

    编程笔试(解析及代码实现):国内各大银行(招商银行/浦发银行等)在线笔试常见题目(猴子吃桃/字符串逆序输出/一段话输出字的个数/单词大小转换等)及其代码实现(Java/Python/C#等)之详细攻略 ...

最新文章

  1. 艾伟_转载:探索.Net中的委托
  2. PostgreSQL的 array_to_string 功能
  3. Atitit.工作流 与 规则引擎
  4. python读取csv文件_Hello,Python!小鲸教你Python之文件读取
  5. PHP xdebug API接口优化揪出了getimagesize这个鬼
  6. npoi 未将对象引用设置到对象的实例_new一个对象到底占了多少内存?
  7. 设计模式-结构型模式,适配器模式(4)
  8. c语言实现《学生管理系统》
  9. 嵌入式c语言教程 题库 百度云,嵌入式c语言视频教程尚观主讲视频教程
  10. 更新macOS Monterey后遇到的各种Bug及解决方法
  11. J-Flash使用方法
  12. 免费报表软件有哪些?5款热门工具
  13. 目标检测00-05:mmdetection(Foveabox为例)-白话给你讲论文-翻译无死角-1
  14. 洛谷P3456 [POI2007]GRZ-Ridges and Valleys
  15. 为什么选择电阻式温度传感器呢
  16. 解决python 服务端口探测探活
  17. python中怎么画一个机器猫_如何用Python画一只机器猫?
  18. mysql主从及高可用3
  19. SveletJs学习——事件
  20. amp模式_AMP的完整形式是什么?

热门文章

  1. matlab 绘制对数曲线图,大神经验!教你用matlab画对数坐标!
  2. nested exception is java.lang.NumberFormatException: For input string: NaN
  3. 什么叫pin脚的pad_超详细的 摄像头PIN脚功能作用
  4. IOI2021 国家集训队作业部分题解
  5. 腾讯云linux远程桌面连接不上去,腾讯云服务器无法远程桌面连接的解决办法
  6. 静态路由配置(目的下一跳)
  7. win10系统文件拖拽卡顿_win10系统下移动鼠标卡顿如何解决
  8. [并发并行]_[pthread]_[使用线程池并发复制文件]
  9. APP 兼容性测试是什么?8年测试老鸟告诉你
  10. 主要几个浏览器的内核是什么