python 脏话处理、特殊词汇过滤!
python的其中一个强大之处就是它可以方便的集成很多的非标准库,今天在GitHub上溜达又发现了一个脏话处理神器,导入better_profanity库后,只需要几行代码就能搞定了,相当nice!
使用pip的方式将better_profanity非标准库安装好,这个库好像在清华大学的镜像站中没有,其他镜像站不知道有没有,于是下载时没有使用镜像站,默认到官方去下载即可。
pip install better_profanity# 将处理模块直接导入到代码块中from better_profanity import profanity
1、默认脏话库/敏感词库处理
默认情况下就只能处理英文的脏话。
censored_text = profanity.censor("you are bitch")print(censored_text)# you are ****
可以看到其中bitch字符被认为是脏话已经处理成****字符了。
当然,还可以将处理后的脏话字符换成别的字符代替,比如下面这样处理。
censored_text = profanity.censor("you are bitch",'-')print(censored_text)# you are ----
这样****就被替换成了----。
2、自定义过滤信息处理
bad_words = ['Python', 'Java', 'Scala'] # 自定义过滤词汇profanity.load_censor_words(bad_words) # 加载自定义过滤词汇censored_text = profanity.censor("Python is very Good !") # 执行过滤print(censored_text)# **** is very Good !
可以发现,想要过滤的python字符已经成功过滤掉了。
3、contains_profanity函数
contains_profanity函数用来查看我们的语句中是否包含需要过滤的词汇,如果包含则会返回True,否则返回False。
bad_words = ['bitch', 'Java', 'Scala'] # 自定义过滤词汇profanity.load_censor_words(bad_words) # 加载自定义过滤词汇censored_text = profanity.contains_profanity("you are bitch")print(censored_text)# True
结果为True,表示包含需要过滤的词汇信息。
4、load_censor_words_from_file函数
load_censor_words_from_file函数用于加载需要过滤词汇的文件。
profanity.load_censor_words_from_file('/usr/load/bad_words.txt')
加载完词汇文件之后,按照之前的逻辑处理即可。
词汇文件的定义格式,按照每个词汇独占一行的形式进行定义,文件格式使用.txt文本文档即可。
# bitch
# bitches
# bitchin
# bitching
# blowjob
# blowjobs
# blue waffle
创作不易,点赞、分享支持一下 ~
python 脏话处理、特殊词汇过滤!相关推荐
- 优秀博客 --敏感词汇过滤
2019独角兽企业重金招聘Python工程师标准>>> 敏感词汇过滤 http://www.cnblogs.com/chenssy/p/3751221.html#2966041 树上 ...
- python 脏话处理、特殊词汇过滤
python的其中一个强大之处就是它可以方便的集成很多的非标准库,今天在GitHub上溜达又发现了一个脏话处理神器,导入better_profanity库后,只需要几行代码就能搞定了,相当nice! ...
- python与R行列数据过滤(row column filtering):dplyr、 isnull、isna、drop、select、iloc、loc、isin、filter
python与R行列数据过滤(row column filtering):dplyr. isnull.isna.drop.select.iloc.loc.isin.filter 很多工程师可能刚开始的 ...
- 学python要有多少英语词汇量测试_“扫地僧”!自学Python编程、英语词汇量15000……北大保安再上热搜...
原标题:"扫地僧"!自学Python编程.英语词汇量15000--北大保安再上热搜 近日, 北大保安再次冲上热搜, 让不少网友惊了! 在北京大学第一届 "争做数一数二的保 ...
- 【基于python+Django的物品协同过滤音乐推荐系统-哔哩哔哩】 https://b23.tv/V2zN54R
[基于python+Django的物品协同过滤音乐推荐系统-哔哩哔哩] https://b23.tv/V2zN54R https://b23.tv/V2zN54R
- 动态代理的分析以及利用动态代理模式进行敏感词汇过滤
动态代理 增强对象的功能: 设计模式:一些通用的解决固定问题的方式 代理模式 概念: (1). 真实对象:被代理的对象 (2). 代理对象: (3). 代理模式:代理对象代理真实对象,达到增强真实对象 ...
- 学python要有多少英语词汇量_“扫地僧”!自学Python编程、英语词汇量15000……北大保安再上热搜...
原标题:"扫地僧"!自学Python编程.英语词汇量15000--北大保安再上热搜 近日, 北大保安再次冲上热搜, 让不少网友惊了! 在北京大学第一届 "争做数一数二的保 ...
- Java基于Socket实现聊天、群聊、敏感词汇过滤功能
首先的话,这个代码主要是我很久以前写的,然后当时还有很多地方没有理解,现在再来看看这份代码,实在是觉得丑陋不堪,想改,但是是真的改都不好改了- 所以,写代码,规范真的很重要. 实现的功能: 用户私聊 ...
- python Django基于物品协同过滤旅游景点推荐论坛系统
python Django基于物品协同过滤旅游景点推荐论坛系统 Python Django基于物品推荐协同过滤旅游景点推荐论坛系统 python Django旅游景点论坛 Python Django旅 ...
最新文章
- 利用kickstart自动安装虚拟机
- 《为什么我们的决策总出错》摘录
- KEIL和source insight混合编辑时,文本对齐的方式
- 手把手教你使用C#操作SQLite数据库,新建数据库,创建表,插入,查询,删除,运算符,like(持续更新)...
- 【操作系统】对操作系统的了解
- 厦门one_厦门外代荣获ONE全球船舶操作中心颁发的Sapphire Award奖
- 数据安全超级守护进程
- Maven 用Eclipse创建web项目后报错的解决方式
- Chivas 芝华士12年-广告歌Sarah Khider《Mermaid Song》
- viper4android md,【xposed】微信主题模块(MDWechat)v3.5.0
- ECharts地图省会,城市,县坐标
- COMMUNITY DETECTION
- OrCAD之Design Resources的文件导入新的.dsn文件后,旧的。dsn文件如何去除?
- 算法笔记学习day1(第二章)
- 减肥产品引流推广什么渠道好?怎么推广自己的减肥产品?
- 办公室的吊顶方式都有哪些呢?公室装修需要注意什么细节呢?
- Java学习--day02---运算,一些重要的程序
- 2021年山东省安全员B证考试资料及山东省安全员B证试题及解析
- 郁闷的win7 断电 +东芝笔记本L600-59R
- OpenCV-Python 4.5.4 人脸识别应用