网站是怎么屏蔽脏话的呢:简单学会SpringBoot项目敏感词、违规词过滤方案
一个社区最重要的就是交流氛围与审查违规,而这两者都少不了对于敏感词进行过滤的自动维护措施。基于这样的措施,我们才能基本保证用户在使用社区的过程中,不至于被敏感违规词汇包围,才能够正常的进行发布帖子和评论,享受美好的社区氛围。目前,对于 springboot 项目也有较为成熟的敏感词过滤方案。
文章目录
- 敏感词过滤方案
- 实现思路
敏感词过滤方案
本文将采用 Github 上 houbb 大神开源的 sensitive-word 工具包来进行敏感词过滤操作,它具备以下优秀特点:
- 包含 6W+ 词库,且不断优化更新
- 基于 fluent-api 实现,使用优雅简洁
- 完美兼容 spring boot 项目
- 支持自定义敏感词一对一替换成对应正常词汇
- 支持敏感词的判断、返回、脱敏等常见操作
- 支持全角半角互换
- 支持英文大小写互换
- 支持数字常见形式的互换
- 支持中文繁简体互换
- 支持英文常见形式的互换
- 支持用户自定义敏感词和白名单
- 支持数据的数据动态更新,实时生效
敏感词过滤效果如下:
它不仅可以通过自定义替换词,也就是过滤后文本的 * 号可以随意更改,如果想要删去敏感词,替换词直接选为空即可,他还可以通过自定义对应词的替换词,比如说:五星红旗指定为国家旗帜,毛主席指定为教员,示例如下:
“五星红旗迎风飘扬,毛主席的画像屹立在广场前”。变为 “国家旗帜迎风飘扬,教员的画像屹立在广场前。”
实现思路
- 实现 sensitive-word 的配置文件
- 利用自定义的 SensitiveWordUtil 进行封装
- 调用 SensitiveWordUtil 即可
XML导包模板:
<!-- 敏感词工具包 -->
<dependency><groupId>com.github.houbb</groupId><artifactId>sensitive-word</artifactId><version>0.2.1</version>
</dependency>
sensitive-word 配置是通过 SensitiveWordBs.newInstance() 进行配置的,它传回的是 SensitiveWordBs 对象,而不是默认的 SensitiveWordHelper 对象。配置类注意添加 @Configuration 注解
它的配置项如下:
序号 | 方法 | 说明 | 默认值 |
---|---|---|---|
1 | ignoreCase | 忽略大小写 | true |
2 | ignoreWidth | 忽略半角圆角 | true |
3 | ignoreNumStyle | 忽略数字的写法 | true |
4 | ignoreChineseStyle | 忽略中文的书写格式 | true |
5 | ignoreEnglishStyle | 忽略英文的书写格式 | true |
6 | ignoreRepeat | 忽略重复词 | false |
7 | enableNumCheck | 是否启用数字检测。 | true |
8 | enableEmailCheck | 是有启用邮箱检测 | true |
9 | enableUrlCheck | 是否启用链接检测 | true |
10 | numCheckLen | 数字检测,自定义指定长度。 | 8 |
在完成配置之前,我们可以先添加两个词库文本,作为自定义的敏感词库以及非敏感词库,第一个词库大家都理解,为什么还要定义非敏感词库呢?因为默认的 6w+ 敏感词中免不了存在部分在社区业务中不算过于敏感的词汇,想要予以保留,这样的话,我们就需要使用非敏感词库进行排除。当然,敏感词库不能够频繁更新以及初始化,会耗费过多的时间和性能。这两个词库放置在 resource 目录下,博主使用的是 jdk17 ,所以采用 NIO 进行文件读取,简洁高效。两个文件名称如下:
- myAllowWords.txt:非敏感词库
- mySensitiveWords.txt:敏感词库
要使 sensitive-word 配置上自定义两个词库内容,必须分别继承以下两个接口:
- IWordDeny:敏感词继承方法
- IWordAllow:非敏感词继承方法
不仅需要实现这两个接口,还要配置默认词库、自定义词库合并的词库,否则,如果在 SensitiveWordBs.newInstance() 直接配置继承方法,就只生效自定义词库。合并词库的方法为:WordDenys.chains(),默认词库分别为WordDenys.system()、WordAllows.system(),合并后词库分别赋值给 IWordDeny、IWordAllow
模板配置如下:
// 自定义敏感词
// 注意每一行为一个敏感词,单行不能只包括空格,否则,也会把空格识别为敏感词
public class MyWordDeny implements IWordDeny {@Overridepublic List<String> deny() {List<String> list = new ArrayList<String>();;try {Resource mySensitiveWords = new ClassPathResource("mySensitiveWords.txt");Path mySensitiveWordsPath = Paths.get(mySensitiveWords.getFile().getPath());list = Files.readAllLines(mySensitiveWordsPath, StandardCharsets.UTF_8);} catch (IOException ioException) {logger.error("读取敏感词文件错误!"+ ioException.getMessage());}return list;}}// 自定义非敏感词
// 注意每一行为一个非敏感词,单行不能只包括空格,否则,也会把空格识别为非敏感词
public class MyWordAllow implements IWordAllow {@Overridepublic List<String> allow() {List<String> list = new ArrayList<String>();;try {Resource myAllowWords = new ClassPathResource("myAllowWords.txt");Path myAllowWordsPath = Paths.get(myAllowWords.getFile().getPath());list = Files.readAllLines(myAllowWordsPath, StandardCharsets.UTF_8);} catch (IOException ioException) {logger.error("读取非敏感词文件错误!"+ ioException.getMessage());}return list;}}// 配置默认敏感词 + 自定义敏感词
IWordDeny wordDeny = WordDenys.chains(WordDenys.system(), new MyWordDeny());
// 配置默认非敏感词 + 自定义非敏感词
IWordAllow wordAllow = WordAllows.chains(WordAllows.system(), new MyWordAllow());
而自定义替换规则就必须继承并实现 ISensitiveWordReplace 接口其中的 replace() 方法。实现模板代码如下:
public class mySensitiveWordReplace implements ISensitiveWordReplace {@Overridepublic String replace(ISensitiveWordReplaceContext context) {String sensitiveWord = context.sensitiveWord();// 自定义不同的敏感词替换策略,可以从数据库等地方读取if("五星红旗".equals(sensitiveWord)) {return "国家旗帜";}if("毛主席".equals(sensitiveWord)) {return "教员";}// 其他默认使用 * 代替int wordLength = context.wordLength();return CharUtil.repeat('*', wordLength);}
}
最后就是通过 SensitiveWordBs.newInstance() 进行配置,模板代码如下:
@Bean
public SensitiveWordBs sensitiveWordBs(){return SensitiveWordBs.newInstance()// 忽略大小写.ignoreCase(true)// 忽略半角圆角.ignoreWidth(true)// 忽略数字的写法.ignoreNumStyle(true)// 忽略中文的书写格式:简繁体.ignoreChineseStyle(true)// 忽略英文的书写格式.ignoreEnglishStyle(true)// 忽略重复词.ignoreRepeat(false)// 是否启用数字检测.enableNumCheck(true)// 是否启用邮箱检测.enableEmailCheck(true)// 是否启用链接检测.enableUrlCheck(true)// 数字检测,自定义指定长度.numCheckLen(8)// 配置自定义敏感词.wordDeny(wordDeny)// 配置非自定义敏感词.wordAllow(wordAllow).init();
}
配置完成之后,我们就可以使用 SensitiveWordUtil 进行封装使用了,实现代码如下:
@Component
public class SensitiveWordUtil {@Autowiredprivate SensitiveWordBs sensitiveWordBs;// 刷新敏感词库与非敏感词库缓存public void refresh(){sensitiveWordBs.init();}// 判断是否含有敏感词public boolean contains(String text){return sensitiveWordBs.contains(text);}// 指定替换符进行替换敏感词public String replace(String text, char replaceChar){return sensitiveWordBs.replace(text,replaceChar);}// 使用默认替换符 * 进行替换敏感词public String replace(String text){return sensitiveWordBs.replace(text);}// 返回所有敏感词public List<String> findAll(String text){return sensitiveWordBs.findAll(text);}
}
调用就不用说明了吧,我们敏感词过滤的部分就完成了。放一下 API 文档
方法 | 参数 | 返回值 | 说明 |
---|---|---|---|
contains(String) | 待验证的字符串 | 布尔值 | 验证字符串是否包含敏感词 |
replace(String, ISensitiveWordReplace) | 使用指定的替换策略替换敏感词 | 字符串 | 返回脱敏后的字符串 |
replace(String, char) | 使用指定的 char 替换敏感词 | 字符串 | 返回脱敏后的字符串 |
replace(String) |
使用 * 替换敏感词
|
字符串 | 返回脱敏后的字符串 |
findAll(String) | 待验证的字符串 | 字符串列表 | 返回字符串中所有敏感词 |
findFirst(String) | 待验证的字符串 | 字符串 | 返回字符串中第一个敏感词 |
findAll(String, IWordResultHandler) | IWordResultHandler 结果处理类 | 字符串列表 | 返回字符串中所有敏感词 |
findFirst(String, IWordResultHandler) | IWordResultHandler 结果处理类 | 字符串 | 返回字符串中第一个敏感词 |
测试方法:
@RunWith(SpringRunner.class)
@SpringBootTest
@ContextConfiguration(classes = CommunityApplication.class)
public class SensitiveTest {@Autowiredprivate SensitiveWordUtil sensitiveWordUtil;@Testpublic void utilTest02(){String result = sensitiveWordUtil.replace("法网恢恢 哇 nnd 复活");System.out.println(result);}
}
网站是怎么屏蔽脏话的呢:简单学会SpringBoot项目敏感词、违规词过滤方案相关推荐
- eclipse maven项目 class类部署不到tomcat下_Springboot介绍以及用Eclipse搭建一个简单的Springboot项目教程
简述 本文主要介绍Springboot以及用Eclipse搭建一个简单的Springboot项目. Springboot简介 Springboot是由Pivotal团队提供的全新框架,其设计目的是用来 ...
- 创建一个简单的springboot项目demo
springboot的核心功能: 1:起步依赖 2:核心注入; 创建一个简单的springboot项目demo步骤: 1:创建一个maven项目 2:pom.xml添加起步依赖 <parent& ...
- 一个简单的SpringBoot项目 demo
架构 相关代码 templates目录下存放前端静态页面 index.html <!DOCTYPE html> <html lang="en"> <h ...
- 使用IDEA搭建一个简单的SpringBoot项目——详细过程
一.创建项目 1.File->new->project: 2.选择"Spring Initializr",点击next:(jdk1.8默认即可) 3.完善项目信息,组名 ...
- springboot(一):构建最简单的springboot项目
springboot应该是在spring体系基础上发展起来的,使用springboot,可以快速构建开发项目,并快速集成相关组件(很多开源的组件都有springboot的实现了),有人说它的设计理念为 ...
- 使用docker和jenkins简单部署springboot项目
安装docker Docker 要求 CentOS 系统的内核版本高于 3.10 uname -r 3.10.0-327.el7.x86_64 安装docker yum -y install dock ...
- 简单的springboot项目测试数据源是否连接成功
1.创建项目 2. 3. 4. 5. 测试mysql连接数据源,勾选上面两个即可,然后next,完成就创建好了. 6.注意: pom.xml文件内容 <?xml version="1. ...
- 超简单的Springboot 项目搭建
要求:搭建一个springboot项目并输出helloworld: 开发环境:Idea2019 框架:Springboot 工具:Maven 新建springboot项目 这里选择的项目是spring ...
- SpringBoot+vue仿网易云音乐网站(三)- Springboot项目以及前端vue基础搭建
一.基础项目搭建 1. 新建springboot项目 在搭建Springboot项目之前,需要的基础环境:JDK(8).Maven,工具Idea.项目就新建一个简单的springboot项目就行了,具 ...
最新文章
- 测量左右磁极的原片磁铁
- DELPHI实现游戏内存的修改
- linux系统利用wifi上网,【教程】Wii安装运行可用WIFI的Linux系统全攻略
- 在Apache Camel中使用Spring数据
- pppoe拨号的外网ip无法ping通_【思唯网络学院】 五大网络概念:IP地址、子网掩码、网关、DHCP服务和PPPoE拨号...
- Linux下tomcat无法启动/启动后无法用过127.0.0.1:8080访问解决方案
- Promise【面试】
- iPhone开发之self.的用法
- C#基础系列:实现自己的ORM(构造我自己的ORM)
- UniBeast:在任何支持基于英特尔处理器的PC上安装OS X优胜美地
- 关于基向量的理解和矩阵的推导
- pxe自动装机利用tfp,http,nfs服务实现。
- 免费优惠券机器人搭建
- Photoshop如何使用蒙版之实例演示?
- pc机之间的通信和点阵汉字的字模读取与显示
- LeetCode题目笔记——779. 第K个语法符号,从超时到0ms(bushi)
- JSON入门(Understanding JSON)
- HTMLCSS简单学习,看这篇就够了!
- 光谱特征选择---随机蛙跳变量选择RF
- 用户直接关闭浏览器,直接退出登陆的实现方法【php+thinkphp】