Java实现自定义敏感词库过滤
最近接到一个需求,要添加一个敏感词管理模块,一如既往的CURD,敏感词我们添加到了自己的库里。然后进行一个自定义敏感词过滤,话不多说直接贴代码
1、工具类
这里只是最简单的得到敏感词进行转换,可以根据自己的业务需求进行填充
package com.zylc.bixiang.business.keywords.web;import com.zylc.bixiang.business.keywords.domain.repository.BXKeyWordsMapper;
import com.zylc.bixiang.business.keywords.domain.vo.BXKeyWordsVO;
import org.springframework.beans.factory.annotation.Autowired;import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.io.UnsupportedEncodingException;
import java.util.ArrayList;
import java.util.Collection;
import java.util.HashMap;
import java.util.List;/*** @author admin* @Description: 敏感词过滤 工具类* @Date : 2021/10/28 10:21* @Modified By :*/
public class SensitiveWordFilter {@AutowiredBXKeyWordsMapper bxKeyWordsMapper;//初始化private StringBuilder replaceAll;private String encoding = "UTF-8";private String replceStr = "*";private int replceSize = 500;private List<BXKeyWordsVO> keyWordsVOS;/*** @param str 将要被过滤信息* @return 过滤后的信息*/public String filterInfo(String str) {StringBuilder buffer = new StringBuilder(str);HashMap<Integer, Integer> hash = new HashMap<Integer, Integer>(keyWordsVOS.size());String temp;for (int x = 0; x < keyWordsVOS.size(); x++) {temp = keyWordsVOS.get(x).getValue();int findIndexSize = 0;for (int start = -1; (start = buffer.indexOf(temp, findIndexSize)) > -1; ) {//从已找到的后面开始找findIndexSize = start + temp.length();//起始位置Integer mapStart = hash.get(start);//满足1个,即可更新mapif (mapStart == null || (mapStart != null && findIndexSize > mapStart)) {hash.put(start, findIndexSize);}}}Collection<Integer> values = hash.keySet();for (Integer startIndex : values) {Integer endIndex = hash.get(startIndex);buffer.replace(startIndex, endIndex, replaceAll.substring(0, endIndex - startIndex));}hash.clear();return buffer.toString();}/*** 初始化敏感词库*/public void InitializationWork() {replaceAll = new StringBuilder(replceSize);for (int x = 0; x < replceSize; x++) {replaceAll.append(replceStr);}//加载词库keyWordsVOS = bxKeyWordsMapper.findAllKeywords();}public StringBuilder getReplaceAll() {return replaceAll;}public void setReplaceAll(StringBuilder replaceAll) {this.replaceAll = replaceAll;}public String getReplceStr() {return replceStr;}public void setReplceStr(String replceStr) {this.replceStr = replceStr;}public int getReplceSize() {return replceSize;}public void setReplceSize(int replceSize) {this.replceSize = replceSize;}public void setEncoding(String encoding) {this.encoding = encoding;}
}
3、因为我们业务有敏感级别,我要得到每个敏感词和相对应的级别,所以上方初始化词库用的集合对象
Java实现自定义敏感词库过滤相关推荐
- java敏感词关键词过滤
首先推荐一篇开源 https://github.com/elulis/sensitive-words 相信你会获益良多 附上百度关键字,由于都是关键字,内容付在我博客下载专区 代码粘贴 目录结构 a. ...
- 网站发帖敏感字java_网站敏感词过滤的实现(附敏感词库)
现在基本上所有的网站都需要设置敏感词过滤,z似乎已经成了一个网站的标配,如果你的网站没有,或者你没有做相应的处理,那么小心相关部门请你喝茶哦. 最近在调研Java web网站的敏感词过滤的实现,网上找 ...
- php返回当前字符串把所有敏感词变红,PHP 实现敏感词 / 停止词 过滤(附敏感词库)...
敏感词.文字过滤是一个网站必不可少的功能,如何设计一个好的.高效的过滤算法是非常有必要的.在实现敏感词过滤的算法中,我们必须要减少运算,而 DFA 在 DFA 算法中几乎没有什么计算,有的只是状态的转 ...
- 2022还在使用Mysql进行数据检索?ElasticSearch自定义扩展词库完成检索
文章目录 1.为什么要自定义扩展ES词库呢? 2.如何自定义扩展词库呢? 3.Docker安装Nginx 4.在nginx中保存一个简易词库 5.修改IK分词器的配置文件,让其指向nginx保存的词库 ...
- python敏感字替换_python用类实现文章敏感词的过滤方法示例
过滤一遍并将敏感词替换之后剩余字符串中新组成了敏感词语,这种情况就要用递归来解决,直到过滤替换之后的结果和过滤之前一样时才算结束 第一步:建立一个敏感词库(.txt文本) 第二步:编写代码在文章中过滤 ...
- 【ES从入门到实战】二十三、全文检索-ElasticSearch-分词-自定义扩展词库
接第22节 3).自定义词库 ik 分词器默认的分词并不能满足我们的需求,对于一些新的网络用语,ik 分词器就会无法准确的进行分词识别,比如: POST _analyze {"analyze ...
- es自建搜索词库_【ES从入门到实战】二十三、全文检索-ElasticSearch-分词-自定义扩展词库...
接第22节 3).自定义词库 ik 分词器默认的分词并不能满足我们的需求,对于一些新的网络用语,ik 分词器就会无法准确的进行分词识别,比如: POST _analyze { "analyz ...
- SpringBoot使用前缀树实现敏感词的过滤
记录一下使用SpringBoot中使用前缀树对敏感词的一个过滤. 首先呢在resources目录下建立一个文件用来装敏感词例如我在resources/sensitive-words.txt如下: 敏感 ...
- 架构师成长记_第八周_11_ES- ik中文分词器与自定义中文词库
文章目录 ik中文分词器 1. 安装ik中文分词器(7.4.2版本) 2. 使用ik中文分词器 2.1 分词器: ik_max_word 2.1 分词器: ik_smart 自定义中文词库 自定义词库 ...
- java中编写敏感词过滤程序_Java敏感词过滤
一下实现对敏感词,禁忌词的过滤. 两个个文件words.properties和KeyWordFilter.java; 1.words.properties文件是个文本文件:内容如下: 敏感词一 敏感词 ...
最新文章
- Linux下的I/O复用与epoll详解
- xmlstreamexception 参数实体未进行声明_命名实体识别研究进展概述
- SpringBatch之CompositeItemWriter详解
- sql select...for update是锁行还是锁表
- Servlet使用适配器模式进行增删改查案例(jdbc.properties)
- vscode浏览器扩展(图文教程) - 设置篇
- matlab查看,缩放,读取图片
- android调用webservice发送header身份验证不成功
- 快速清除oracle多个表,Oracle数据库之批量清除一个表的数据,TB级别数据
- 《恋上数据结构第1季》字典树 Trie
- 安卓图片自适应的解决办法
- 金士顿优盘不被电脑识别的小技巧
- CTEX加中英文摘要
- 从零开始学PCR技术(四):常见问题
- jasypt.jar 1.9.2下载,加密解密
- itunes怎么下载,有什么好的教程
- SharePoint Project导入(mpp文件导入)
- 微服务架构在区块链BaaS平台中的实践
- 软件测试岗位英文自我介绍,软件测试工程师自我介绍_工程师英文自我介绍范文...
- RPC 实战与核心原理分析