最近接到一个需求,要添加一个敏感词管理模块,一如既往的CURD,敏感词我们添加到了自己的库里。然后进行一个自定义敏感词过滤,话不多说直接贴代码

1、工具类

这里只是最简单的得到敏感词进行转换,可以根据自己的业务需求进行填充

package com.zylc.bixiang.business.keywords.web;import com.zylc.bixiang.business.keywords.domain.repository.BXKeyWordsMapper;
import com.zylc.bixiang.business.keywords.domain.vo.BXKeyWordsVO;
import org.springframework.beans.factory.annotation.Autowired;import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.io.UnsupportedEncodingException;
import java.util.ArrayList;
import java.util.Collection;
import java.util.HashMap;
import java.util.List;/*** @author admin* @Description: 敏感词过滤 工具类* @Date : 2021/10/28 10:21* @Modified By :*/
public class SensitiveWordFilter {@AutowiredBXKeyWordsMapper bxKeyWordsMapper;//初始化private StringBuilder replaceAll;private String encoding = "UTF-8";private String replceStr = "*";private int replceSize = 500;private List<BXKeyWordsVO> keyWordsVOS;/*** @param str 将要被过滤信息* @return 过滤后的信息*/public String filterInfo(String str) {StringBuilder buffer = new StringBuilder(str);HashMap<Integer, Integer> hash = new HashMap<Integer, Integer>(keyWordsVOS.size());String temp;for (int x = 0; x < keyWordsVOS.size(); x++) {temp = keyWordsVOS.get(x).getValue();int findIndexSize = 0;for (int start = -1; (start = buffer.indexOf(temp, findIndexSize)) > -1; ) {//从已找到的后面开始找findIndexSize = start + temp.length();//起始位置Integer mapStart = hash.get(start);//满足1个,即可更新mapif (mapStart == null || (mapStart != null && findIndexSize > mapStart)) {hash.put(start, findIndexSize);}}}Collection<Integer> values = hash.keySet();for (Integer startIndex : values) {Integer endIndex = hash.get(startIndex);buffer.replace(startIndex, endIndex, replaceAll.substring(0, endIndex - startIndex));}hash.clear();return buffer.toString();}/*** 初始化敏感词库*/public void InitializationWork() {replaceAll = new StringBuilder(replceSize);for (int x = 0; x < replceSize; x++) {replaceAll.append(replceStr);}//加载词库keyWordsVOS = bxKeyWordsMapper.findAllKeywords();}public StringBuilder getReplaceAll() {return replaceAll;}public void setReplaceAll(StringBuilder replaceAll) {this.replaceAll = replaceAll;}public String getReplceStr() {return replceStr;}public void setReplceStr(String replceStr) {this.replceStr = replceStr;}public int getReplceSize() {return replceSize;}public void setReplceSize(int replceSize) {this.replceSize = replceSize;}public void setEncoding(String encoding) {this.encoding = encoding;}
}

3、因为我们业务有敏感级别,我要得到每个敏感词和相对应的级别,所以上方初始化词库用的集合对象

Java实现自定义敏感词库过滤相关推荐

  1. java敏感词关键词过滤

    首先推荐一篇开源 https://github.com/elulis/sensitive-words 相信你会获益良多 附上百度关键字,由于都是关键字,内容付在我博客下载专区 代码粘贴 目录结构 a. ...

  2. 网站发帖敏感字java_网站敏感词过滤的实现(附敏感词库)

    现在基本上所有的网站都需要设置敏感词过滤,z似乎已经成了一个网站的标配,如果你的网站没有,或者你没有做相应的处理,那么小心相关部门请你喝茶哦. 最近在调研Java web网站的敏感词过滤的实现,网上找 ...

  3. php返回当前字符串把所有敏感词变红,PHP 实现敏感词 / 停止词 过滤(附敏感词库)...

    敏感词.文字过滤是一个网站必不可少的功能,如何设计一个好的.高效的过滤算法是非常有必要的.在实现敏感词过滤的算法中,我们必须要减少运算,而 DFA 在 DFA 算法中几乎没有什么计算,有的只是状态的转 ...

  4. 2022还在使用Mysql进行数据检索?ElasticSearch自定义扩展词库完成检索

    文章目录 1.为什么要自定义扩展ES词库呢? 2.如何自定义扩展词库呢? 3.Docker安装Nginx 4.在nginx中保存一个简易词库 5.修改IK分词器的配置文件,让其指向nginx保存的词库 ...

  5. python敏感字替换_python用类实现文章敏感词的过滤方法示例

    过滤一遍并将敏感词替换之后剩余字符串中新组成了敏感词语,这种情况就要用递归来解决,直到过滤替换之后的结果和过滤之前一样时才算结束 第一步:建立一个敏感词库(.txt文本) 第二步:编写代码在文章中过滤 ...

  6. 【ES从入门到实战】二十三、全文检索-ElasticSearch-分词-自定义扩展词库

    接第22节 3).自定义词库 ik 分词器默认的分词并不能满足我们的需求,对于一些新的网络用语,ik 分词器就会无法准确的进行分词识别,比如: POST _analyze {"analyze ...

  7. es自建搜索词库_【ES从入门到实战】二十三、全文检索-ElasticSearch-分词-自定义扩展词库...

    接第22节 3).自定义词库 ik 分词器默认的分词并不能满足我们的需求,对于一些新的网络用语,ik 分词器就会无法准确的进行分词识别,比如: POST _analyze { "analyz ...

  8. SpringBoot使用前缀树实现敏感词的过滤

    记录一下使用SpringBoot中使用前缀树对敏感词的一个过滤. 首先呢在resources目录下建立一个文件用来装敏感词例如我在resources/sensitive-words.txt如下: 敏感 ...

  9. 架构师成长记_第八周_11_ES- ik中文分词器与自定义中文词库

    文章目录 ik中文分词器 1. 安装ik中文分词器(7.4.2版本) 2. 使用ik中文分词器 2.1 分词器: ik_max_word 2.1 分词器: ik_smart 自定义中文词库 自定义词库 ...

  10. java中编写敏感词过滤程序_Java敏感词过滤

    一下实现对敏感词,禁忌词的过滤. 两个个文件words.properties和KeyWordFilter.java; 1.words.properties文件是个文本文件:内容如下: 敏感词一 敏感词 ...

最新文章

  1. Linux下的I/O复用与epoll详解
  2. xmlstreamexception 参数实体未进行声明_命名实体识别研究进展概述
  3. SpringBatch之CompositeItemWriter详解
  4. sql select...for update是锁行还是锁表
  5. Servlet使用适配器模式进行增删改查案例(jdbc.properties)
  6. vscode浏览器扩展(图文教程) - 设置篇
  7. matlab查看,缩放,读取图片
  8. android调用webservice发送header身份验证不成功
  9. 快速清除oracle多个表,Oracle数据库之批量清除一个表的数据,TB级别数据
  10. 《恋上数据结构第1季》字典树 Trie
  11. 安卓图片自适应的解决办法
  12. 金士顿优盘不被电脑识别的小技巧
  13. CTEX加中英文摘要
  14. 从零开始学PCR技术(四):常见问题
  15. jasypt.jar 1.9.2下载,加密解密
  16. itunes怎么下载,有什么好的教程
  17. SharePoint Project导入(mpp文件导入)
  18. 微服务架构在区块链BaaS平台中的实践
  19. 软件测试岗位英文自我介绍,软件测试工程师自我介绍_工程师英文自我介绍范文...
  20. RPC 实战与核心原理分析

热门文章

  1. wps linux 在线安装程序,WPS Office 2019 For Linux下载及安装教程
  2. python基础语法总结(超详细)
  3. 如何评价一个专业PKM软件?
  4. 在CMD上运行使用java命令运行java文件时出现错误:找不到或者无法加载主类的问题 解决办法
  5. 声学计算机软件,常用声学仿真软件汇总
  6. 清华姚班毕业生开发新特效编程语言,99行代码实现《冰雪奇缘》
  7. 深信服(scsa认证)学习过程
  8. 中国移动苏州研发中心前端笔试(2)
  9. STM32中CAN波特率的计算
  10. utorrent无传入连接_uTorrent常见问题解答中文版