网上发不出去的那些敏感词,是如何被屏蔽掉的?
目录
- 一、用户评论功能
- 二、敏感词汇获取
- 三、过滤代码编写
- 最后
今天是刘小爱自学Java的第94天。
感谢你的观看,谢谢你。
话不多说,开始今天的学习:
一、用户评论功能
网络上很多平台都会有敏感词屏蔽,有些词语打出来会被和谐掉。
虽说现在主张言论自由,但我大中华自古以来便是礼仪之邦,很多粗鄙之语能不允许就不允许的好。
那这些词汇是如何屏蔽的呢?
利用昨天学的Filter过滤器技术就能实现。
这就是一个很简单的form表单:
- action:提交跳转的路径为wordServlet。
- method:提交方式为get提交。
- textarea:文本域,属性分别为列数、行数、名称。
- input type=“submit”:提交按钮
那么肯定要有一个Servlet要和表单提交的路径对应,从而获取文本域中用户输入的数据。
①处理乱码问题
通过request的setCharcatierEncoding()方法设定字符集为utf-8,解决乱码问题。
②获取用户输入的数据
通过request的getParamter()方法获取用户输入的数据。
文本域对应的name为word,所以这里参数也为word。
当然按照实际情况,获取用户数据后,会将用户的评论展示在对应的评论区中。
我这边业务逻辑没有这么复杂,就直接用一个输出语句来代替了。
二、敏感词汇获取
既然是要屏蔽敏感词汇,肯定需要先确定哪些词算是敏感词,再以这些词汇作为标准作为屏蔽。
在web包下创建一个word包,专门存放需要屏蔽的词汇文件,根据分类肯定是有很多很文件的。
为了更好地测试,我写了一个刘小爱,将其设定为1级,毕竟总不可能真的写那些敏感词。
好,敏感词汇准备好了,就要创建Filter过滤器以及编写如何屏蔽的业务逻辑代码了。
首先要获取敏感词汇,在init()方法中实现该需求,因为代码太长不好截图,故分成了两部分:
1获取words文件夹里的各个文件
①创建三个集合
前面也说了,敏感词有三个等级,就创建三个成员变量来专门存放获取的词汇。
②获取words文件夹
在初始化方法init中,有一个参数FilterConfig。
利用它的getServlerContext()可以获取web应用中的servletcontext ,从而使用servletcontext接口的一些方法。
getRealPath()里面填入words包的相对路径,就能获取words这个包了。
③使用文件过滤器过滤文件
我们刚才将敏感词汇文件放入words这个包中了,里面有很多文件,为了防止被其它文件混入,我们只读取后缀名为“.txt”的文本文件。
使用FileFilter接口就能达到过滤文件的效果。
2获取words文件夹里的各个文件里的内容
代码接上图,增强for循环遍历上述过滤后的words文件夹:
①转换流与缓冲流
使用转换流在于其可以设置编码字符集:utf-8。
使用缓冲流在于可以一行一行地读。
同时也算是对这两种IO流的一个回顾与复习。
②迭代器读取文件
这就是IO流中的核心代码,一行一行地读取各个文件里的内容。
③切割字符串
字符串为一行的内容:是以“|”为分隔,前面为敏感词,后面为屏蔽等级。
所以使用split()方法来将其分隔成一个数组,数组里0索引位为敏感词,1索引位为屏蔽等级。
④根据屏蔽等级分别存入对应集合
split[1]表示的也就是屏蔽等级,trim()方法可以去除空格。
split[0]表示的也就是敏感词内容,将其存入对应集合即可。
三、过滤代码编写
上述是对过滤器中init()方法里的代码编写,用于获取敏感词一共有哪些。
现在对doFilter()方法里的代码编写,用户获取用户输入的信息,再进一步判断是否符合要求。
①处理乱码并获取用户数据
和在wordServlet中编写的代码一样。
②遍历敏感词汇并与用户数据匹配
敏感词汇一共有三个级别,可以分别对应不同的处理方式,比如永久封号、封号7天,禁言……
现在毕竟学习阶段,只遍历等级为1的集合,正则匹配涉及到一个工具类Pattern:
- compile(str):以遍历的敏感词为标准。
- matcher(word):以上述标准匹配获取的用户数据。
通过matcher的find()方法可以判断,若为true即表示匹配,不符合要求。
③不符合要求反馈并提醒用户
在request域对象中设定一个名为msg的值,值为“评论内容不规范”,再跳转word.jsp页面。
最后在word.jsp中使用EL表达式获取request域对象中的数据。
${msg}获取的也就是③中设定的msg对应的值,如果用户输入的内容不规范,在word.jsp页面就会出现警示信息。
做个测试
刘小爱在前面已经被我设置成了1级敏感词,所以在评论的时候输入刘小爱,过滤器中会截取到。
从而跳转word.jsp页面并附带警示信息。
嘻嘻嘻不为敏感词汇,则不受影响。
最后
谢谢你的观看。
如果可以的话,麻烦帮忙点个赞,谢谢你。
网上发不出去的那些敏感词,是如何被屏蔽掉的?相关推荐
- 织梦屏蔽广告法极限词和敏感词插件【防职业举报者恶意投诉被工商部门天价罚款】
新广告法实施后,极限词的处罚由原来的退一赔三变更为罚款二十万元起! 如果织梦网站的编辑内容不注意到一些极限用词遭到处罚那就是很相当糟心的事情了. 网站的内容有违法风险的一般有两类 1. 敏感词 敏感词 ...
- dfa算法 java_Java实现DFA算法对敏感词、广告词过滤功能示例
一.前言 开发中经常要处理用户一些文字的提交,所以涉及到了敏感词过滤的功能,参考资料中DFA有穷状态机算法的实现,创建有向图.完成了对敏感词.广告词的过滤,而且效率较好,所以分享一下. 具体实现: 1 ...
- java过滤器敏感字的拦截_【JavaWeb】94:如何屏蔽敏感词?
今天是刘小爱自学Java的第94天. 感谢你的观看,谢谢你. 话不多说,开始今天的学习: 一.用户评论功能 网络上很多平台都会有敏感词屏蔽,有些词语打出来会被和谐掉. 虽说现在主张言论自由,但我大中华 ...
- 恶俗评论敏感词过滤 (可直接拿去用,动态热更新)
恶俗评论敏感词过滤,可直接拿去用,动态热更新 过滤算法 敏感词库加载及初始化 敏感词库的动态热更新 bean配置 yml配置 依赖 过滤算法 主要是实现一个前缀树的数据结构,项目启动时读取敏感词库并进 ...
- 浅析过滤敏感词过滤算法(C++)
本文转自浅析敏感词过滤算法(C++),自己也在其基础上根据自己的情况做了一点修改. 为了提高查找效率,这里将敏感词用树形结构存储,每个节点有一个map成员,其映射关系为一个string对应一个Word ...
- 置顶!!!主页禁言提示原因:在自己论坛发动态误带敏感词,在自己论坛禁止评论90天
置顶!!!主页禁言提示原因:在自己论坛发动态误带敏感词,在自己论坛禁止评论90天 置顶!!!主页禁言提示原因:在自己论坛发动态误带敏感词,在自己论坛禁止评论90天 置顶!!!主页禁言提示原因:在自己论 ...
- 微信公众平台有哪些敏感词不准发
在写文章的时候,会遇到以下3种情况: 1.你所编辑的图文消息可能含有敏感内容,你可以继续保存或发布该图文消息(发布等待时长约3-4小时),若保存或发布后,经核实含有敏感内容的,将可能被作删除.屏蔽等处 ...
- 转:鏖战双十一-阿里直播平台面临的技术挑战(webSocket, 敏感词过滤等很不错)...
转自:http://www.infoq.com/cn/articles/alibaba-broadcast-platform-technology-challenges 鏖战双十一-阿里直播平台面临的 ...
- APP和网站提示有敏感词怎么办?别慌,一看就会!
我们经常会遇到,发表一篇文章,或是想法,明明是规规矩矩,但是就是报敏感词. 好好的文章,突然被报告知,因某些原因,被锁.被隐藏.被关闭,但又不告诉你哪些词汇"有问题",令人抓狂. ...
最新文章
- 计算机程序的思维逻辑 (63) - 实用序列化: JSON/XML/MessagePack
- pandas索引复合索引dataframe数据、索引dataframe中指定行和指定列交叉格子的数据内容(getting a specific value)、使用元组tuple表达复合索引的指定行
- 弯曲传传感器 WWW.TE.COM
- 【1024】不整虚的,红包以备,致敬一线同僚!
- 多分类神经网络与原子核
- uniapp光标自动定义到文本框_word技巧自动生成毕业论文目录
- 开源的,跨平台的.NET机器学习框架ML.NET
- fedora 33 topbar_31省区市新增确诊33例,天津新增本地确诊1例
- Java教程:Java continue语句详解
- c语言实现bitmap的基本操作
- vue的watch使用(如淘宝优惠券设置计算属性时候)
- javascript高级程序设计第四版(javascript高级程序设计第四版)
- 计算机网络 校园网规划,校园网络规划与设计方案
- 图灵的遗产和后继者们的责任
- mysqli_fetch_all() 函数
- httpclient3与httpclient4访问的一些区别
- 使用Python合并excel表格的两列
- windows下安装sloth
- snapchat_如何截屏和共享Snapchat快照
- 程序猿段子_程序员的十个段子,能看懂的都是深有同感!
热门文章
- web打印实现方案 Lodop6.034 使用方法总结
- 不知为啥有时atheros 9344的MAC会挂死
- 机器学习之多元线性回归问题综合应用示例:简单案例+解决红酒质量的判断问题
- 私藏干货分享:关于企业架构中如何进行平台化
- 台式电脑显示无法修复计算机,win10系统下提示“自动修复”无法修复你的电脑怎么解决...
- C语言中fopen的详细用法
- [Ps]制作无缝衔接印花图案
- 地球物理数据的英文弧度(arc min)与中文度的差别
- 监听浏览器刷新/关闭页面
- 维度建模基本流程总结