通过本类库,可以实现对输入内容的自动分析,并会给出评分,程序可以根据此评分判断内容是否达到某一敏感度级别,从而进行相应的自动化处理。

如果将此类库与人工评审相结合,效果将会非常好:机审认为有敏感嫌疑的内容自动提交到人工评审等待列表,由人工进行二次审核,这样在保证效率的同时又兼顾了准确性,是比较理想的人机协作方式。

此类库的运作原理请参考《改进的脏话审查方案》一文:http://www.cnblogs.com/SkyD/archive/2009/03/16/updateTextVali.html

编写审查规则

光有此类库并不能评审任何内容,你需要为其提供审查规则,它才能够工作,为此我将提供一个生成器,用以生成规则配置文件:

关于规则的应用原理,也请参看《改进的脏话审查方案》一文。

这里说明一下评分的计算方式:

规则的分值属性代表这个规则的满分值,也就是说当文中的词语与此规则完全匹配时的得分,如果可以匹配但不精确则依据精确程度得到相应比例的部分分值。

而匹配精确程度的计算方式,就是通过其精确长度属性与其实际匹配内容的长度间的比例计算的。比如“白[\s\S]{0,3}?痴”这条规则,其精确长度是2,即刨除可容忍的干扰符号后的原字符串“白痴”的长度,假如遇到“有一个小白正在痴痴地望着她”这句话,也会与“白正在痴”发生匹配,但其长度为4,通过用规则的精确长度值2除以实际匹配到的字符串长度4,就得出了我们此次匹配的精确度:50%,然后假如此规则的分值为6的话,那么此次匹配则只能得到6*0.5=3分。

这是精确分值的计算方式,除此之外类库也会同时输出不进行精确度修正的分值,以适用于不同情况。

另外有一点需要注意:此类库的输入规则必须为简体中文,但在匹配时会对简体与繁体都进行匹配。

调用方法

调用此类库前,应当首先通过规则配置生成器,生成一个或多个规则配置文件,并将它们放在一个目录中。

然后为其静态属性赋值,指示上述规则配置文件的存储路径,然后执行其静态的“加载审查规则”方法:

内容审查.规则文件目录 = Path.Combine(Application.StartupPath, "内容审查规则\\");

内容审查.加载审查规则();

这样就完成了初始化,然后只需创建“内容审查”对象,并传入待分析的字符串,执行“审查”方法即可完成评审:

内容审查 c = new 内容审查(textBox2.Text);

c.审查();

执行之后即可访问该对象的“累计评分”、“累计精确评分”、“最高评分”、“输出明细”等属性,获取相应的评审结果了。

此外,“审查”方法还有一个重载,允许放弃输出明细匹配信息,仅输出其他的分值和统计信息,以提高评审速度,一般在机审时应当这样使用,而在人工复审时输出明细信息供操作员参考。

应用测试

我提供了一个测试工具,用以进行简单的规则测试。

我们以译言中的一篇文章为例进行评审测试,其原文地址为:http://www.yeeyan.com/articles/view/24994/7075

测试结果:

标题栏处显示的“捕获内容覆盖率”也是审查后提供的统计信息,用以表示敏感内容占据全文的比例,在进行自动后续处理时,此属性也应当作为一个重要的判定依据。比如有些内容很短,并遍布着敏感词汇,但因其内容少所以总分并不会太高,而其覆盖率却会非常高,这时以覆盖率为判别依据就不会漏掉此内容。

窗口左下方显示的“[宗教]”、“[政治]”表示规则的分类,即规则所属的配置文件的文件名。

结语

此类库对于网站中的用户输入内容审查工作非常有用,善加利用,将远比寻常的关键字替换、关键字禁止提交、纯人工审核等方案优秀得多,使安全性与效率趋于平衡。

各位如有功能或性能方面的改进建议,欢迎提出,共同探讨。

另外,我还会后续放出一个用于在Asp.Net中使用的可视化人工审核辅助控件,敬请关注。

下载

类库源代码及辅助程序:http://www.uushare.com/user/icesee/file/1932449

(重新上传,修正了一处错误)

规则配置文件包:http://www.uushare.com/user/icesee/file/1925838

规则配置文件包中包含以下规则配置示例:

下载本文的XPS版本:http://www.uushare.com/user/icesee/file/1925859

娱乐时段

这两天娱乐贴很受欢迎啊,看来大家工作都太投入了,有时是应当放松一下啦,我在此附赠两个程序员适合的益智小游戏吧,它们可算是这些年来难得的精品哦:

植物大战僵尸

通过构筑防御工事抵御敌人一轮又一轮的进攻,这游戏不但好玩还很搞笑,豌豆射手、卷心菜投手、樱桃炸弹、食人花、火焰树桩、冰镇西瓜投手、咖啡豆、玉米加农炮、坚果墙、土豆地雷……听名字就很好玩吧,一共有49种不同的植物哦,并且通关之后还会开启众多新玩法,很耐玩并富有挑战性。

主题曲也很好听:

游戏下载地址:http://www.uushare.com/user/icesee/file/1913105

粘粘世界

据说是两个宅男开发的游戏(崇拜啊),这游戏很另类,但做的很成功,画面细腻,风格清新,提示诙谐又诡异,音效很不错,玩法主要就是使用各种不同功能的粘粘球组合起来,让尽可能多的粘粘球输送到目标管道中,其中的最大挑战就是地心引力与那些刺啦。

游戏下载地址:http://www.uushare.com/user/icesee/file/1907621

如果下载速度很慢的话,也可以用电驴从这里分别下载这两个游戏,下的人很多,速度不错的:

http://www.verycd.com/topics/2745208/

http://www.verycd.com/topics/2738323/

本文转自斯克迪亚博客园博客,原文链接:http://www.cnblogs.com/SkyD/archive/2009/08/21/1551112.html,如需转载请自行联系原作者

[分享]敏感内容自动评审类库及辅助工具相关推荐

  1. 分享一个笑傲江湖高清服脚本辅助工具(以及随机数源码)

    游戏脚本基本只能做到和真实玩家一样的事情,只是不怕苦不怕累,能一直干活而已.由于不涉及修改游戏信息,因此也没有外挂的那些法律风险,而且上手也简单啊,毕竟我这种半路出家的都能用按键精灵之类的第三方软件去 ...

  2. seo提交工具_SEO必备的八大辅助工具

    做SEO的如果没有了工具的辅助,那就像是老鹰没了翅膀,再牛逼也不好生存下去,那么SEO工具有哪些呢?其实无论是新手还是老手,工具几乎是不变的,差别只在于谁操作的更熟练,对功能更了解而已.SEO天下在开 ...

  3. python读取word文档结构图_python根据文章标题内容自动生成摘分享的实例

    如何用Python玩转TF-IDF之寻找相似文章并生成摘要 应用1:关键词自动生成 核心思想是对于某个文档中的某个词,计算其在这个文档中的标准化TF值,然后计算这个词在整个语料库中的标准化IDF值.在 ...

  4. 分享个甲铁城手游的辅助脚本,能够自动刷副本刷资源

    分享个甲铁城手游的辅助脚本,能够自动刷副本刷资源 甲铁城的卡巴内瑞-这个手游中伙伴穿戴装备以及升星培养(升星只需消耗伙伴碎片)能增加人偶的属性与被动技能效果.伙伴的品质越高能为玩家增加的战斗力也就越多 ...

  5. Android自动操作辅助工具思路分享

    效果1: 效果2: 此次开发的工具都用纯原生代码进行Android的应用开发的,其实原理都是用了无障碍功能(AccessibilityService)进行处理.上个版本的工具太麻烦了,还需要进行相应的 ...

  6. 【分享】Vue 资源典藏(UI组件、开发框架、服务端、辅助工具、应用实例、Demo示例)...

    Vue 资源典藏,包括:UI组件 开发框架 服务端 辅助工具 应用实例 Demo示例 element ★11612 - 饿了么出品的Vue2的web UI工具套件 Vux ★7503 - 基于Vue和 ...

  7. AI自动评审了下Transformer论文

    点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:机器之心 AI博士笔记系列推荐 周志华<机器学习> ...

  8. 机器学习模型 知乎_知乎CTO李大海:谢邀,来分享下内容社区的AI架构搭建与应用...

    谢邀!知乎 CTO 来分享下内容社区的 AI 架构搭建与应用. 「在信息爆炸的互联网海洋中,有价值的信息仍然是稀缺的」.知乎的诞生源于这样一个非常简单的初心. 而在挖掘真正有价值的信息过程中,知乎很好 ...

  9. 分享3个自动生成文案的工具,月入6000,做自媒体不会写文案?

    做自媒体短视频不会写文案,头都大了! 在这个各种辅助工具"泛滥"的自媒体时代,你还在自己写文案? 事实上,对于一个刚开始做自媒体的新手小白来说,写视频文案是一件比较费力的事情. 今 ...

最新文章

  1. 浏览器下载附件Content-Disposition
  2. centerOs-6.8的安装
  3. [转]在Javascript中闭包(Closure)
  4. QM课程02-外部功能
  5. ajax异步同步加载PHP代码,jquery中的ajax同步和异步详解
  6. 【性能测试】性能需求挖掘、性能方案制定及压测场景设计之疑惑与思考(一)
  7. 图标圆角角度_UI设计中图标的规范及原则【附全套视频】
  8. AI变革下的“百度一下”
  9. python 抽象类、抽象方法、接口、依赖注入、SOLIP
  10. set+线段树 Codeforces Round #305 (Div. 2) D. Mike and Feet
  11. winserver2012安装语言包
  12. 传输线路动态巡检探索
  13. 用C#写经理评分系统
  14. 人工智能 深度学习 机器学习
  15. 什么是小托福考试?适合什么学生报考?
  16. 深入解析protobuf 2-自定义protoc 插件
  17. springboot之微信支付与退款
  18. STM32F103C8T6基于Arduino框架下利用定时器跑RBG灯闪烁
  19. Apache Dubbo(概念篇)
  20. UTM——统一威胁管理

热门文章

  1. php5.0 cms安装教程,MySQL_KingCMS5.0从安装到设置使用教程,1.首先到KingCMS官方下载KingCMS5.0 - phpStudy...
  2. 电信信息服务器,中国电信网上营业厅
  3. 安装mysql5.7防火墙关了为什么远程登录不了呢?
  4. 3A和ISP算法概念梳理
  5. C盘左右两边都有恢复分区,如何扩展C盘大小
  6. 编码、解码、总结大全
  7. 【VNC使用指南】Ubuntu Kylin 使用 TigerVNC
  8. Python使用Pandas读写EXCEL文件教程
  9. 第3章 直流电机的工作原理及特性 学习笔记(一)
  10. 什么是云虚拟主机_云虚拟主机有什么用