最近在做项目的敏感词库筛选更新。笔者最终的目标是通过百度API将现有的敏感词库筛选更新成。

一、准备工作

读者需在百度智能云登陆账号,然后开通百度内容审核功能,然后根据API Key和Secret Key可以获得调用接口所需的access_token。

二、代码调用API进行筛选

获得API后就是写代码进行筛选了,笔者Python代码如下:

import requests
import json#获取审核结果
def get_result(data_str):params = {'text': data_str}request_url = 'https://aip.baidubce.com/rest/2.0/solution/v1/text_censor/v2/user_defined?access_token=【此处写你自己的token】'result = requests.post(request_url, headers={'Content-Type': 'application/x-www-form-urlencoded'}, data=params).textpredict_res = json.loads(result)print(predict_res)return predict_res['conclusion']#读取待测文本
def get_txt():with open('./待筛选文本/po/drug.txt', 'r', encoding='utf-8') as f:with open('./筛选结果/drug_检测失效.txt', 'a', encoding='utf-8') as f_err:with open('./筛选结果/po/drug.txt', 'a', encoding='utf-8') as f_result:for line in f:#             print(line.replace('\n',''))result = get_result(line.replace('\n',''))if result == "疑似":f_result.write(line)elif result == "不合规":f_result.write(line)elif result == "合规":print(line.replace('\n','')+"检测结果为合规")else:print(line.replace('\n','')+"检测失效")f_err.write(line)
#主函数
if __name__ == '__main__':get_txt()print("筛选结束")

三、筛选结果

敏感词筛选分为两个部分:中文敏感词和藏文敏感词。中文部分的敏感词除了分为六个大类外,还将敏感词分为正向敏感词和负向敏感词。藏文敏感词则只是将敏感词分为六个大类,未分正负向:

筛选前后的敏感词库已经上传到CSDN,需要的读者可自行下载:https://download.csdn.net/download/m0_37872090/12274456

该词库仅用于技术测试,严禁用于违法活动!

百度内容审查做敏感词库筛选相关推荐

  1. 网站发帖敏感字java_网站敏感词过滤的实现(附敏感词库)

    现在基本上所有的网站都需要设置敏感词过滤,z似乎已经成了一个网站的标配,如果你的网站没有,或者你没有做相应的处理,那么小心相关部门请你喝茶哦. 最近在调研Java web网站的敏感词过滤的实现,网上找 ...

  2. 安卓上利用百度输入法提供的导入词库与个性短语,批量造词方便输入

    最近有做个小APP,里面管理了很多的商品,商品名称不是常见的词,用户在会需要经常输入这些商品名称(软件外部,无法做自动补全),每次都要选词,正确的候选项往往不会出现在很前面,容易误选,输入效率较低.按 ...

  3. php返回当前字符串把所有敏感词变红,PHP 实现敏感词 / 停止词 过滤(附敏感词库)...

    敏感词.文字过滤是一个网站必不可少的功能,如何设计一个好的.高效的过滤算法是非常有必要的.在实现敏感词过滤的算法中,我们必须要减少运算,而 DFA 在 DFA 算法中几乎没有什么计算,有的只是状态的转 ...

  4. php 对全角字符的过滤,php在做敏感词过滤时怎么解决用特殊符号分割、简繁体、半角全角,来绕开过滤的问题?...

    彻底地过滤敏感词 回复内容: 彻底地过滤敏感词 过滤和谐词其实并不是一个好策略,有一万种说出敏感词的方法,就一定会有第一万零一种,如果你反复设置程序去和谐这些词,最后会发现,你的会员连最基本的一些话都 ...

  5. 敏感词库 php,敏感词过滤的php类库

    简介: class Logic_BlackWord { const APP_FORUM = 1; const APP_BLOG  = 2; const APP_VOTE  = 3; public fu ...

  6. php 调用 百度SDK 实现 图片审核+文本内容审核(敏感词过滤)

    1.注册百度智能云账号 2.控制台领取免费资源.创建内容审核应用 3.使用 <?phpnamespace App\Http\Controllers;use app\Request;class A ...

  7. android 常用短语的添加,操作方法:使用Android上的百度输入法提供的导入词库和个性化短语,批量创建单词便于输入...

    最近,我制作了一个小型APP,可以管理许多产品.产品名称不是一个常用词.用户经常需要输入这些产品名称(在软件外部,无法自动完成),并且每次都必须选择单词,正确的候选者通常不会出现在前面,很容易出错,并 ...

  8. python敏感词过滤replace_Serverless 实战:3 分钟实现文本敏感词过滤

    敏感词过滤是随着互联网社区一起发展起来的一种阻止网络犯罪和网络暴力的技术手段,通过对可能存在犯罪或网络暴力的关键词进行有针对性的筛查和屏蔽,能够防患于未然,将后果严重的犯罪行为扼杀于萌芽之中. 随着各 ...

  9. select下拉框怎么去掉空白_行业词库:网站长尾关键词优化怎么做呢?

    发布时间:2020-11-12 19:37:44来源:行业词库作者:长尾关键词优化阅读: [导读]:一个正规的流量网站长尾关键词布局是非常重要,因为80%的流量来自于长尾词,做流量就是做行业词库,就是 ...

  10. 敏感词过滤算法 为内容保驾护航 Java/.Net/C++/c/Python等语言是如何进行敏感词打码限制的 高效防范违规内容

    有人的地方,就有江湖,有输入框的地方,就有注入风险!有输入框的地方,就有敏感词!敏感词就像一个平台杀手,可能直接导致平台被封锁! 敏感词是一个APP.一个网站.一个内容平台的"杀手" ...

最新文章

  1. Git环境搭建及简单的本地、远程 两库关联
  2. 数据集合 oracle,oracle集合
  3. mysql 轨迹数据存储_基于Tablestore实现海量运动轨迹数据存储-阿里云开发者社区...
  4. codeforces 1030A-C语言解题报告
  5. 校赛热身 Problem C. Sometimes Naive (状压dp)
  6. php 前后端 不对称加密,AES前后端对称加密
  7. 公共代码之密码加解密
  8. Python计算水仙花数
  9. 软考-内存按字节编址,求地址间的存储单元数量(容量)以及芯片个数。
  10. 删除的PSD文件在哪可以恢复?一定要看看
  11. 3dmax软件导入模式删除四种场景广告方式
  12. authorize.AuthorizationException: User: livy is not allowed to impersonate
  13. 常见硬盘接口技术:从IDE、SCSI到SATA、SAS再到M.2、PCIe
  14. JavaScript正则表达式匹配中英文以及常用标点符号白名单写法
  15. ABAP对excel的操作(合并单元格,设置边框)
  16. Linux安装库时安装源错误,linux环境下golang安装第三方库的时候出错的决办法
  17. 计算机水平熟悉情况,计算机水平如何填
  18. Assembly ADODB注册
  19. python网络安全设计_专为渗透测试人员设计的 Python 工具大合集
  20. lib vs 生成pdb_pdb文件 VS c++编译

热门文章

  1. CocosCreator休闲游戏发布到字节跳动平台
  2. sql基本语句返回值类型
  3. (戴尔灵越7572)笔记本外扩显示器以后,笔记本没有声音了的解决办法
  4. 用计算机考试时怎么返回桌面快捷键,win10系统如何使用返回桌面快捷键?快速返回到电脑桌面的方法...
  5. 【平面设计学习】Ai使用心得-扁平化制作
  6. ST电机库5.4.5FUL版本(ST MC SDK)
  7. 用友u8怎么导出凭证_用友软件如何导出凭证模板?
  8. linux服务器上已安装R 用户下载R包,服务器R语言包下载、R包离线安装
  9. Windows操作系统管理进程和线程:内核模式和用户模式
  10. win 10 下打开delphi7 帮助文档