COLD:中文冒犯性语言检测数据集
写在前面
大家好,我是刘聪NLP。
祝大家新的一年,身体健康,代码无bug,论文全accepted。
早上刷arxiv时,发现一篇中文「冒犯性语言」检测数据集的论文,全名为《COLD: A Benchmark for Chinese Offensive Language Detection》
paper:https://arxiv.org/pdf/2201.06025.pdf
为什么要分享这个数据集?
真实案例:本人在公司搞过一个「生成式闲聊机器人」,为了确保不出现敏感词语,通过大量敏感词典进行过滤;当自己觉得信心满满时,通过各方的测试反馈,发现虽然过滤了敏感词汇,但是依然会生成一些不友好的语言,甚至有时会「怼」用户;并且当测试对其进行诱导提问时,很容易生成一些奇奇怪怪的内容。
因此,如何可以使生成内容不包含冒犯性语言以及冒犯性语言的检测,在模型上线时十分重要。
不过数据集还没有真正的放出来,期待一下,实时关注。
原话:Dataset and codes will be made publicly available upon paper publication
介绍
预训练语言模型的出现,使得很多生成任务取得了很好的效果。但由于这些模型均基于大规模数据训练,不可避免地学习到一些有偏见或冒犯的内容,造成在真实场景上线时无法保证安全性。如下图所示,
为了解决系统中的冒犯性语言问题,仅靠词典规则是远远不够的,因此很多人开始了语言毒性研究,也出现了一些数据集,例如WTC、OLID、BAD和RealToxicPrompts;但这些数据都是英文数据集,无法在中文任务上直接使用,就算用过机器翻译的方法,翻译成中文,但语言习惯、语言表达、数据质量都无法得到保证。
该论文研究了中国社交平台上的冒犯性语言和流行的生成语言模型,提出了第一个可公开使用的中文侮辱性语言数据集-COLDDateset,涵盖了种族、性别和地区等话题内容。
数据集
「无标注数据获取」,从社交媒体平台(微博和知乎)上抓取发布的真实数据,但由于平台均存在语言检测机制,表达冒犯性的数据比例相对较少。因此通过两种策略收集数据,(1)从相关的子主题爬行,在知乎中搜索一些被高度讨论的子话题,并直接从后续评论中抓取数据。(2)关键字查询,从知乎和微博随机抓取大量数据,通过预先定义一些相关的关键词,从原始数据中检索出更多样化的句子。
「数据标注」,对上述得到的无标注数据,先进行部分人工标注,然后使用部分数据训练模型,再通过人工对不同的概率区间中选取数据标注,重新训练模型,反复五次,最终得到带有标注的数据。
数据集共包含37480个句子,其中,带冒犯性语言的句子有18041个,平均长度53.69个字符;不带冒犯性语言的句子有19439,平均长度44.20个字符。
基线模型
论文中共提到了五种模型,如下:
COLDetector,使用COLDDateset数据,训练的bert-base模型。
Baidu Text Censor,百度文本审查工具,旨在识别有害内容,包括色情、暴力、恐怖主义、政治敏感性和辱骂。
Prompt-based Self-Detection,基于提示的自检模型,探索通过语言模型的内部知识来用于有害内容的自我检测。
TranslJigsaw Detector,使用翻译成中文的英文TranslJigsaw数据,训练的bert-base模型。
Random,随机预测。
结果如下图所示,采用COLDDateset数据训练的模型效果较好
对于Baidu Text Censor,为了用户更好地体验,更倾向检测辱骂和暴力等非法内容,对于偏见的冒犯性语言检测效果较差。 对于Prompt-based Self-Detection,不同预测词语对,对结果影响较大,如下 对于TranslJigsaw Detector,验证了使用机器翻译过的英文数据集,较其他方法虽然效果有提示,但不如COLDDateset效果,如下,
对现有生成模型的评价
对四种在Huggingface开源的生成模型进行冒犯性评价,结果如下,无论提示语是否包含冒犯性内容时,生成结果都会存在冒犯性内容。
并且,当提示语包含冒犯性内容时,生成结果存在冒犯性内容概率越高,
总结
个人认为,如果生成模型想要工业落地,控制生成内容是至关重要的(我组长对我说的一句话,现在没出问题,是还没人想搞你。),仅仅敏感词点过滤会有些单薄,而冒犯性语言检测显得只管重要,需要从语义中检测内容。
该数据集仅从单句上进行标注,因此在对话系统中使用该数据集,还是存在一定的的弊端,如果通过联系上下文发现内容的风险。
放假ing,但是也要学习。
喜欢的的同学们,记得点赞,关注,转载请说明出处哟!!!
整理不易,请多多点赞,关注,有问题的朋友也欢迎加我微信「logCong」、公众号「NLP工作站」、知乎「刘聪NLP」私聊,交个朋友吧,一起学习,一起进步。
我们的口号是“生命不止,学习不停”。
COLD:中文冒犯性语言检测数据集相关推荐
- [论文素材]Previous Work----自动仇恨言论检测和冒犯性语言问题
目录 摘要 介绍 相关工作 数据 特征 模型 结果 结论 https://arxiv.org/pdf/1703.04009.pdf 发布时间:2017 年 3 月 11 日 (Google翻译) 摘要 ...
- 【Elasticsearch】如何使用 Elasticsearch 6.2 搜索中文、日语和韩语文本 - 第 3 部分:语言检测工具
1.概述 翻译:https://www.elastic.co/cn/blog/how-to-search-ch-jp-kr-part-3 这是我有关中文.日语和韩语文本搜索的系列文章的第 3 部分.如 ...
- 中文OCR光学字符检测与识别二:用最先进的DBNet训练自己的数据集检测中文文本
中文OCR光学字符检测与识别二:用最先进的DBNet训练自己的数据集检测中文文本 本文介绍 中文OCR光学字符检测与识别二:用最先进的DBNet训练自己的数据集检测中文文本 中文OCR光学字符检测与识 ...
- ICDAR2017中文检测数据集
http://valser.org/thread-1200-1-1.html 端到端场景文本识别 M. Liao, B. Shi, X. Bai, X. Wang, W. Liu. TextBoxes ...
- 中文自然语言处理语言资源项目(ChineseNLPcorpus)
ChineseNLPcorpus An collection of Chinese nlp corpus including basic Chinese syntactic wordset, sema ...
- 【yolo5】目标检测数据集制作
目录 1.先验知识 2. VOC和COCO数据集: 2.1 VOC形式及其数据结构XML特点(好像可以使用py库中工具直接进行清洗) 2.1.1 VOC数据集的组织结构如下所示 2.1.2 XML的操 ...
- 04.微博消息的语言检测
04.微博消息的语言检测 郑昀 201010 隶属于<02.数据解析>小节 大意是,封装Google语言检测ajax web service的接口,输入一段话,输出语言种类.这个方法是从R ...
- 世界最大的多语言语音数据集现已开源!超40万小时,共23种语言
点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 博雯 发自 凹非寺 量子位 报道 | 公众号 QbitAI 最近,F ...
- 表面缺陷检测数据集汇总及其相关论文集收集 | Github开源
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 Github:Surface-Defect-Detection ???????? 我不断总结表面缺陷研 ...
最新文章
- 【UWB】Savitzky Golay filter SG滤波器快速入门并上手使用
- Spring5参考指南:AOP代理
- 虚拟化模板新建虚拟机后 wsus控制台无法看到所有客户端计算机
- pythonista3安装stash_Pythonista下stash安装教程
- 更新Docker中的Jenkins版本
- create-react-app 脚手架工具完善自己所需要的入口文件
- dataframe里面数据截取的规律
- oracle 查看白名单,oracle配置访问白名单教程
- Apache 安全配置方法
- [PVE]解决 ProXmoX VE升级 apt-get update 报错的问题
- 路由器修改dns服务器,路由器DNS怎么设置如何修改路由器DNS服务器地址
- Python400集大型视频,无偿分享,从正确方向学习python,全套python入门完整视频
- 2022-2028年中国代餐轻食市场投资分析及前景预测报告
- IDEA Diagrams查看类图关系太乱
- php json_decode gbk,,json_decode含gbk字串
- Excel VBA 打开百度网页输入关键字并搜索
- 中国下一个十年的大趋势
- 如果想入手软路由我推荐友善官方出品的NanoPi-R2S和NanoPi-R5S
- SHARC库函数cfft_mag详解
- 33 ArcToolBox学习系列之数据管理工具箱——投影与变换(Projections and Transformations)未完待续……...
热门文章
- 2021.9.15 每日总结
- python 爬虫之字体反反爬
- java map存储对象_java-在ConcurrentHashMap中存储复杂对象
- Android 关闭屏幕方法
- 区块链技术与应用-----区块链概念
- Idea突然一直Indexing解决方法
- windows下mingw32 编译 libusb[实测可行]
- windows功能_【各种功能升级】微信windows版v2.9新体验
- Windows7双屏扩展及双屏桌面背景独立显示
- css hover变成手_html实现鼠标悬停变成手型实现方式