奇技指南

本文主要以文本为对象,简要地介绍花椒平台在文本反垃圾方面所采用的文本垃圾拦截技术

本文转载自花椒技术公众号

背景

随着花椒用户和主播用户的数量不断增加,一些非法用户(垃圾虫)利用花椒平台数据流量大、信息传播范围广的优势,通过各种多媒体手段(文本、图片、语音、短视频等)在用户个人资料信息(昵称,签名,头像等)及直播间聊天等场景散播垃圾信息,这些信息严重影响了用户的观看体验,甚至会导致用户流失、活跃度下降,此外一些情节严重的违法违规内容会给平台带来运营风险和负面的社会影响。

问题分析

本文主要以文本为对象,简要地介绍花椒平台在文本反垃圾方面所采用的文本垃圾拦截技术。目前平台上所接触到的文本垃圾信息基本上可以概括为以下几个类别:

  1. 垃圾广告:各类商品广告、诈骗广告等

  2. 色情内容:色情词汇、色情服务及低俗信息等

  3. 暴恐、政治敏感词: 暴恐涉政、违禁品等

  4. 竟品信息及其他信息等

对于平台初期数据量较少、垃圾信息形式单一的情况,采用人工审核的方式基本可以解决问题。但是随着平台业务的拓宽与发展,业务量迅速增加,仅依靠人工审核方式无法应对,这时需要借助一些规则策略和算法模型辅助人工审核,以减少人工审核工作量,提高审核效率。

简单的垃圾信息,可以通过设置规则进行关键词过滤和屏蔽,正则表达则可以发挥很大作用。但是发布者为了逃避拦截,通常都会对垃圾信息进行改造和伪装,比如拼音替换,同义词替换,象形字替换,嵌入表情字符,用表情代替字符,甚至是将文字顺序打乱。对于复杂的信息,其表达形式广泛、没有规律,仅仅通过规则过滤达不到效果,可借助精准的算法模型进行检测。

垃圾信息拦截是一个常见的文本二分类任务,是自然语言处理领域的一个基本任务,目的是推断出给定的文本的标签。二分类问题常见的评价指标有准确率(accuracy),精准率(precision),召回率(recall),F1-score等。

文本分类算法介绍

传统文本分类方法

一般来讲传统机器学习文本分类任务过程包括文本预处理、特征提取、文本表示、训练分类器和分类性能评估。其中构建特征工程和分类建模方法是文本分类任务中最重要的两个环节。文本的预处理包括文本分词、去除停用词(包括标点、数字和一些无意义的词)、词义消歧、统计等处理。中文与英文相比,在中文文本预处理过程中,首先要进行分词处理,而英文文本单词与单词之间通过空格即可分割,无需进行分词处理。特征提取和文本表示目的就是将文本转化为计算机可以理解的向量形式。词袋模型(Bag of Words)是用于文本表示的最简单的方法, BoW把文本转换为文档中单词出现次数的矩阵,只关注文档中是否出现给定的单词和单词出现频率,而舍弃文本的结构、单词出现的顺序和位置。词频-逆向文件频率(TF-IDF)是一种在文本挖掘中广泛使用的特征向量化方法,主要衡量一个文档中词语在语料库中的重要程度。Word2vec采用一系列代表文档的词语来训练word2vec权重矩阵,将每个词语映射到一个固定大小的向量。

分类器用的比较多的是LR,SVM,MLP,GBDT等,当然还有其他一些分类算法,这里不多赘述。

基于CNN的文本分类方法

随着互联网的普及,一些用户为求彰显个性,开始大量使用同音字、音近字、特殊符号等异形文字(火星文)。由于这种文字与日常使用的文字相比有明显的不同并且文法也相当奇异,目前平台上遇到的难以识别样本大多是数字、QQ、微信的变种、多是象形字符,不含语义、分词模型对这些符号无法处理而且文本都很简短。

Badcase样本示例

传统文本分类方法所存在的问题

  1. 这些文字如果使用常规的分词方法会导致分词失败

  2. 即使能成功分词,也很难查找到大规模语料库对词语进行向量表示

  3. 过滤异种符号和文字,导致抓不住火星文特征

因此需要一种不借助分词的模型,以单个字词为原子进行词向量表示,并且可以挖掘学习词与词之间的语序及语义信息。

因此需要一种不借助分词的模型,以单个字词为原子进行词向量表示,并且可以挖掘学习词与词之间的语序及语义信息。

TextCNN 原理

CNN(Convolutional Neural Network)卷积神经网络在图像处理方面应用很多,TextCNN模型创新性的将CNN结构应用在了NLP领域,为文本分类提供了新的思路,TextCNN解决了传统方法分词处理和词向量表示两个关键问题,其贡献主要有以下几点:

  1. 避免分词,以字符为单位的文本向量表示

  2. CNN能捕捉局部区域的词序及语义信息,所表达的特征更加丰富

  3. 采用不同尺寸的卷积核,可以提取到 n-gram 的特征

  4. 卷积结构运算速度快,模型响应时长控制在 50ms 以下

模型结构

TextCNN 模型采用交叉熵损失函数,即将文本处理建模为一个二分类问题。该模型先将文本进行词嵌入(Embedding)获得词向量,然后采用不同尺寸卷积核进行卷积运算提取特征,接着进行最大池化(Max pooling)得到显著特征,最后接一个概率输出层(Softmax)进行文本分类。

卷积部分

对于一维的文本数据,经过词向量化操作后可以得到类似于图像的二维向量。假设输入的每个词的向量维度为k,即词向量空间维度为k,则包含n个单词的句子组成一个 n×k 的二维矩阵,假设卷积核为h×k,h则是卷积滑动窗口的大小,卷积特征

注意到卷积核的宽度k与词向量的维度一致,是因为输入的每一行向量代表一个词,即在抽取特征的过程中,将词作为文本的最小粒度

例如有一个样本 T={"我","爱","花","椒","直","播"},样本输入长度为N= 6,词向量空间维度为 k=5,假设滑动窗口尺寸h=4,则卷积核尺寸为4×5。

输入数据

卷积核

假设滑动窗口移动步长为1,上述输入数据经过卷积运算后将得到如下长度为n-h+1=3的向量输出结果

同理,假设采用2,3,4三种尺寸卷积核,每种尺寸对应有m个卷积核,这样经过卷积运算后,每个尺寸的卷积核对应有的卷积特征。

池化层

最大池化即对领域内特征点取最大值,通常情况下max-pooling能减小卷积层参数误差造成估计均值的偏移,更多的保留显著特征信息,最大池化的定义及示例如下:

对于上述卷积操作得到的3m个(n−h+1)×1的卷积特征采用尺寸为(n−h+1)×1的最大池化(max_pooling)操作得到3个m×1维的特征,最后这些特征进行拼接,得到3m×1维的向量。当用CNN提取出特征向量后,就可以将其输入到概率输出层(softmax)进行分类,其中softmax函数定义如下:

以下是TextCNN模型代码实现:

#coding:utf-8import tensorflow as tfimport numpy as npclass TextCNN(object):    def __init__(self, sequence_length, num_classes, vocab_size, embedding_size,                     filter_sizes, num_filters, l2_reg_lambda=0.0):        self.input_x = tf.placeholder(tf.int32, [None, sequence_length], name="input_x")        self.input_y = tf.placeholder(tf.float32, [None, num_classes], name="input_y")        self.dropout_keep_prob = tf.placeholder(tf.float32, name="dropout_keep_prob")        l2_loss = tf.constant(0.0)        #Embedding        with tf.device('/cpu:0'), tf.name_scope("embedding"):            self.W = tf.get_variable('lookup_table',                     dtype=tf.float32,                     shape=[vocab_size, embedding_size],                     initializer=tf.random_uniform_initializer())             self.W = tf.concat((tf.zeros(shape=[1, embedding_size]), self.W[1:, :]), 0)             self.embedded_chars = tf.nn.embedding_lookup(self.W, self.input_x)             self.embedded_chars_expanded = tf.expand_dims(self.embedded_chars, -1)        #Convolution        pooled_outputs = []        for i, filter_size in enumerate(filter_sizes):           with tf.name_scope("conv-maxpool-%s" % filter_size):              filter_shape = [filter_size, embedding_size, 1, num_filters]              W = tf.Variable(tf.truncated_normal(filter_shape, stddev=0.1), name="W")              b = tf.Variable(tf.constant(0.1,shape=[num_filters]), name="b")              conv = tf.nn.conv2d(self.embedded_chars_expanded,W,strides=[1, 1, 1, 1],                                        padding="VALID",name="conv")              h = tf.nn.relu(tf.nn.bias_add(conv, b), name="relu")              pooled = tf.nn.max_pool(h,ksize=[1, sequence_length - filter_size + 1, 1, 1],                                            strides=[1, 1, 1, 1],padding='VALID',name="pool")              pooled_outputs.append(pooled)       num_filters_total = num_filters * len(filter_sizes)       self.h_pool = tf.concat(pooled_outputs, 3)       self.h_pool_flat = tf.reshape(self.h_pool, [-1, num_filters_total])       with tf.name_scope("dropout"):           self.h_drop = tf.nn.dropout(self.h_pool_flat, self.dropout_keep_prob)       #Output       with tf.name_scope("output"):          W = tf.get_variable("W",shape=[num_filters_total, num_classes],                                    initializer=tf.contrib.layers.xavier_initializer())          b = tf.Variable(tf.constant(0.1, shape=[num_classes]), name="b")          l2_loss += tf.nn.l2_loss(W)          l2_loss += tf.nn.l2_loss(b)          self.scores = tf.nn.xw_plus_b(self.h_drop, W, b, name="scores")          self.predictions = tf.argmax(self.scores, 1, name="predictions")       #Loss       with tf.name_scope("loss"):          losses = tf.nn.softmax_cross_entropy_with_logits(logits=self.scores, labels=self.input_y)          self.loss = tf.reduce_mean(losses) + l2_reg_lambda * l2_loss      #Accuracy        with tf.name_scope("accuracy"):           correct_predictions = tf.equal(self.predictions, tf.argmax(self.input_y, 1))           self.accuracy = tf.reduce_mean(tf.cast(correct_predictions, "float"), name="accuracy")

训练结果

小结

本节简要地介绍了传统方法在文本分类方法任务中的基本流程以及存在的问题,并且阐述了深度学习方法在文本分类任务中优势,以及TextCNN以单个字符为单位,采用卷积提取局部特征,对于处理类似火星文的文本更加鲁棒。此外之所以选用CNN而没有选用像word2vec以及没有提到的RNN等深度学习方法,是因为CNN相对于word2vec能获得更好的局部的语序信息及语义信息;相比于RNN而言,CNN 是分层架构,CNN更适合提取关键特征,对于分类问题效果更好,而RNN是连续结构,更适合顺序建模,此外CNN适合并行计算,还可以采用GPU加速计算,响应时间短,inference只有3ms,非常适合垃圾文本检测速度的要求。

文本反垃圾模型线上部署流程

服务架构

反垃圾服务分为线上与线下两层。线上实时服务要求毫秒级判断文本是否属于垃圾文本,线下离线计算需要根据新进的样本不断更新模型,并及时推送到线上。垃圾文本识别是一个长期攻防的过程,平台上的垃圾文本会不断演变,模型的效果也会随之变化。

Tensorflow serving模型部署

TensorFlow Serving是一个灵活、高性能的机器学习模型服务系统,专为生产环境而设计。使用TensorFlow Serving可以将训练好的机器学习模型轻松部署到线上,并且支持热更新。它使用gRPC作为接口接受外部调用,服务稳定,接口简单。能检测模型最新版本并自动加载。这意味着一旦部署 TensorFlow Serving 后,不需要为线上服务操心,只需要关心线下模型训练。

客户端调用

TensorFlow Serving通过gRPC服务接受外部调用。gRPC是一个高性能、通用的开源RPC框架, gRPC提供了一种简单的方法来精确地定义服务和自动为客户端生成可靠性很强的功能库。

在使用gRPC进行通信之前,需要完成两步操作:

  1. 定义服务
  2. 生成服务端和客户端代码

定义服务这块工作TensorFlow Serving已经帮我们完成了。TensorFlow Serving项目中model.proto、predict.proto和prediction_service.proto这个三个.proto文件定义了一次预测请求的输入和输出

接下来用写好的客户端程序来调用部署好的模型,启动服务后,访问下面地址可以查看识别结果,说明模型部署成功且可以正常使用。

参考资料

  1. Kim Y. Convolutional neural networks for sentence classification[J]. arXiv preprint arXiv:1408.5882, 2014.

  2. http://web.stanford.edu/class/cs224n/slides/cs224n-2019-lecture11-convnets.pdf

  3. https://www.cnblogs.com/ljhdo/p/10578047.html

  4. https://tensorflow.google.cn/tfx/serving/architecture

  5. https://baike.baidu.com/item/火星文/608814

关注我们

界世的你当不

只做你的肩膀

360官方技术公众号

技术干货|一手资讯|精彩活动

空·

无符号数的算术四则运算中的各类单词的识别_文本反垃圾在花椒直播中的应用概述...相关推荐

  1. 尚硅谷-宋红康-JVM上中下篇完整笔记-JVM上篇_内存与垃圾回收篇

    前言 一.jvm及java体系结构 1. Java及JVM简介 TIOBE语言热度排行榜 https://www.tiobe.com/tiobe-index/ 世界上没有最好的编程语言,只有最适用于具 ...

  2. opencv 手部识别_手势识别结合到VR头显中,有哪些难点?

    文/知乎用户mysunnytime "VR 头盔要做到「手势识别」,有哪些需要攻克的难点?" 工业场景下,我们可以把这个问题转化为,如何利用更少的软硬件条件,对VR使用场景的手势识 ...

  3. 反垃圾邮件软件_Linux中Postfix反病毒和垃圾邮件工具(十)

    amavisd-new amavisd-new呼叫器是一个连接MTA和内容检测工具(诸如病毒扫描工具和SpamAssassin)的高性能接口程序,使用perl语言写成.它一般通过SMTP.ESMTP或 ...

  4. 文件夹中pdf右侧预览窗格_从Microsoft Office 2003“研究窗格”中搜索博客

    文件夹中pdf右侧预览窗格 Here's an interesting thing. 这是一件有趣的事情. MyST Technology Partners have built an Office ...

  5. 在idea项目中的android包不能识别_项目调试编译和部署运行

    项目调试 Logcat日志 顾名思义,logcat是android系统的日志包,提供给开发者供调试程序时使用.logcat一共有Verbose.Debug.Info.Warn.Error等不同级别的日 ...

  6. ajax中的url如何传递变量_如何创建和参数化UDT数据类型中的变量及IN,OUT 等参数?...

    从数据类型的意义上说 UDT 并不被 CPU 所识别,而是在离线程序中自定义(组合)的数据类型. S7 程序的自定义数据类型并不能装载到 S7 CPU 中.UDT 是由递增的编辑器创建并编辑或由源文件 ...

  7. 操作系统中进程并发运行的过程_三种电磁流量计运行过程中常见故障解决详情!...

    原标题:三种电磁流量计运行过程中常见故障解决详情! 昨天给大家介绍了电磁流量计的一些典型故障,今天我们继续来谈电磁流量计的故障问题!电磁流量计在正常的保养与维护之后,在正常使用的过程中依旧是会因为当时 ...

  8. mysql表中的多对多关系表_「一对多」关系型数据库中一对多,多对一,多对多关系(详细) - seo实验室...

    一对多 在关系型数据库中,通过外键将表跟表之间联系在了一起. 一个班级有很多学生,外键维护在学生的一方,也就是多的一方.(在做页面设计的时候,需要把两个表连接到一块查询信息) 建立一个student和 ...

  9. java中bean的定义有哪些_详解Java的Spring框架中bean的定义以及生命周期

    bean的定义形成应用程序的骨干是由Spring IoC容器所管理的对象称为bean.bean被实例化,组装,并通过Spring IoC容器所管理的对象.这些bean由容器提供,例如,在XML的定义, ...

最新文章

  1. ISA Server实验环境搭建与企业×××配置
  2. 通过sql-labs进行sql注入学习(一)
  3. mybatis plus使用雪花算法_MyBatis-Plus进阶
  4. 前端学习(3320):undefine和null 3
  5. 【POJ】1276 Cash Machine 【背包问题】
  6. 中国人民公安大学(PPSUC) 网络对抗技术作业一
  7. web 前端签名插件_10款前端开发神器,助你成前端高手?
  8. 个人征信报告,OCR识别,OCR识别技术方案
  9. 测绘的行业标准规范和国家标准全部可下载
  10. ssdp java_SSDP协议的Android实现以及使用
  11. IntelliJ IDEA常用插件及其安装
  12. (转)MySQL数据库InnoDB存储引擎的磁盘空间利用率分析
  13. 直通串口线与交叉串口线的区分
  14. removeclass 传入两个类_jQuery源码解读之removeClass()方法分析
  15. 爱学术,让论文写作不再难!
  16. Android 通过shape画线,1条线2种颜色,左边线条和背景色一致,右边线条为divider颜色
  17. DataStream API【3】
  18. Excel VBA:设置单元格边框
  19. nginx交叉编译流程
  20. 项目风险的主要来源有哪些?应如何防范

热门文章

  1. 实时监控:基于流计算 Oceanus ( Flink ) 实现系统和应用级实时监控
  2. unsigned a:1;
  3. consul配置参数大全、详解、总结
  4. 接口返回时间较长,如何提高响应速度?
  5. Spark _19 _Spark内存管理
  6. 异常处理——namenode启动成功但是没有namenode进程
  7. 解决idea maven的导入依赖过慢
  8. leetcode 722. Remove Comments | 722. 删除注释(Java)
  9. DevOps运维开发一体化 - 公开课笔记
  10. 【Git】从Git远程存储库中删除所有.pyc编译文件;附常用gitignore配置