作者 | 阿里文娱高级开发工程师千起

出品 | AI科技大本营(ID:rgznai100)

背景

随着5G时代来临,新媒体行业快速发展,盗版传播平台多样化、形式多样化,版权方难以通过有限的人力实现最大限度的维权。根据MUSO报告显示2017年盗版网站访问量达到3000亿次。人工智能逐渐成熟,盗版监测覆盖难、查找难的问题将迎刃而解。

那么如何运行将人工智能技术运用到盗版监测中?我们先从一个例子开始:下面是一个普通用户查找盗版资源的过程:

上面的例子中有两个操作:搜索查找 + 结果筛选。其中“结果筛选”是用户阅读搜索结果,并确认当前结果是否包含盗版内容。 这一过程在人工智能领域叫识别,因为用户阅读的是文字,所以我们叫它:自然语言识别。

普通用户可以很容易的判断出“哪些搜索结果包含盗版内容?”,那么机器是怎样模拟阅搜索结果呢?下面我们分析3个典型的盗版搜索例子。

盗版搜索结果分析

1、 用户搜索盗版影片示例

 2、 “判断难点“分析

1)  归类“判断难点”

(1) 名称近似类:系列类影片、名称包含类影片;

(2) 主题不相关类:结果是资讯、新闻、彩票、广告等信息;

(3) 同名影片类:相同影片的歌曲、游戏、戏剧、通用名词等有歧义的信息;

(4) 变换类: 影片名称缩写、人工故意添加的干扰信息。

2) 自然语言识别中怎样处理这几种情况?

(1) 名称近似类: 

答:回想一下人是怎样处理的?如果一个人是它知道所有影片信息,那么他就知道两个影片是不一样的。这类问题在自然语言中属于知识图谱(Knowledge Graph,简写:KG)的范畴。

(2) 主题不相关类:结果是资讯、新闻、彩票、广告等等信息;

答:普通人因为有一些背景知识,是知道哪些是属于新闻类,哪些属于广告类。由于这些分类是有限的,所以自然语言中通常使用文本分类(Text classification)。常见的文本分类有二分类和多分类(输出大于2种分类结果)。

(3) 同名影片类:相同影片的歌曲、游戏、戏剧、通用名词等有歧义的信息;

答:识别同名需要有两步。第一步提取句子中的影片实体名称,第二步辨别句子描述的是哪个领域的影片。这里需要自然语言领域中的 实体识别 (Named-entity recognition,简写:NER)+ 文本分类。通俗讲,实体识别是找中句子中的影片,而文本分类是区分这个句子说的是哪个领域的影片。

(4) 变换类: 影片名称缩写、人工故意添加的干扰信息。

答:这类问题和问题1)一样,这类问题在自然语言中属于知识图谱(Knowledge Graph,简写:KG)的范畴。模型需要背景知识,知道影片有哪些缩写。

自然语言识别如何识别盗版呢?

在自然语言处理领域通过有三部分。分别为:文本预处理、特征计算、模型训练/预测。

  • 文本预处理:清洗样本,并将文本格式、符号转化为统一的形式;

  • 特征计算: 将文本转化为数字。这一步可以使用特征工程,或者词袋(oneHot)、文本嵌入(word embedding)模型、深度Transformer模型;

  • 模型训练/预测:选择合适的模型算法,训练模型。模型方面可以使用决策树类型(例如:XGBoost、LightGBM、Deep Forest等等),也可以使用深度网络(例如:LSTM、BERT、Transformer-XL等等)。当然也可以使用多个模型(一个模型的输出,作为一个模型的输入)。

 那么模型是什么样子的?

下面是从样本输入到模型产出,落地一个模型需要做的步骤。

总结

这篇文章中提到的方法已经落地到实际工程中,准确率可以达到超越人工盗版结果判断水平。目前自然语言仍然有非常强的业务领域特点,不同业务领域会遇到不同的行业特定问题,而且前沿的模型提供原生的英文支持,所以在工程落地场景中,需要结合实际业务场景不断的优化模型。

【end】

原力计划

《原力计划【第二季】- 学习力挑战》正式开始!即日起至 3月21日,千万流量支持原创作者!更有专属【勋章】等你来挑战

推荐阅读

  • 简单粗暴理解与实现机器学习之逻辑回归:逻辑回归介绍、应用场景、原理、损失以及优化

  • 用于小型图形挖掘研究的瑞士军刀:空手道俱乐部的图表学习Python库

  • 全方位解析阿里云核心技术竞争力,CSDN 独家在线峰会来了!

  • 留德武汉程序员在疫区:凌晨下载数据,网速影响工作

  • Libra新编程语言 :Move 的所有权模型灵感来源原来是它……

  • 云原生的漏洞与威胁有哪些?云原生安全性如何?这里有你想知道的一切!

  • 你点的每个“在看”,我都认真当成了AI

从样本处理到决策模型,如何用NLP识别盗版资源?相关推荐

  1. 盗版资源变少?这个比人还“眼尖”的 NLP 模型立下汗马功劳

    作者 | 阿里文娱高级开发工程师千起 出品 | AI科技大本营(ID:rgznai100) 背景 随着5G时代来临,新媒体行业快速发展,盗版传播平台多样化.形式多样化,版权方难以通过有限的人力实现最大 ...

  2. Python实现轨迹识别:如何用代码识别物体的运动轨迹

    Python实现轨迹识别:如何用代码识别物体的运动轨迹 在科技不断进步的时代,轨迹识别已经是一个非常重要的应用场景.我们可以利用机器视觉技术,对物体的运动轨迹进行监测和分析,以此应用于智能交通.智能安 ...

  3. 如何用Python识别图片中的文字?

    如何用Python识别图片中的文字? 转:https://mp.weixin.qq.com/s/wXDJoAAI8y1mtbUuwATngQ 以下文章来源于微信公众号:新建文件夹X ,作者ZackSo ...

  4. 如何用Endnote插入网页资源作为参考文献

    如何用Endnote插入网页资源作为参考文献 首先参考一个百度文库的文章,endnote怎样插入网页做参考文献 2.常用的参考格式参考文献引用网页

  5. 手机扫描文字如何用软件识别

    手机扫描文字如何用软件识别 经常上网的朋友可以发现,现在网络上的很多文字资料都是通过图片格式进行保存的,虽然这种方法有效保证了文字的安全,但是也在一定程度上给需要编辑文字的用户增加了麻烦,很多用户不得 ...

  6. 如何用NLP辅助投资分析?三大海外机构落地案例详解

    作者 | 熵简科技联合创始人李渔 出品 | AI科技大本营(ID:rgznai100) 他山之石,可以攻玉.在这篇文章中,作者将带着大家看一看海外机构在自然语言处理与金融投资分析这个交叉领域的研究和应 ...

  7. 如何用NLP技术和标题党说拜拜-文本摘要

    点这里排版好 拖延症 拖了一个星期 ?‍♀️ 然后在查文献的时候 发现中文的资料比较少 于是 文本摘要 算是NLP领域一个还实用的细分领域吧 其实按我的理解 文本摘要 是一个披着NLP外衣的CV领域内 ...

  8. 68款大规模机器学习数据集,涵盖CV、语音、NLP | 十年资源集

    参加 2019 Python开发者日,请扫码咨询 ↑↑↑ 作者 | 琥珀 出品 | AI科技大本营(ID:rgznai100) 此前营长为大家分享过不少机器学习相关数据集的资源,例如 Mozilla ...

  9. 【NLP】NLP爱好者学习资源推荐汇总

    导读:本文旨在整理汇总一些NLPer的学习资源,包括书籍.在线课程.博客等.本文中涉及的原始失效链接均已剔除或替换,博客部分均整理为近期仍在更新的博客,欢迎文末留言区交流补充. 书籍篇 <Spe ...

最新文章

  1. [NOI2014]魔法森林题解
  2. CREATE SEQUENCE添加自增序列及NEXT VALUE FOR返回序列号
  3. 2016-05-29 for循环几种应用
  4. 启动namenode报错:Journal Storage Directory /var/bigdata/hadoop/full/dfs/jn/dmgeo not formatted
  5. python检测局域网IP
  6. 模拟实现一个银行的取号机
  7. android app后台收不到消息,Android APP被关闭后无法收到推送消息(尝试)
  8. Time, Delays, and Deferred Work LDD3 学习笔记 + jiffies.h 分析
  9. 高企认定人员及研发费要求?
  10. Coremail2022Q4邮件安全报告:暴力破解骤降,盗号问题有所缓解?
  11. mysql存不了表情_mysql保存不了微信表情符emoji问题解决方案
  12. 打开idea后不显示界面
  13. 正则匹配数字和字母php,用php与js实现正则匹配数字和字母组合的密码
  14. sighold,sigset,sigrelse,sigpause,sigignore
  15. __attribute__中的constructor和destructor
  16. Python【3】:格式化输出
  17. vue在微信里面的兼容问题_vue 微信浏览器缓存问题解决方案
  18. 重点技术-20181008-GSON 报错HibernateProxy. Forgot to register a type adapter?
  19. 微信统一支付详解,坑太多,不得不写
  20. 第十三届蓝桥杯Java B组真题

热门文章

  1. SpringMVC + Hibernate-Validator 参数校验
  2. 笔记之远程桌面服务(RDS)
  3. solrcloud Read and Write Side Fault Tolerance
  4. css中的垂直居中方法
  5. Centos6.5更换163源 epel源
  6. 迪杰斯特拉算法(C语言实现)
  7. C++条件变量使用详解
  8. 谜题59:什么是差?
  9. php如何定时执行任务
  10. 用eclipse玩转Python,让习惯java开发的童鞋拥有一个更爽的开发体验