说到淘宝优质买家秀内容挖掘

必须从买家秀和卖家秀说起

我们总是能在卖家秀和买家秀中找到强烈反差

比如这样

这样

又或者这样

(图片来自网络)

买家秀和卖家秀对比这么一言难尽,那还怎么让运营小二们愉快地玩耍?出于运营社区的需要,运营的小二们得从当前的买家秀中抽取出一批高质量的内容,作为社区的启动数据。

找到高质量的买家秀有那么难吗?就是这么难!这不,运营的小二们碰到了以下几个问题:

  • 买家秀质量良莠不齐

淘宝海量的买家秀无疑都很难入得了运营小二们的法眼,以业务维度进行筛选的买家秀,审核通过率普遍不足三成。这意味着,在海量的买家秀中,能被运营小二们看对眼的,无疑是凤毛麟角。

  • 审核标准严苛

咨询了运营小二,他们要求图片视频必须要美观,有调性,背景不凌乱,不得挡脸,光线充足,构图和谐,不得带有明显的广告意图,以及等等等等……

这么多要求,难怪挑不着!

  • 审核工作量巨大

由于运营小二们审核的买家秀中优质买家秀很少,不得不将大量的时间和精力花费在了审核低质量买家秀上。

有鉴于此,用机器帮助挖掘优质内容刻不容缓。

1     优质内容挖掘方案

优质内容挖掘的整体方案如下:

全量UGC(User Generated Content)是指所有含图或含视频的买家秀。

过审UGC是指最终审核通过的高质量买家秀,加精UGC是指商家认可的买家秀,普通UGC则是上述两种情况以外的其他买家秀。

我们的核心目标就是要挖掘出丰富而多样的优质UGC。

2     UGC质量评估模型

运营人员在审核买家秀时,通过综合判断买家秀的图片质量和文本内容等方面的因素,来决定是否审核通过。这促使我们直观地将将问题转化为一个分类问题。

1、特征的选择

我们首先采用了UGC的用户特征、商品特征和反馈特征等统计特征(详见下表),通过GBDT模型来预估UGC的内容质量,并初步验证了将UGC质量评估任务转化为分类问题是可行的。

文本长度

文本段落个数

图片个数

视频个数

商品个数

商品总赞数

商品平均赞数

商品赞数中位数

商品最大赞数

商品UGC总数

商品卖出总数

买家总赞数

买家平均赞数

买家赞数中位数

买家UGC总数

该UGC赞数

图片平均高度和宽度

买家操作系统

买家手机价位

买家性别

买家年龄

2、分类问题的转化

一个非常直观地感受是,将审核通过的数据标记为1,审核未通过的数据标记为0,将问题转化为二分类问题。但在实际训练中,我们发现,将审核通过的数据标记为2,将运营审核未通过(商家已加精)的数据标记为1,将商家未加精的数据标记为0,把问题转为三分类问题比把问题转化为二分类问题得到了更好的效果。原因在于,审核人员在原来的链路中只审核了商家加精的数据,在此基础上审核通过与否;而为数众多的商家未加精的数据没有审核到,因此三分类更贴近于真实场景,因此表现更佳。

通过GBDT模型的训练,在全量UGC数据中进行预测,挖掘出了约400万优质UGC。自查后发现,这一批数据能挖掘出部分优质UGC,准确率在50%左右,缺点在于图片质量往往不够美观(即使较为贴近用户的生活场景)。

3、图片语义特征的引入

在与业务同学的交流过程中,我们发现,业务同学需要极高质量的UGC内容,以便营造出良好的社区氛围,让用户在洋葱圈中找到对于美好生活的向往,其核心标准就是宁缺毋滥。在充分理解了业务同学的要求,拿到图片数据后,对于图片质量的评估势在必行。

一个较为直观的方案就是,通过CNN模型训练,进行图片质量的评估。

增加图像特征后,通过对ImageNet预训练的ResNet50进行fine-tuning,模型表现有了极大提升,与原有链路相比,审核通过率提升了100%以上。

其中含小姐姐的UGC业务同学的认可程度较高(小姐姐们更乐意晒单,更乐意发买家秀,质量也更高),而针对不含小姐姐的长尾类目,业务同学认为主要存在图片无美感和图片不相关两类问题。

图片无美感的问题主要是由于,CNN更擅长捕捉图片的语义信息,而对于美学信息不敏感。

4、美学特征的引入

在图片美感方面,目前有一份较为优秀的数据集——AVA Database(A Large-Scale Databasefor Aesthetic Visual Analysis, 参见 Perronnin F ,Marchesotti L , Murray N . AVA: A large-scale database for aesthetic visualanalysis[C]// 2012 IEEE Conference on Computer Vision and Pattern Recognition.IEEE Computer Society, 2012.)。

AVA Database是一个美学相关的数据库,包含25万余张图片,每张图片包含语义标注(如自然风光、天空等)、图片风格标注(如互补色、双色调等)和图片美感评分(由数十到数百人评出1-10分)。

在 Zhangyang Wang, Shiyu Chang, Florin Dolcos, Diane Beck, DingLiu, and Thomas S. Huang. 2016. Brain-Inspired Deep Networks for ImageAesthetics Assessment. Michigan Law Review 52, 1 (2016) 一文中提出了Brain-inspired Deep Network,其网络结构如下:

其核心思想是,通过AVA数据集提供的图片风格标签,学习图片风格的隐藏层特征,将图片风格的隐藏层特征和图片经过HSV变换后的特征结合起来,以AVA数据集提供的图片美感分为监督,学习图片的美感特征。

在此基础上,最终在UGC质量审核模型中采用下述结构评判UGC的质量:

以AVA数据集提供的图片风格标签和美感评分进行预训练,通过Brain-inspiredDeep Network提取图片的美感特征;通过ResNet提取图片的语义特征;通过深度模型刻画统计特征;最后将三种特征拼接起来综合预测UGC的质量。

引入美学特征后,验证集上模型的准确率、召回率和F1值均得到了提升,ABTest显示,与原有模型相比,审核通过率提升6%以上。

3     脏数据处理

除了业务同学提出的问题,在自查过程中,发现目前挖掘出来的UGC内容中仍有以下脏数据:

UGC脏数据类型

例子

差评UGC

“卖家发货速度慢,态度又差”

套路评价UGC

UGC的评论属于类型评论,如“这是一个好评模板,不是本仙懒而是实在没有空闲……”

重复评价UGC

UGC的评论单纯地重复“好评好评好评好评好评好评好评”等

牛皮藓图片UGC

UGC的首图为物流截图、订单截图

盗图、网图UGC

UGC的首图为蔡徐坤等明星或流行的表情包等

1、评论倾向判定

针对差评UGC,利用现有的组件进行情感分析,发现并不能很好地挖掘出差评评论,容易误伤。基于此,取过审UGC的评论和UGC中的差评进行训练,在验证集上F1值高于0.9,但由于实际预测的数据不同(忽视了中评等),导致容易误判(如将商品名称等判断为差评)。在此基础上取过审UGC的评论、UGC好评、中评、差评分为四档进行训练,在验证集上F1值稍低,但由于训练数据更贴近于真实场景,在实际预测中效果更好;目前基本解决了差评UGC的问题,实际自查过程中,没有再看见差评UGC。

在实际的模型选择上,Attn-BiLSTM(带attention的双向LSTM)效果好于TextCNN(F1score约相差3%),分析原因在于:TextCNN的优势主要在于捕捉局部特征,而很多文本虽然含有吐槽性段落(如批评物流慢等),但整体仍然是对卖家商品的肯定。

2、N-Gram过滤

针对套路评价UGC,通过全局比较UGC的文本内容,将被多名用户重复使用的模板UGC过滤掉。

针对重复评价UGC,通过判断UGC文本内容中重复的2-gram、3-gram、4-gram,结合文本长度和文本信息熵进行过滤。

3、OCR及图像Hash过滤

针对牛皮藓图片,一部分采用了OCR识别和牛皮藓识别进行过滤。

针对盗图、网图UGC,将图片表示为哈希值,通过全局判断哈希值在不同买家、不同卖家间的重复次数,进行过滤。在过滤此项的过程中,我们也发现,买家秀中盗图、网络图的现象较为普遍,很多肉眼看似原创的内容也涉及盗图和网图;此项过滤掉了大多数的UGC。

4     无关图识别

解决了上述问题后,仍然较为显著的问题是无关图的问题。

无关图的出现原因较为复杂,表现类型也非常多样;既有上述提到的盗图和网络图,也有用户随手拍的风景图,还包括动漫截图等各式各样和商品无关的图片。

一方面,无关图以盗图、表情包、网络图等为主,通过哈希值过滤,能够过滤掉一批无关图;另一方面,即使过滤以后,预估仍然存在10%-15%左右的无关图。这部分无关图的解决较为复杂。

目前所采用的方案是,将盗图、表情包、网络图等重复图片作为负样本,将过审UGC图片作为正样本,通过ResNet提取图片特征,将类目通过embedding作为类目特征,将用户行为(发表重复图的数量和比例)作为用户特征,判断该UGC的图片是否是无关图。

就这样,运营小二们终于又能愉快地欣赏美美的买家秀了~~

5     划重点

技术小二在此分享一些心得体会,希望能对大家有帮助:

a. 数据强于特征,特征强于模型;贴近真实场景的数据对提升任务表现贡献巨大

b. 如果确实缺乏数据,不妨尝试快速标注数千条数据,可能取得超出预期的效果

c. 对ImageNet等数据集预训练的模型进行fine-tuning可以在小数据集往往能取得更好的问题

b. 通过图像翻转、旋转、随机裁剪等方法进行数据增强,可以提升模型泛化能力

论文参考

[1] HeK , Zhang X , Ren S , et al. Deep Residual Learning for Image Recognition[J].2015.

[2] KimY . Convolutional Neural Networks for Sentence Classification[J]. Eprint Arxiv,2014.

[3] VaswaniA , Shazeer N , Parmar N , et al. Attention Is All You Need[J]. 2017.

TalebiH , Milanfar P . NIMA: Neural Image Assessment[J]. IEEE Transactions on ImageProcessing, 2017.

[4] YuW , Zhang H , He X , et al. Aesthetic-based Clothing Recommendation[J]. 2018.

[5] Perronnin F , Marchesotti L , Murray N . AVA: A large-scale databasefor aesthetic visual analysis[C]// 2012 IEEE Conference on Computer Vision andPattern Recognition. IEEE Computer Society, 2012.

[6] Vozel B , Ponomarenko N ,Ieremeiev O , et al. Color image database TID2013: Peculiarities andpreliminary results[C]// European Workshop on Visual Information Processing.IEEE, 2013.

[7] ZhangyangWang, Shiyu Chang, Florin Dolcos, Diane Beck, Ding Liu, and Thomas S. Huang.2016. Brain-Inspired Deep Networks for Image Aesthetics Assessment. MichiganLaw Review 52, 1 (2016).

关于作者

晓鸿(欧红宇淘宝技术部算法小二,90后小伙,主攻深度学习、自然语言处理和计算机视觉,目前主要做内容质量审核提效,pytorch铁粉。伪文青,最喜欢古文《滕王阁序》。

One More Thing加入我们

在淘宝技术部,你将要解决的问题包括(但不限于)面向商家端的智能决策系统、面向用户端的商品、feeds、短视频的挖掘及推荐系统以及基于移动智能设备的AI平台算法,这不仅要考虑CTR(点击率)、成交额、用户日活等业务指标,还需要系统化的解决上千万卖家流量博弈的机制设计,团队内的算法工程师和科学家将与你一起解决世界上规模最大电商平台上最困难的业务技术难题。

相关岗位招聘中,点击阅读原文了解更多加入我们。

数据与自然语言处理算法专家

机器学习高级/资深算法专家

算法专家/高级专家

AI挖掘优质淘宝买家秀 再也不用担心辣眼睛了相关推荐

  1. 一键下载淘宝买家秀图片(win10)

    工具 淘宝买家秀采集器1.0.rar 使用教程 打开淘宝产品页面(建议使用谷歌浏览器),点击Ctrl + U快捷键进入超文本模式,点击Ctrl + F查询sellerId,复制后面的 ID 号. 打开 ...

  2. 如何寻找优质淘宝客来推广自己的店铺

    淘宝客推广是许多淘宝卖家推广的常用方法之一,这种方式能直接促成店铺商品的转化,然后为什么有的卖家的商品就是没人推广?有的卖家商品月推广千件?如何寻找优质淘宝客来推广自己的店铺是淘宝卖家必须要掌握的问题 ...

  3. 人工智能AI解奥数题,妈妈再也不用担心我的学习啦

    人工智能AI解奥数题,妈妈再也不用担心我的学习啦 原创 小智 大话人工智能 用人工智能求解奥数题 ▲▼◆■★ x ▽=★■◆▼▲   其中▲.▼.◆.■.★和▽ 分别是自然数.求▲.▼.◆.■.★和▽ ...

  4. git for windows_手把手教会舍友玩 Git (包教包会,再也不用担心他的学习)

    作 者: BWH_Steven 原文链接:https://www.cnblogs.com/ideal-20/p/13644420.html 舍友长大想当程序员,我和他爷爷奶奶都可高兴了,写他最喜欢的喜 ...

  5. 教会舍友玩 Git (再也不用担心他的学习)

    舍友长大想当程序员,我和他爷爷奶奶都可高兴了,写他最喜欢的喜之郎牌Git文章,学完以后,再也不用担心舍友的学习了(狗头)哪里不会写哪里 ~~~ 一 先来聊一聊 太多东西属于,总在用,但是一直都没整理的 ...

  6. 30岁的万维网活不长了! 蒂姆·伯纳斯·李要借去中心化亲手杀死它, 你再也不用担心......

    整理 | 佩奇 公开信编译 | DeepTech(deeptechchina) 出品 | 区块链大本营(blockchain_camp) Tim Berners-Lee(蒂姆·伯纳斯·李),万维网之父 ...

  7. Idea代码自动补全!插件推荐:Codota,再也不用担心写不出代码了。

    前言 最近,有小伙伴推荐给D哥一款IDEA插件,叫我一定得给大家分享一下,简直太好用了~ 这款插件解决的痛点:当你不知道一个类该怎么用的时候,它能帮你快速找到想要的实例代码. 群里有不少同学说,&qu ...

  8. 自从看了这篇文章,妈妈再也不用担心我的学习了!!

    Vue部分小结 首先理清思路 代码展示 1.v-if以及{{}}代码展示 <body><div id="app" ><h1 v-bind:class= ...

  9. gm怎么刷东西 rust_刷了这种黑板漆再也不用担心吃粉笔灰了

    刷了这种黑板漆再也不用担心吃粉笔灰了 黑板漆正在越来越多的被人们使用,黑板墙很酷很实用,可以用在家里的各个地方,不仅仅是墙面.很多人想要,但又担心实际用起来会有各种问题,被提及最多的就是粉笔灰的问题啦 ...

最新文章

  1. 脑电传感器并不复杂,那精度呢?
  2. git概念篇(remote,base,local)的含义
  3. tinyxml2解析XML文件
  4. facebook人脸照片_为什么您的Facebook照片看起来如此糟糕(以及您可以如何做)...
  5. 使用OAuth2令牌的安全REST服务
  6. ios 支付验证 php,PHP验证IOS原生支付是否成功(代码全篇)
  7. 阿里云服务器内核编译升级
  8. C语言课后习题(2)
  9. Open3d之对点云进行DBSCAN 聚类
  10. LoadRunner测试ajax框架,回放后系统中没有产生数据解决方法
  11. 国内物联网平台初探(二) ——阿里云物联网套件
  12. 小米手机第三方卡刷软件_小米note可以用第三方recovery刷官方卡刷包吗
  13. JavaScript设计模式——访问者模式
  14. VC++两万字总结Windows系统中的Layered分层窗口技术(附源码)
  15. spring基于注解的AOP配置 中的环绕通知 步骤写法
  16. perl执行环境安装(Windows)
  17. html调用摄像头直播,html5调用摄像头功能的实现代码
  18. 三分钟读懂:云计算与虚拟化的关系
  19. 291. 蒙德里安的梦想
  20. 科技云报道:“吞金兽”ChatGPT背后:AI算力告急!

热门文章

  1. 牛客小白月赛7 谁是神箭手
  2. Jboot整合MySQL
  3. opencv怎么使用GPU加速
  4. 热强化硅酸钠玻璃建筑玻璃英国UKCA认证—EN 1863-2
  5. 如何给WORD文档添加外边框,教程在这里,WORD页面外边框怎么添加
  6. 杰奇php手机登陆自动跳转,杰奇cms电脑与手机自动判断跳转代码
  7. Flyme应用中心应用认领
  8. 根据三个点的坐标计算三角形面积
  9. Xcode iOS 工程目录结构解析
  10. POSCMS 框架使用导航