导读:ICDM(IEEE International Conference on Data Mining,简称ICDM)是数据挖掘领域的国际顶级会议。京东数科硅谷机器学习算法组朱翔宇带队在Knowledge Graph Contest(知识图谱大赛)中获得季军。本文将介绍2020 ICDM中的获奖方案和在 Workshop中分享的内容。基于BERT做了Finetune,引入了一种全新的视角来重新审视关系行为原因提取任务,并提出了一种新的序列标记框架,而不是单独提取行为类型和行为原因。

一、问题背景

在内容广告、社会化聆听等许多业务场景中,提取消费者一些行为的背后原因是关注的焦点。以内容广告为例,如今的广告主并不满足于品牌或产品的直接曝光,他们更喜欢通过产品功能嵌入内容,潜移默化地激发消费者主动将自己的品牌或产品与任意的消费行为联系起来。为此,明确地提取消费者行为发生的原因成为构建这样一个满足广告商需求的系统的重要技术。

本赛题由行业解决方案专家挑选500篇Instagram文章,以确保语言的正式性、多样性和对实际应用程序的知识深度。在本次ICDM评测单元中,主要关注五种事件类型:消费者的关注、消费者的兴趣、消费者的需求、消费者的购买和消费者的使用(Attention,Intention,Need ,Purchase,Use)。同时,评测主要采用F1评测。

二、问题挑战


消费者行为的原因提取[1],[10]是许多业务场景(如内容广告、社交监听等)关注的焦点。以内容广告为例。如今的广告主并不满足于品牌或产品的直接曝光,他们更喜欢通过产品功能嵌入内容,潜移默化地激发消费者主动将自己的品牌或产品与任意的消费行为联系起来。为此,明确地提取消费者行为的原因成为构建这样一个满足广告商需求的系统的重要技术。

消费者行为原因提取(CECE)任务旨在从给定品牌或产品的文本中提取消费者行为和行为原因。传统的方法使用类似于抽取机器阅读理解(MRC)的模型结构[7]。大多数相关工作[6]都是分别提取行为类型和行为原因,没有考虑它们之间的依赖关系。

三、方案简介

消费者行为归因提取是一项旨在从文本中提取特定行为背后潜在原因的任务,由于其广泛的应用,近年来受到了广泛的关注。ICDM 2020大会设立了一个评估竞赛,旨在提取特定主题(品牌或产品)的行为及其原因。在本课题中,我们主要研究如何构建一个端到端的模型,同时提取多个行为类型和行为原因。

为此,我们引入了一种全新的视角来重新审视关系行为原因提取任务,并提出了一种新的序列标记框架,而不是单独提取行为类型和行为原因。实验表明,我们的框架优于基线方法,即使它的编码模块使用一个初始化的预训练的BERT编码器,显示了新的标签框架的力量。在这次比赛中,我们队获得了第一阶段排行榜的第一名。

1、数据层面

为了保证数据的高质量性,我们移除了文本中的ID。

例如:“68771,Love doing makeup on all ages”处理成“"Love doing makeup on all ages”。

2、模型层面


为了以端到端的方式提取消费者行为原因,我们的模型主要由两部分组成:BERT编码器和序列标签解码器。

  • BERT Encoder

首先,我们将文本Text和标签brand/produt转换成
[CLS] Brand/Product [SEP] Text [SEP] 的形式,作为模型的输入{x1,x2,…xn}。
然后,我们使用预训练的BERT模型[2]对内容信息进行编码。编码模块从xj语句中提取特征信息zj,并将其输入到后续的标记模块中。

这里,我们简要回顾了基于多层双向变换器的语言表示模型BERT。它的目的是通过共同调节每个单词的左右语境来学习深层表征,最近,它在许多下游任务中被证明是非常有效的[3]。具体地说,它由N个相同的Transformer blocks组成。我们将Transformer blocks表示为Trans(x),其中x代表输入向量。具体操作如下:

上式中,S为输入句中子词索引的一个one-hot向量矩阵,Ws为子词嵌入矩阵,Wp为位置嵌入矩阵,其中p表示输入序列中的位置索引,hl为隐藏状态向量,即第L层输入句的上下文表示,N为变换器个数方块。注意在我们的工作中,输入是一个单一的文本句子,而不是句子对,因此Eq中没有考虑原始BERT论文中描述的分段嵌入。关于Transformer的结构请参考论文[4]。

  • Sequence Tagging Decoder

在2020年的ICDM竞赛中,该任务增加了对多种行为类型的判断,这很难用阅读理解框架来解决。竞赛的目标是为每个文本text和 brand/product提取多种行为类型和行为原因。为此,我们提出了一种序列标记解码器,可以同时提取多个行为类型和行为原因。

首先,我们为成对的输入句子构造标记,每个标记都有一个标记符,如下所示:

Love doing makeup on all ages,

B_{consumer interest}

I_{consumer interest} …

用这种方式,我们就可以使用softmax函数独立地对每个标签进行解码,得到所有可能的行为类型和行为原因对的集合。

在序列标注任务的启发下,考虑邻域中标签之间的相关性,并联合解码给定输入句子的最佳标签链是有益的。因此,我们使用一个条件随机场(CRF)[5]联合建模标签序列,而不是单独解码每个标签。

形式上,我们使用z={z1,z2,····,zn}来表示一个通用的输入序列,其中zi是第i个单词的输入向量。y={y1,y2,·····,yn}表示z的一个通用标签序列。y(z)表示z的一组可能的标签序列。序列CRF的概率模型定义了一系列条件概率p(y | z;W,b)在给定z的所有可能的标签序列y上,其形式如下:

对于CRF训练,我们使用最大条件似然估计。对于训练集{zi,yi},似然的对数(即对数似然)由以下公式给出:

最大似然训练选择参数,使对数似然L(W,b)最大化。解码是以最大的条件概率搜索标签序列y*。

对于序列CRF模型(只考虑两个连续标签之间的相互作用),采用Viterbi[11]算法可以有效地解决训练和解码问题。

3、模型集成


在模型集成[9]阶段,我们采用了一种简单有效的方法,得到了1.30%的提升(如图2所示)。我们采用了两步走的方法来得到最终的结果。首先确定文本边界交叉验证结果的串行化,预测结果的字符位置为1,其余为0。然后我们将所有的CV结果叠加到相应的位置,并通过阈值将小于N的位置更改为0。

4、模型效果

四、WorkShop其他获奖方案

在本次竞赛中,来自日本的选手使用GAN完成了本次任务,整体思路为是通过GAN的生成方式增加训练样本,同时对GAN生成的数据标注为Fake,然后将GAN的生成和BERT层一起送入Bi-LSTM层后在原有Attention,Intention,Need ,Purchase,Use的基础上,增加Fake标签进行预测。

五、写在后面的话

两年的比赛经历,各种顶会赛事奖杯纳入囊中,但仍以赤子之心不断追逐。后需将把重心放在推荐系统及推荐算法炼丹上。在今年8月份也注册了“炼丹笔记”微信公众号,主做三类内容:学术界推荐算法研究解读、工业界推荐算法方案实战、数据竞赛深度炼丹技巧。欢迎算法爱好者关注,共同交流成长。

最后,若对数科硅谷算法团队所做的工作感兴趣的朋友们,(内部员工)可直接咚咚搜索DOTA与本人咨询或交流。

互动讨论:你在日常工作中有没有遇到类似BERT这种预训练模型上线难的问题?又是怎么解决的呢?模型压缩方向,有过哪些经验?欢迎在留言区分享你的困惑或你的见解。

参考文献:
[1] Marco Rospocher, et al. ”Building event-centric knowledge graphs from news.” Journal of Web Semantics, Volumes 37–38, 2016, pp. 132-151.
[2] Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[J]. arXiv preprint arXiv:1810.04805, 2018.
[3] Lee J, Yoon W, Kim S, et al. BioBERT: a pre-trained biomedical language representation model for biomedical text mining[J]. Bioinformatics, 2020, 36(4): 1234-1240.
[4] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Advances in neural information processing systems. 2017: 5998-6008.
[5] Ma X, Hovy E. End-to-end sequence labeling via bi-directional lstmcnns-crf[J]. arXiv preprint arXiv:1603.01354, 2016.
[6] Xia R, Ding Z. Emotion-cause pair extraction: a new task to emotion analysis in texts[J]. arXiv preprint arXiv:1906.01267, 2019.
[7] Li X, Feng J, Meng Y, et al. A unified mrc framework for named entity recognition[J]. arXiv preprint arXiv:1910.11476, 2019.
[8] Huang Z, Xu W, Yu K. Bidirectional LSTM-CRF models for sequence tagging[J]. arXiv preprint arXiv:1508.01991, 2015.
[9] Dietterich T G. Ensemble methods in machine learning[C]//International workshop on multiple classifier systems. Springer, Berlin, Heidelberg, 2000: 1-15.
[10] Gooding R Z, Kinicki A J. Interpreting event causes: The complementary role of categorization and attribution processes[J]. Journal of Management Studies, 1995, 32(1): 1-22.
[11] Viterbi A J. A personal history of the Viterbi algorithm[J]. IEEE Signal Processing Magazine, 2006, 23(4): 120-142.

更多竞赛技术方案
数字中国创新大赛 数字政府赛道 算法赛 冠军
Microsoft DiggSci 科学数据挖掘大赛 亚军
京东JDATA算法大赛 绝对语义识别挑战赛 季军
“中国法研杯”司法人工智能挑战赛 三等奖

2020 ICDM 知识图谱竞赛获奖技术方案相关推荐

  1. 知识图谱的关键技术及其智能应用(附PPT)

    来源:专知 本文约1000字,建议阅读5分钟. 本文为你介绍北京大学赵东岩老师在<知识图谱的关键技术及其智能应用>讲座上的主要内容. [ 导读 ]随着自然语言处理等相关技术的发展,知识图谱 ...

  2. 知识图谱 ppt_PPT|知识图谱的关键技术及其智能应用

    [导读]随着自然语言处理等相关技术的发展,知识图谱已经成为工业界开展下一代人工智能应用的重要基础. 几周前,北京大学的赵东岩老师,在计算所做了名为<知识图谱的关键技术及其智能应用>的讲座, ...

  3. 人工智能学习--知识图谱的关键技术及其智能应用

    本文为你介绍北京大学赵东岩老师在<知识图谱的关键技术及其智能应用>讲座上的主要内容. [ 导读 ] 随着自然语言处理等相关技术的发展,知识图谱已经成为工业界开展下一代人工智能应用的重要基础 ...

  4. 虚拟专题:知识图谱 | 医学知识图谱构建关键技术及研究进展

    来源:<大数据> 医学知识图谱构建关键技术及研究进展 谭玲1, 鄂海红1, 匡泽民2, 宋美娜1, 刘毓1, 陈正宇1, 谢晓璇1, 李峻迪1, 范家伟1, 王晴川1, 康霄阳1 1 北京 ...

  5. NLP实践|CCKS2020金融知识图谱自动化构建技术方法总结

    每天给你送来NLP技术干货! 编辑:AI算法小喵 写在前面 文本是参加2020CCKS评测 基于本体的金融知识图谱自动化构建技术 之后的一篇总结博客,笔者查阅了大量文献,并做了大量采用深度学习模型的实 ...

  6. 从ACL 2020和ICLR 2020看知识图谱嵌入的近期研究进展

    ©PaperWeekly 原创 · 作者|舒意恒 学校|南京大学硕士生 研究方向|知识图谱 本文介绍三篇发表于 ACL 2020 或 ICLR 2020 关于知识图谱嵌入的近期研究进展. 1. ACL ...

  7. 你需要学好知识图谱——用AI技术连接世界

    立即参团 原价 ¥899.00 50人以上  ¥499.00 100人以上  ¥399.00 点击文末阅读原文,立即参团 <知识图谱>第一期  课程简介: 本次的知识图谱课程主要包括三大部 ...

  8. 论文浅尝 | 六篇2020年知识图谱预训练论文综述

    转载公众号 | AI机器学习与知识图谱 本文介绍六篇有关知识图谱预训练的优秀论文,大致上可分为两类,生成学习模型和对比学习模型.其中GPT-GNN模型是生成学习模型,模型灵感来源于自然语言处理中的GP ...

  9. 参会邀请 - CCKS2020 | 2020全国知识图谱与语义计算大会(CCKS2020)明日开幕

    本文转载自公众号: 中国中文信息学会. 第十四届全国知识图谱与语义计算大会将于2020年11月12日-15日在南昌召开.会议由中国中文信息学会语言与知识计算专业委员会主办,由江西师范大学承办,智源社区 ...

最新文章

  1. 计算机二级学号填错了,计算机二级错题(58页)-原创力文档
  2. 根据id/类名/元素名称查找元素
  3. Linux环境软RAID 5 搭建
  4. label自定义的惨痛教训
  5. PHP中使用CURL实现Get和Post请求方法
  6. 毕设题目:Matlab指纹识别
  7. linux反编译lua工具,lua脚本编译及反编译工具下载
  8. 本地搭建私有云盘:群晖系统存储空间设置 3/5
  9. 回归分析-常用统计量含义解析
  10. 一元四次方程的求根公式
  11. 软件需求分析期末试题
  12. 微信小程序 关于头像上传,showActionSheet,chooseImage,uploadFile
  13. 【IoT】战略:BEM 战略解码 - 好的战略需要好的执行
  14. 客户端开发 Windows驱动开发(1)SDK WDK DDK WDM的关系
  15. 用js 在页面上,设置多个按钮,点击当前按钮时,当前按钮文字变为“哈哈”,其他未点击的按钮文字变为“呜呜”。
  16. poj 1102 LC-Display(模拟)
  17. 【工作经验分享】,大厂面试经验分享
  18. 后台拿shell全集
  19. 使用SpringCloudConfig连接git报错Cannot clone or checkout repository:xxx
  20. SQL Sever 2000/2005/2008下载地址集合

热门文章

  1. ATM取款机_存款功能
  2. Verilog语法_3(同步有限状态机)
  3. 2006 广州夏季甜品冰品地图
  4. Mac识别time machine出错或者打开备份盘里空白
  5. 以太网Flow Control相关
  6. 网红用什么软件录视频?从小白到大神,学会这些录屏技巧就够了!
  7. 分享 41 个与网页设计样式相关的在线代码生成工具
  8. 逻辑分页与物理分页的区别
  9. C语言: 编写一个程序解鸡兔同笼问题:已知鸡兔总数为a, 鸡兔腿总数为b, 计算出鸡兔各多少只
  10. quartz集群分布式(并发)部署解决方案-Spring - 推酷