写在前面的话

大家好,我是炼丹笔记的小编,作为一名炼丹侠,这次为大家带来的分享是我们在2020 ICDM Knowledge Graph Contest中的获奖方案和在ICDM2020 Workshop中的内容。本文基于BERT做了Finetune,引入了一种全新的视角来重新审视关系行为原因提取任务,并提出了一种新的序列标记框架,而不是单独提取行为类型和行为原因。

赛题背景

在内容广告、社会化聆听等许多业务场景中,提取消费者一些行为的背后原因是关注的焦点。以内容广告为例,如今的广告主并不满足于品牌或产品的直接曝光,他们更喜欢通过产品功能嵌入内容,潜移默化地激发消费者主动将自己的品牌或产品与任意的消费行为联系起来。为此,明确地提取消费者行为发生的原因成为构建这样一个满足广告商需求的系统的重要技术。
在NLP相关竞赛中,提取行为原因是具有预定义模式的,这些原因通常被表示为一个词或一个结构化元组。此外,这些比赛旨在提取预定义事件类型的所有事件。与以往的比赛相比,2020 ICDM Knowledge Graph Contest : Specification 评测竞赛有以下新颖之处:

  1. 竞赛目标是提取具有特定主题(品牌或产品)的事件。
  2. 提取事件的原因表示为连续标记(一个范围)或多个非连续标记(多个范围)

赛题数据

由行业解决方案专家挑选500篇Instagram文章,以确保语言的正式性、多样性和对实际应用程序的知识深度。在本次比赛中,我们关注五种事件类型:消费者关注、消费者兴趣、消费者需求、消费者购买和消费者使用。这500篇文章将被贴上标签,作为训练集。将有一个单独的在线测试集。数据示例如下:

评测方法

采用F1评测。

Workshop获奖方案Top3

方案摘要:

消费者行为原因提取是一项旨在从文本中提取特定行为背后潜在原因的任务,由于其广泛的应用,近年来受到了广泛的关注。ICDM 2020大会设立了一个评估竞赛,旨在提取特定主题(品牌或产品)的行为及其原因。在本课题中,我们主要研究如何构建一个端到端的模型,同时提取多个行为类型和行为原因。为此,我们引入了一种全新的视角来重新审视关系行为原因提取任务,并提出了一种新的序列标记框架,而不是单独提取行为类型和行为原因。实验表明,我们的框架优于基线方法,即使它的编码模块使用一个初始化的预训练的BERT编码器,显示了新的标签框架的力量。在这次比赛中,我们队获得了第一阶段排行榜的第一名。

方案简介

ICDM2020知识图表竞赛是一项与领先的ICDM会议共同举办的竞赛式活动。本文描述了我们在消费者行为原因提取任务中的解决方案,并在第一阶段排行榜中获得第一名。消费者行为的原因提取[1],[10]是许多业务场景(如内容广告、社交监听等)关注的焦点。以内容广告为例。如今的广告主并不满足于品牌或产品的直接曝光,他们更喜欢通过产品功能嵌入内容,潜移默化地激发消费者主动将自己的品牌或产品与任意的消费行为联系起来。

为此,明确地提取消费者行为的原因成为构建这样一个满足广告商需求的系统的重要技术。消费者行为原因提取(CECE)任务旨在从给定品牌或产品的文本中提取消费者行为和行为原因。传统的方法使用类似于抽取机器阅读理解(MRC)的模型结构[7]。大多数相关工作[6]都是分别提取行为类型和行为原因,没有考虑它们之间的依赖关系。在本次竞赛中,我们引入了一种全新的视角来重新审视关系行为原因提取任务,并提出了一种新的序列标记框架,而不是单独提取行为类型和行为原因。实验表明,即使编码模块使用随机初始化的BERT[2]编码器,我们的框架仍优于基线方法,显示了新标记框架的强大功能

1 数据层面

为了保证数据的高质量性,我们移除了文本中的ID。例如:“68771,Love doing makeup on all ages”处理成“"Love doing makeup on all ages”。

2 模型层面

为了以端到端的方式提取消费者行为原因,我们的模型主要由两部分组成:BERT编码器和序列标签解码器。

1) BERT Encoder:

首先,我们将文本Text和标签brand/produt转换成[CLS] Brand/Product [SEP] Text [SEP] 的形式,作为模型的输入{x1,x2,...xn}。

然后,我们使用预训练的BERT模型[2]对内容信息进行编码。编码模块从xj语句中提取特征信息zj,并将其输入到后续的标记模块中。这里,我们简要回顾了基于多层双向变换器的语言表示模型BERT。它的目的是通过共同调节每个单词的左右语境来学习深层表征,

最近,它在许多下游任务中被证明是非常有效的[3]。具体地说,它由N个相同的Transformer blocks组成。我们将Transformer blocks表示为Trans(x),其中x代表输入向量。具体操作如下:

上式中,S为输入句中子词索引的一个one-hot向量矩阵,Ws为子词嵌入矩阵,Wp为位置嵌入矩阵,其中p表示输入序列中的位置索引,hl为隐藏状态向量,即第L层输入句的上下文表示,N为变换器个数方块。注意在我们的工作中,输入是一个单一的文本句子,而不是句子对,因此Eq中没有考虑原始BERT论文中描述的分段嵌入。关于Transformer的结构请参考论文[4]。

2)Sequence Tagging Decoder

在2020年的ICDM竞赛中,该任务增加了对多种行为类型的判断,这很难用阅读理解框架来解决。竞赛的目标是为每个文本text和 brand/product提取多种行为类型和行为原因。为此,我们提出了一种序列标记解码器,可以同时提取多个行为类型和行为原因。
首先,我们为成对的输入句子构造标记,每个标记都有一个标记符,如下所示:

Love doing makeup on all ages,
B_{consumer interest}
I_{consumer interest} ...

用这种方式,我们就可以使用softmax函数独立地对每个标签进行解码,得到所有可能的行为类型和行为原因对的集合。

在序列标注任务的启发下,考虑邻域中标签之间的相关性,并联合解码给定输入句子的最佳标签链是有益的。

因此,我们使用一个条件随机场(CRF)[5]联合建模标签序列,而不是单独解码每个标签。

形式上,我们使用z={z1,z2,····,zn}来表示一个通用的输入序列,其中zi是第i个单词的输入向量。y={y1,y2,·····,yn}表示z的一个通用标签序列。y(z)表示z的一组可能的标签序列。序列CRF的概率模型定义了一系列条件概率p(y | z;W,b)在给定z的所有可能的标签序列y上,其形式如下:

对于CRF训练,我们使用最大条件似然估计。对于训练集{zi,yi},似然的对数(即对数似然)由以下公式给出:

最大似然训练选择参数,使对数似然L(W,b)最大化。解码是以最大的条件概率搜索标签序列y*。

对于序列CRF模型(只考虑两个连续标签之间的相互作用),采用Viterbi[11]算法可以有效地解决训练和解码问题。

3. 模型集成

在模型集成[9]阶段,我们采用了一种简单有效的方法,得到了1.30%的提升(如图2所示)。我们采用了两步走的方法来得到最终的结果。首先确定文本边界交叉验证结果的串行化,预测结果的字符位置为1,其余为0。然后我们将所有的CV结果叠加到相应的位置,并通过阈值将小于N的位置更改为0。

4. 模型效果

WorkShop其他获奖方案

在这次竞赛中,来日本的选手使用GAN的做法完成了本次任务,整体思路为是通过GAN的生成方式增加训练样本,同时对GAN生成的数据标注为Fake,然后将GAN的生成和BERT层一起送入Bi-LSTM层后在原有Attention,Intention,Need ,Purchase,Use的基础上,增加Fake标签进行预测。

参考文献

[1] Marco Rospocher, et al. ”Building event-centric knowledge graphs from news.” Journal of Web Semantics, Volumes 37–38, 2016, pp. 132-151.

[2] Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[J]. arXiv preprint arXiv:1810.04805, 2018.

[3] Lee J, Yoon W, Kim S, et al. BioBERT: a pre-trained biomedical language representation model for biomedical text mining[J]. Bioinformatics, 2020, 36(4): 1234-1240.

[4] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Advances in neural information processing systems. 2017: 5998-6008.

[5] Ma X, Hovy E. End-to-end sequence labeling via bi-directional lstmcnns-crf[J]. arXiv preprint arXiv:1603.01354, 2016.

[6] Xia R, Ding Z. Emotion-cause pair extraction: a new task to emotion analysis in texts[J]. arXiv preprint arXiv:1906.01267, 2019.

[7] Li X, Feng J, Meng Y, et al. A unified mrc framework for named entity recognition[J]. arXiv preprint arXiv:1910.11476, 2019.

[8] Huang Z, Xu W, Yu K. Bidirectional LSTM-CRF models for sequence tagging[J]. arXiv preprint arXiv:1508.01991, 2015.

[9] Dietterich T G. Ensemble methods in machine learning[C]//International workshop on multiple classifier systems. Springer, Berlin, Heidelberg, 2000: 1-15.

[10] Gooding R Z, Kinicki A J. Interpreting event causes: The complementary role of categorization and attribution processes[J]. Journal of Management Studies, 1995, 32(1): 1-22.

[11] Viterbi A J. A personal history of the Viterbi algorithm[J]. IEEE Signal Processing Magazine, 2006, 23(4): 120-142.


数据算法竞赛:ICDM 2020 TOP3方案相关推荐

  1. ICDM 2020 TOP3方案

    写在前面的话 大家好,我是炼丹笔记的小编,作为一名炼丹侠,这次为大家带来的分享是我们在2020 ICDM Knowledge Graph Contest中的获奖方案和在ICDM2020 Worksho ...

  2. 前海征信“好信杯”大数据算法竞赛 - HM队【附源码】 原创 2017-06-17 高铭 科赛Kesci 赛题回顾 自2006年Hinton等人提出“深度学习”概念至今,深度学习在海量数据的挖

    前海征信"好信杯"大数据算法竞赛 - H&M队[附源码] 原创 2017-06-17 高铭 科赛Kesci 赛题回顾 自2006年Hinton等人提出"深度学习& ...

  3. 大数据算法_荆州2020年大数据算法章节答案-老友网

    荆州2020年大数据算法章节答案 动轴承内圈与轴颈的配合以及外圈与座孔的配合???.代号为30108,30208,30308的滚动轴承的???????不相同._____是只能承受径向载荷的轴承.代号为 ...

  4. 双节棍「大师」鱼佬亲传武功秘籍:如何进行一场数据挖掘算法竞赛?

    Datawhale 作者:鱼佬,Datawhale成员 简介:鱼遇雨欲语与余,Datawhale成员,武汉大学硕士,天池数据科学家.2019腾讯广告算法大赛冠军,数据竞赛爱好者. 当我们掌握了一定的机 ...

  5. 【数据竞赛】2020 Kaggle 10大竞赛方案汇总

    作者: 尘沙黑夜 2020 Kaggle 10大竞赛方案汇总 1  2020kaggle精选10大赛事汇总 1.1  2019 Data Science Bowl(3493只队伍) 1.2  Tens ...

  6. 含噪数据的有效训练,谷歌地标图像检索竞赛2020冠军方案解读

    2020年谷歌地标图像检索竞赛(Google Landmark Retrieval 2020)是今年举行的大型图像检索算法竞赛,该比赛在Kaggle 竞赛平台进行,吸引了全球541支团队参赛,最终来自 ...

  7. 高校大数据专业竞赛建设方案

    第一章 建设背景 1.1 政策分析  2017年1月 工业和信息化部正式发布了<大数据产业发展规划(2016-2020年)>,明确了"十三五"时期大数据产业的发展思路 ...

  8. 推荐算法竞赛TOP方案合集

    作 者:九羽 公众号:炼丹笔记 推荐算法竞赛相关 会议赛 (一)2020 ACM Twitter RecSys Challenge 问题背景: Twitter上呈现的是正在发生的事情,也是人们现在谈论 ...

  9. DataFountain新上两项CV算法竞赛(文化传承——汉字书法多场景识别、大数据医疗——肝癌影像AI诊断)——50万巨奖等你来拿!

    欢迎关注微信公众号[计算机视觉联盟] 获取更多前沿AI.CV资讯 好消息啦,2019数字中国创新大赛最后四道赛题如期揭幕,其中又有两道计算机视觉赛题,每题均设立16万巨奖,是不是很激动,让我们一起来看 ...

最新文章

  1. Android国际化(多语言)实现,支持8.0
  2. Calendar使用方法
  3. express 使用 redirect 对 ajax 无效 页面不跳转
  4. 实战项目 10: 货物清单应用
  5. myeclipse maven 创建 web项目
  6. 布尔运算_利用布尔运算拆分汉字
  7. 页面性能优化参考建议
  8. jq之$(“:button“)
  9. Objective-C和C++混编的要点
  10. 云栖日报丨收购中天微,阿里芯了解一下!
  11. C语言基础(1)-基本语法及注意事项
  12. 【c++】笔记:输入带空格的字符串
  13. SkyWalking 概念与设计总览
  14. Makefile编译忽略warning或者将warning视为error
  15. slf4j没有在linux中生成日志,slf4j日志记录问题 - 未生成日志文件
  16. 08.音频系统:第002节_Android音频系统框架简述
  17. The Frame Buffer
  18. 动态规划-剪绳子问题
  19. iOS开发系列-音频、视频以及摄像
  20. 关于魔兽T人和延迟的恶劣挂原理及实现

热门文章

  1. P2024 食物链 (补集)
  2. pycharm pull到github
  3. HDU 2473 Junk-Mail Filter(并查集的删除操作)
  4. javascript 模块化编程----模块的写法
  5. 台式机 双显卡切换实战
  6. 一键搞定Java桌面应用安装部署 —— exe4j + Inno Setup 带着JRE, 8M起飞
  7. Thinking in java 笔记一
  8. wall poj 1113
  9. Asp.net 2.0 发送邮件
  10. 面向对象写单片机程序-程序分层