来源 | 京东智联云开发者

导读:京东商城背后的 AI 技术能力揭秘: 基于关键词自动生成摘要

过去几十年间,人类的计算能力获得了巨大提升;随着数据不断积累,算法日益先进,我们已经步入了人工智能时代。确实,人工智能概念很难理解,技术更是了不起,背后的数据和算法非常庞大复杂。很多人都在疑惑,现在或未来AI将会有哪些实际应用呢?

其实,关于AI的实际应用以及所带来的商业价值并没有那么的“玄幻”,很多时候就已经在我们的身边。接下来,【AI论文解读】专栏将会通过相关AI论文的解读,由深入浅地为大家揭秘,AI技术是如何对电商领域进行赋能,以及相关的落地与实践。

人工智能技术在电商领域,有着丰富的应用场景。应用场景是数据入口,数据通过技术得到提炼,反过来又作用于技术,二者相辅相成。

京东基于自然语言理解与知识图谱技术,开发了商品营销内容AI写作服务。并将此项技术应用到了京东商城【发现好货】频道中。

京东【发现好货】频道

通过AI创作的数十万商品营销图文素材,不仅填补了商品更新与达人写作内容更新之间的巨大缺口,也提升了内容频道的内容丰富性。

同时,AI生成内容在曝光点击率、进商详转化率等方面其实都表现出了优于人工创作营销的内容。

接下来让我们让我通过解读入选 AAAI 2020 的论文来一起来看看,如何通过AI来实现针对不同群体采用不同营销策略及不同风格的营销文案从而提高营销转化率的。

自动文本摘要(简称“自动文摘”)是自然语言处理领域中的一个传统任务,其提出于 20 世纪 50 年代。自动文摘任务的目标是对于给定的文本,获得一段包含了其中最重要信息的简化文本。常用的自动文摘方法包括抽取式自动文摘(Extractive Summarization)和生成式自动文摘(Abstractive Summarization)。抽取式自动文摘通过提取给定文本中已存在的关键词、短语或句子组成摘要;生成式自动文摘通过对给定文本建立抽象的语意表示,利用自然语言生成技术,生成摘要。

本文所介绍的是基于关键词指导的生成式句子摘要方法,该方法融合了抽取式自动文摘和生成式自动文摘,在Gigaword句子摘要数据集上与对比模型相比,取得了更好的性能。

论文链接:

http://box.jd.com/sharedInfo/B2234BB08E365EEC

生成式句子摘要

生成式句子摘要(Abstractive Sentence Summarization)任务的输入是一个较长的句子,输出是该输入句子的简化短句。

我们注意到,输入句子中的一些重要词语(即关键词)为摘要的生成提供了指导线索。另一方面,当人们在为输入句子创作摘要时,也往往会先找出输入句子中的关键词,然后组织语言将这些关键词串接起来。最终,生成内容不仅会涵盖这些关键词,还会确保其流畅性和语法正确性。我们认为,相较于纯粹的抽取式自动文摘和生成式自动文摘,基于关键词指导的生成式自动文摘更接近于人们创作摘要时的习惯。

图1:输入句和参考摘要之间的重叠关键词(用红色标记)涵盖了输入句的重要信息,我们可以根据从输入语句中提取的关键字生成摘要

我们举一个简单的句子摘要的例子。如图1所示,我们可以大致将输入句子和参考摘要的重叠的词(停用词除外)作为关键词,这些重叠的词语覆盖了输入句子的要点。例如,我们通过关键词“世界各国领导人”“关闭”和“切尔诺贝利” ,可以获取输入句子的主旨信息,即“世界各国领导人呼吁关闭切尔诺贝利”,这与实际的参考摘要 “世界各国领导人敦促支持切尔诺贝利核电站关闭计划”是相吻合的。这种现象在句子摘要任务中很常见:在Gigaword句子摘要数据集上,参考摘要中的词语超过半数会出现在输入句子中。

模型概述

句子摘要任务的输入为一个较长的句子,输出是一个简短的文本摘要。我们的动机是,输入文本中的关键词可以为自动文摘系统提供重要的指导信息。首先,我们将输入文本和参考摘要之间重叠的词(停用词除外)作为Ground-Truth关键词,通过多任务学习的方式,共享同一个编码器对输入文本进行编码,训练关键词提取模型和摘要生成模型,其中关键词提取模型是基于编码器隐层状态的序列标注模型,摘要生成模型是基于关键词指导的端到端模型。关键词提取模型和摘要生成模型均训练收敛后,我们利用训练好的关键词提取模型对训练集中的文本抽取关键词,利用抽取到的关键词对摘要生成模型进行微调。测试时,我们先利用关键词提取模型对测试集中的文本抽取关键词,最终利用抽取到的关键词和原始测试文本生成摘要。

1、多任务学习

文本摘要任务和关键词提取任务在某种意义上非常相似,都是为了提取输入文本中的关键信息。不同点在于其输出的形式:文本摘要任务输出的是一段完整的文本,而关键词提取任务输出的是关键词的集合。我们认为这两个任务均需要编码器能够识别出输入文本中的重要信息的能力。因此,我们利用多任务学习框架,共享这两个任务编码器,提升编码器的性能。

2、基于关键词指导的摘要生成模型

我们受Zhou等人工作[1]的启发,提出了一种基于关键词指导的选择性编码。具体来说,由于关键词含有较为重要的信息,通过关键词的指导,我们构建一个选择门网络,其对输入文本的隐层语义信息进行二次编码,构造出一个新的隐层。基于这个新的隐层进行后续的解码。

我们的解码器基于Pointer-Generator网络[2],即融合了复制机制的端到端模型。对于Generator模块,我们提出直连、门融合和层次化融合的方式对原始输入文本和关键词的上下文信息进行融合;对于Pointer模块,我们的模型可以选择性地将原始输入和关键词中的文本复制到输出摘要中。

实验与分析

1、数据集

在本次实验中,我们选择在Gigaword数据集上进行实验,该数据集包含约380万个训练句子摘要对。我们使用了8000对作为验证集,2000对作为测试集。

2、实验结果

表1显示了我们提出的模型比没有关键词指导的模型表现更好。我们测试了不同的选择性编码机制,分别是输入文本的自选择,关键词选择和互选择,实验结果显示互选择的效果最佳;对于Generator模块,我们发现层次化融合的方式要优于其他两种融合方式;我们的双向Pointer模块比原始的仅能从输入文本中复制的模型表现更好。

表1

总结

本文致力于生成式句子摘要的任务,即如何将一个长句子转换成一个简短的摘要。我们提出的模型可以利用关键词作为指导,生成更加优质的摘要,获得了比对比模型更好的效果。

1)通过采用了多任务学习框架来提取关键词和生成摘要;

2)通过基于关键字的选择性编码策略,在编码过程中获取重要的信息;

3)通过双重注意力机制,动态地融合了原始输入句子和关键词的信息;

4)通过双重复制机制,将原始输入句子和关键词中的单词复制到输出摘要中。

在标准句子摘要数据集上,我们验证了关键词对句子摘要任务的有效性。

注释:

[1]  Zhou, Q.; Yang, N.; Wei, F.; and Zhou, M. 2017. Selective encoding for abstractive sentence summarization. In Proceedings of ACL, 1095–1104.

[2] See, A.; Liu, P. J.; and Manning, C. D. 2017. Get to the point: Summarization with pointer-generator networks. In Proceedings of ACL, 1073–1083.

同时,欢迎所有开发者扫描下方二维码填写《开发者与AI大调研》,只需2分钟,便可收获价值299元的「AI开发者万人大会」在线直播门票!

推荐阅读全球呼吸机告急!医疗科技巨头美敦力“开源”设计图和源代码京东商城背后的AI技术能力揭秘 - 基于关键词自动生成摘要互联网之父确诊新冠,一代传奇:任谷歌副总裁、NASA 访问科学家微软为一人收购一公司?破解索尼程序、写黑客小说,看他彪悍的程序人生!在Kubernetes上部署一个简单的、类PaaS的平台,原来这么容易!2020年,这20个大家都认识的加密交易所过得怎么样?
你点的每个“在看”,我都认真当成了AI

京东智能内容创作算法的演进与实践:基于关键词自动生成摘要相关推荐

  1. 京东商城背后的AI技术能力揭秘 - 基于关键词自动生成摘要

    来源 | 京东智联云开发者 过去几十年间,人类的计算能力获得了巨大提升:随着数据不断积累,算法日益先进,我们已经步入了人工智能时代.确实,人工智能概念很难理解,技术更是了不起,背后的数据和算法非常庞大 ...

  2. AI智能内容创作的几个方面

    昨天刚好看到CSDN有要开通付费专栏(定价有点不合理啊),我就在想有啥好写.. 刚好最近的研究方向就是KG + 智能写作 ,而且大大小小的智能内容创作产品.技术也一直在关注,于是就想做个小小搬运匠,看 ...

  3. 视频教程-算法设计与编算法设计与编程实践---基于leetcode的企业真题库程实践-C/C++

    算法设计与编算法设计与编程实践---基于leetcode的企业真题库程实践 夏曹俊:南京捷帝科技有限公司创始人,南京大学计算机硕士毕业,有15年c++跨平台项目研发的经验,领导开发过大量的c++虚拟仿 ...

  4. [344]python根据文章标题内容自动生成摘要

    text.py title = '智能金融起锚:文因.数库.通联瞄准的kensho革命' text = '''2015年9月13日,39岁的鲍捷乘上从硅谷至北京的飞机,开启了他心中的金融梦想.鲍捷,人 ...

  5. 遗传编程(GA,genetic programming)算法初探,以及用遗传编程自动生成符合题解的正则表达式的实践...

    1. 遗传编程简介 0x1:什么是遗传编程算法,和传统机器学习算法有什么区别 传统上,我们接触的机器学习算法,都是被设计为解决某一个某一类问题的确定性算法.对于这些机器学习算法来说,唯一的灵活性体现在 ...

  6. 【python自动化办公(14)】利用python向Word文档中写入内容(format格式化中槽的使用和自动生成请假条小应用)

    添加文字内容 添加一级标题 doc.add_heading('标题名称', level = 标题等级) import os os.chdir('D:\\python_major\\auto_offic ...

  7. 基于扩散模型的3D智能创作引擎与内容投放算法最新实践

    3D模型在智能设计领域以其可塑性,可编辑性有着属于自己的独特优势,扩展了2D设计的上限.但是其目前存在的局限性也是显而易见的:建模的效率,模型的数量,以及3D设计的成本. 背景 在商品展示侧,围绕人- ...

  8. 京东智能供应链平台应急场景实践

    5G .数据中心.人工智能等信息科技对今天的人们来说并不陌生.以这些技术为载体的新基建是经济高质量发展的"数字底座",它更大的价值在于承载众多新模式.新业态.新服务.从自身平台属性 ...

  9. 这家公司用AI生成颠覆内容创作!

    用 AI 生成颠覆内容创作 200 年多来,相机的定位和职能看似不断地被延伸甚至颠覆,但是它的定位不外乎是两点: Capture Experience(记录) Storytelling(故事表达) 我 ...

最新文章

  1. 百度为AI开发者打造别样的深度学习快速通关路径
  2. iOS 9 学习系列:UIStack View
  3. placement new(转)
  4. Android Monkey的使用
  5. linux c++ 获取时间,详解Linux下的C++时间类型:time_t
  6. 两种方法解决pip、conda安装库时慢的问题
  7. java实现阅读量统计_博客中的阅读量是如何设计的?
  8. ant调用YUI Compressor
  9. 金仓数据库KingbaseES使用ksql连接认证失败
  10. Python实现计算机的自动化控制!
  11. 黑莓管理器6.0_BlackBerry Java SDK 7.0 Beta发布
  12. 高校BBS冷笑话(下)
  13. 中国芯片迎难而上,4纳米芯片量产,美媒:美国或肠子都悔青了
  14. OpenMax IL层设计分析总结
  15. 课程老师也是觉得intel T265好,以后干脆还是弄T265吧。
  16. 解决eclipse复制代码到word中出现底色问题
  17. 怎么最大限度得提高电脑的性能
  18. Direct Test Mode
  19. 软件测试人员不知道这60个工具,直接损失一个亿
  20. java打印word_如何通过Java打印Word文档

热门文章

  1. 《大数据、小数据、无数据:网络世界的数据学术》一 导读
  2. nginx 通过proxy_next_upstream实现容灾和重复处理问题
  3. 动态规划和分治法,贪心算法以及递归的再一次深刻理解和体会
  4. [转]CentOS 5.5下FTP安装及配置
  5. 浅谈“闭包”,什么才是“闭包”思想!—— javascript
  6. java验证码源码_Java通用验证码程序及应用示例(提供源码下载)
  7. php mysql预处理_PHP MySQL 预处理语句
  8. Java矩阵计算之EJML
  9. Java EE学习笔记(四)
  10. 一个数字键盘引发的血案——移动端H5输入框、光标、数字键盘全假套件实现...