京东JIMI用户未来意图预测技术揭秘
随着近年来人工智能技术的发展,Chatbot聊天机器人越来越普及,随之而来的用户访问不断增多,如何让Chatbot系统在解决用户问题的同时简化用户操作,优化用户与机器人聊天过程中的体验成为当前难点。
目前的智能问答机器人不仅需要实现智能人机交互(文本、语音等)的全渠道多媒体整合应用,而且需要各领域内大数据、深度语义理解等前沿技术上的研究与积累,让机器人去回答用户的同时预测用户接下来的意图,并做对应的个性化处理,因此针对Chatbot的用户未来意图预测技术应运而生。
1、京东JIMI及发展现状
1.1 关于JIMI
京东JIMI是由京东自主研发的Chatbot,通过自然语言处理、深度神经网络、机器学习等技术,能完成全天候、无限量的用户咨询,涵盖售前咨询、售后服务、闲聊陪伴等环节。
自2012年诞生至今,已累计服务数亿用户,覆盖京东10亿+的商品,应答准确率90%以上,用户满意度高达80%以上,每月为京东节省上千万人力成本。
1.2 现有技术方案
JIMI现有技术架构主要由以下模块组成,如图1所示:
(1)算法:包括纠错、分词、实体识别、知识图谱、词法分析等模块,根据用户输入的问题,结合领域术语词库和其他语法、语义方面的资源,在解决歧义、指代关系等问题后,使用深度神经网络技术,提供用户意图的精准理解。
(2)工程:根据业务处理逻辑,判断该问题的答案处理流程,例如答案是闲聊或业务,是否需要用户登录等。
(3)数据:通过对用户原始数据的挖掘、清洗和聚合等,实现对客服领域知识的储备,并对现有数据做可视化处理。
图1:Chatbot系统架构图
1.3 现有方案的缺点
传统Chatbot只能根据用户的当前问题,给出对应的答案,类似于一问一答的形式。对于用户在聊天过程中接下来的意图,没有预测功能。如此以来用户每次都必须完整输入自己想问的问题,才能获得相关答案。这种方式比较费时,用户体验也不是特别好。
本文接下来会介绍一种基于用户未来意图预测的方法,对用户的聊天过程做实时分析,根据当前及历史问题,智能预测用户接下来的意图,提升用户的聊天体验。
2、预测未来意图技术方案
2.1 应用场景
基于现有技术存在的问题和缺陷,我们提出了一种智能预测用户下一个意图的方法。该方法基于用户目前订单、购物车状态等账号信息以及历史聊天内容,智能预测用户接下来最可能问的问题。它主要会在以下两种场景下使用:
1)用户开始咨询前预测
如何在用户进入JIMI后还未咨询前,提前预测用户可能会问到的问题,并将其直接展示给用户供用户点选,提升用户体验,需要解决两个技术问题,一是如何获取用户可能会问的标准问题,二是如何做到个性化地对不同的用户推送不同的问题。
在具体实现上,采用人工去整理就存在人力成本高、问题更新不及时的情况,因此我们采用无监督的聚类方式得到用户可能问的标准问题,再通过线上试验,先随机出这些问题,收集用户点击作为分类标签,最后用分类的思想去解决它。
具体技术实现如下,如图2所示,首先按热门SKU的维度收集问题,包括用户在JIMI/咚咚发送的信息,以及单品页购买中咨询的问题。这些原始问题不能直接作为标准问题进行使用,所以需要人工进行一次过滤,由于数据量非常庞大,这里采用Logistic Regression训练一个语料过滤模型,用于数据清洗。接着对这些问题做切词,word2vec训练词向量,进而得到句子向量,最终用K-means聚类的方法,找到最大的前20个Cluster,选出现次数最多的问题作为标准问题。
图2:用户进入咨询前预测
系统上线后,先随机出这些问题,然后根据用户点击行为确定样本的标签,再收集用户的订单、服务单、实时浏览数据、以及画像数据作为样本,最终训练一个用于用户开始咨询前的未来意图预测分类模型。当用户再来咨询时,根据分类模型给出用户最可能问到的前3个问题,供其点选。
2)用户咨询过程中实时预测
对于用户咨询过程中的未来意图预测,如图3所示,系统会在用户说每句话时,实时预测用户下一意图,并将预测的TOP5用户意图展示在前端界面。如果用户觉得预测准确,可直接点击该问题获取答案,不用自己手动输入问题,从而提升用户体验。
图3:用户咨询过程中实时意图预测
2.2 未来意图预测流程
用户咨询过程中未来意图预测流程包括预处理、模型预测,数据记录三大模块。如图4所示:
图4:用户咨询过程中未来意图预测模块内部流程图
各模块的作用如下:
预处理:预处理模块主要做一些必要入参的判断,比如判断输入的用户ask是否合法,以及对于用户提问小于2句的情况,不做未来意图预测处理。用户提问大于2句才会继续往下走到模型预测模块。
模型预测:通过模型计算用户下一个可能的问题概率,如果预测值低于当前设置的阀值则不做推送,高于阈值才会继续往下走到数据记录模块。
数据记录:负责系统日志记录,比如记录下每句话具体推送了哪些分类,方便系统上线后模型调优。
接下来,详细介绍模型预测子模块。该模块通过模型分类的方法,将用户问题对应到不同分类,并实时计算用户下一问题的概率。具体技术方案如下:
1)样本构造
首先,收集用户和客服的聊天日志信息,我们可以根据这些海量信息,发现用户当前问题与下一个问题的联系。
比如用户进入咨询首先发送“你好”,然后说“这个商品有货吗?”,紧接着问“有优惠吗?”,最后问“现在下单,什么时候能送到?”。这时我们构造样本就需要把前三句话拼在一起,构造出来这样的样本“你好这个商品有货吗?有优惠吗?”
2)标签构造
上面这个样本的标签就是第四句话“现在下单,什么时候能送到?”所对应的分类。
如何确定分类?用人工审核的方式,将所有用户的问题都看一遍,并将每个问题对应到一个具体的分类。比如用户问“我的商品有货吗?”或者“还有货吗?”都会被分到“是否有货”这个分类,标记“分类1”,以此类推。
3)标签选择
推送给用户的问题,最好是用户常问的问题,而不是一些长尾问题,这样可以提升推送的准确率。
统计最近1年的聊天日志,将所有用户每句话对应到一个分类标签,计算出TOP10的分类标签,主动推送的分类就限定在这TOP10之中。最终构造出的样本和标签信息,如图5。
图5:构造样本和标签
样本构造的总体思路:
- 从最近1年的聊天日志取出用户原始问题
- 将用户的问题分类,每个用户问题对应一个类别标签
- 每通会话包含N个用户问题,其中前N-1个问题拼起来作为样本,第N个问题的分类,作为该样本标签
- 最终取TOP10的标签分类,保证预测结果能够覆盖用户的高频问题
4)模型训练:
深度学习CNN模型,可用于求解一个分类问题,将用户的问题映射到一个具体的分类。最终在算法选型上,我们采用深度学习CNN模型,其中模型参数:
- 词向量采用100维
- 每个样本限定30个字以内,超出30截断,不足30补充随机向量
- 单层CNN网络,第一层卷积核大小3*50
5)模型效果
最终模型效果的统计,我们通过建立BaseLine与模型对比的方式来度量。BaseLine的建立思路如下:针对当前分类X,基于历史数据统计,给出最高频的下一分类Y
3、结语
经线上验证,用户未来意图预测技术已经能优化用户咨询效率和咨询体验,让机器人不仅“懂你所问”,更“知你所想”。后续基于不断优化提高的自然语言理解能力和深度学习,对用户未来意图预测会越来越准确,让用户体验更智能的机器人。
【作者简介】邹波,京东JIMI核心算法架构师,致力于NLP领域和深度学习方向。目前负责用户未来意图预测,智能分流,会话结束预测等项目,极大的提高了客服工作效率,同时也降低人力成本,提升了客户体验。本文来自邹波在“携程技术沙龙——人机语义交互AI”上的分享。
https://zhuanlan.zhihu.com/p/31453521
京东JIMI用户未来意图预测技术揭秘相关推荐
- 京东云端到端多媒体关键技术揭秘
从带来更高编码效率.更好的用户体验的京享高清,到直播架构与网络演进优化,从而为用户带来更流畅的观看体验,以及运维系统的异常自动修复和高弹性的多媒体存储架构,一层一层展示出复杂而有序的多媒体技术框架.本 ...
- 技术沙龙|京东云端到端多媒体关键技术揭秘
编者按:从带来更高编码效率.更好的用户体验的京享高清,到直播架构与网络演进优化,从而为用户带来更流畅的观看体验,以及运维系统的异常自动修复和高弹性的多媒体存储架构,一层一层展示出复杂而有序的多媒体技术 ...
- 亿级流量背后战场,京东11.11大促全方位技术揭秘
作为一名开发者,你经历过最可怕的流量是怎样的呢?对京东的这群架构师而言,京东11.11大促无疑是一场巨大的流量考验.摆在擂台上的是2715亿元的成交额,而在擂台背后,是一场关乎亿级.十亿级.百亿级流量 ...
- 京东智能客服言犀意图体系搭建和意图识别技术介绍
01 背景介绍 近年来随着人工智能技术的不断发展,以及各行业内部系统对智能化需求的日益增大,智能客服机器人服务水平大幅提升,越来越多的企业开始建立自己的智能客服产品,尤其是一些中大型企业.搭建一款智能 ...
- 京东智能客服言犀启发式问答技术揭秘
文章作者:邹波.宋双永.孙博秋 1. 背景介绍 近年来,随着智能客服机器人在电商平台上的使用越来越多,用户满意度和问题解决率已成为评价智能客服服务质量.衡量用户体验的最重要指标,而用户体验主要受到用户 ...
- 京东用户购买意向预测(一)
数据清洗 故事背景: 数据集: 数据挖掘流程: 数据集验证 首先检查JData_User中的用户和JData_Action中的用户是否一致 因为数据量很大所以每次读取的时间有点长,所以很着急看结果的话 ...
- 京东用户购买意向预测(一)数据清洗
故事背景: 京东作为中国最大的自营式电商,在保持高速发展的同时,沉淀了数亿的忠实用户,积累了海量的真实数据.如何从历史数据中找出规律,去预测用户未来的购买需求,让最合适的商品遇见最需要的人,是大数据应 ...
- 深度揭秘京东全景主图背后的技术
据京东财报显示,京东集团第二季度净利润达9.765亿,年度活跃用户达2.583亿,订单完成量为5.912亿.扎实的用户基础显示了京东服务的优质.而技术便是支撑京东的服务品质不断提升的重要因素,全景主图 ...
- 揭秘视频千倍压缩背后的技术原理之预测技术
正文字数:3312 阅读时长:4分钟 随着5G的成熟和广泛商用,带宽已经越来越高,传输视频变得更加容易.设备特别是移动设备算力的提升.存储容量的提升,使得视频技术的应用越来越广泛,无论是流媒体.泛娱 ...
最新文章
- “如何写好科技论文之我见”结束语-如何写好科技论文之我见(十)
- MFC中的DC,CDC和HDC
- Docker 获取镜像 - 一
- java month_java11教程--类Month用法
- 初探Bootstrap
- 【Java程序设计】Java基础类库简介
- hive内部表与外部表入门
- 什么是序列化?序列化的作用是什么?iOS中怎么实现序列化?
- 台达触摸屏编程软件_一拖二口罩机图纸PLC触摸屏控制程序全套带信捷编程软件...
- 最新29刷网课平台系统源码+带教程
- sfm支持Linux和Windows吗,VisualSFM的使用方法
- linux查看录音驱动程序,Linux 下查看麦克风或音频采集设备
- python文件seek函数_Python seek函数
- 国内外大数据创业面面观
- Granafa监控仪表盘:自定义简约型-只显示资源总览,各个主机详情
- 【AGC001E】BBQ Hard(图论,dp)
- 微信小程序开发入门教程(一)
- Gunicorn ImportError: cannot import name ‘ALREADY_HANDLED‘ from ‘eventlet.wsgi‘
- NovaMind *的安装、和谐破解到永久使用
- Spring 源码中设计模式?这样回答面试官.才能显得你技高一筹.