作者: 郑骁庆 林金曙

金融服务行业正在爱上“吞噬”文本数据,即自然语言处理。(The financial services industry is falling in love with text crunching—also known as NLP.)

自然语言处理(NLP)在金融科技中主要解决两端的问题,一端是数据,另一端是人。据估计,90%的数据以非结构化的形式呈现,自然语言处理的目标是将非结构化的数据转为结构化表示,然后将语言描述相似的内容汇聚,从而估计所描述事件的可靠性和真实性,进而通过事件之间的关联关系,产生新发现和新洞见,为后续的决策提供依据。对用户来说,自然语言处理技术让机器更懂人言,更了解用户的需求及意图,从而提供及时、准确、友好的服务。

NLP在金融领域的发展趋势

细粒度的舆情分析

舆情分析在金融领域的研究起步较早,应用也较为广泛。大众对某个事件的评价与态度,与相关资产的价格变动趋势有很强的相关性。基于这样的逻辑,可以让系统自动化收集和分析舆情信息,总结对某事件或某企业的评价。这方面金融行业亟需做得更加细腻,开展细粒度的舆情分析,例如对某企业新发布产品的外观、功能、价格等各方面评价进行分析,进而形成对产品的完整评价;细粒度还指不能对所有来源的舆情信息一视同仁处理,而是需要考虑评论的出处 。因为某些机构、人员的评价可能带有一定目的性,需要与一般大众或独立性程度较高的第三方评论区别对待。此外,还要考虑评论者在历史过程中对事件评论的准确率。

突发和意外事件需要格外关注 ,尤其是与当前趋势相反的事件,这些事件对投资者更有价值,正确预测全新的趋势有助于捕捉更佳的投资机会。

对话系统引入情感分析与推理

对话系统在智能客服、智能投顾等领域已有广泛应用,现在的一个发展趋势是在系统中运用情感分析技术 ,动态跟踪交互时用户的情绪变化,可以在发现用户出现负面情绪时,及时介入人工干预;情绪分析也可作为对话质量评估的指标,判断对话系统在完成某类任务中是否可靠,并利用历史交互记录对系统进行针对化的迭代优化。现在的技术已经可以较准确地实时分析用户情绪状态和变化,还可以让系统在回答中注入和表达特定情感。实验数据表明,如果对话系统能做出一些安慰、同情等共情性表达,系统友好性和用户黏度会大大提升,甚至提升对话系统的交互效率

对话系统还需引入智能推理能力 ,这也是一个重要趋势。传统对话系统中结合知识库的方法是将用户的问题通过语义解析转化成相应知识库的查询语句,然后在知识库上执行查询操作,并将查询结果返回给用户。这样的结合方式中,知识库的作用类似于数据库,不能发挥知识库最有价值的能力——使用已知的知识和事实推导出新知识 。知识库及其上的推理,天然能够对得出的结论进行解释,例如在智能投顾过程中,系统给出一个建议,如果用户要求给出解释,可以通过跟踪推理链,给出具有一定信服能力的、可解释性的结果。

更智能的文档分析

随着文档智能技术的发展,在金融领域将会有较大的应用前景。金融领域有大量的文档需要处理,现在技术上可以实现从文档中提取关键要素,进行文档细粒度的比对等,以减少繁重的人工工作。例如通过自动对比同一企业的两份年报(包括财务数据和解释说明),可以了解企业在一定时期内发生的重要变化。笔者认为,未来的发展趋势是机器将能更好地理解和解释文档,知晓文档内部互相引证的关系以及复杂文档的结构关系 ,从而更好地赋能合同分析、检测,这方面现在也已经有了一些应用。在文档摘要方面,现在市场的一种需求是要能针对用户特定问题产生摘要 ,特别是对长文本,需要根据文本内容快速回答用户的问题并指出答案出处。

与知识图谱结合

知识图谱与自然语言处理相结合的一个趋势是:需要能够围绕某个主体,将一段时间所发生的相关事件进行聚类,并将事件聚类结果与其他主体之间的关系进行建模,这些关系可以作为构建金融定量分析模型的一个影响因素,将知识图谱的信息有效地在模型构建上发挥作用 ,从而建立不同变量之间的关系,产生更具说服力、且有数据支持的结论。

为对抗攻击做好准备

对抗攻击对金融业信息安全的挑战目前还难以评估,但行业需要为最坏的情况做好准备。神经网络和深度学习模型易被攻击的现象最早在图像领域被发现,在自然语言处理也观察到类似现象,例如原始语句“I really like this movie”是对movie(电影)的正向评价,但是采用对抗攻击算法,每次有目的地用近义词替换句子中的一个词汇,最后生成“We truly like the show”的句子,虽然人仍然认为是正面评价,模型却判断该句子表达了负面情感。类似情况会严重影响模型的鲁棒性,降低模型分析结果的可靠性 。我们要在对抗攻击防御上做好技术储备,构建能够应付对抗样本的鲁棒模型。另一方面,对抗攻击不仅带来了挑战,也带来了机遇:它提供了一种迭代发现当前模型弱点、弥补弱点(攻击和训练不断切换)的模型训练方法;在训练样本不足时,也有助于自动产生高质量的训练样本

金融NLP实践经验:从语料到模型

自然语言处理落地金融场景,主要包括原始文本解析、文本标注、模型训练、模型评估、模型上线部署等流程,让快速发展的自然语言处理技术更快、更好地落地,主要有几个关键点:

语料库维护 :这是自然语言处理应用落地的保障,语料和标签需要形成体系,沉淀之后可以为其他业务场景复用。语料库的维护需要考虑语料类型的多样性,包括文本、图像、语音等,能否实现统一管理、检索;不同业务场景需要的语料格式不同,能否统一管理。

标注质量 :标注的质量往往会决定模型的产出效果。在标注之前,需要对原始语料进行清洗,例如:去掉相似语料,让标注更具多样性;很多大盘点评、涨停揭秘资讯等都是无用的信息,要进行数据降噪。在标注规范方面,文本分类、短文本相似度、文本信息抽取最为重要,要对每个标注需求定义进行质量把控,明确标注需求及验收规范、标注过程要进行质量监督。简而言之,“高效标注工具 + 严格标注规范 + 数据积累 + 专业标注团队 = 高质量语料 。”

模型训练及效果验证 :需要一定的算力支持;与学术界不同,金融领域的应用要减少维护成本与调试成本,模型不能太复杂;要对模型训练结果进行实时跟踪。

预训练模型及自学习平台 :基于公开数据并融合金融行业问答数据、资讯公告以及研报数据面向智能问答、智能文档处理、资讯研报标签等场景,恒生NLP提供金融预训练模型(相比开源通用预训练模型F1提升3 ~ 5%),且配套有独立研发自学习平台,从而有效解决金融机构本地部署模型快速迭代的需求问题。

在金融NLP实践的过程中,恒生基于严格的标注规范积累了大量高质量语料,在模型开发、训练与管理方面也已形成相关工具、平台。随着越来越多、越来越精彩的自然语言处理技术从前沿走向应用,恒生也将与行业一同探索新技术在更多业务场景的应用。

更多金融科技文章见恒生LIGHT云社区

人工智能NLP在金融领域的发展趋势和实践经验相关推荐

  1. 如何快速进入人工智能NLP/CV热门领域

    人工智能与自然语言处理/计算机视觉课培训招生 Artificial Intelligence ForNLP/CV Courses 真实企业级项目驱动 找工作拿不到offer全额退款 GitHub年度活 ...

  2. 数字化在金融领域的应用与实践,从“我觉得”到“用户觉得”

    在「神策 2020 数据驱动用户大会」上海站现场,湘财证券网络金融部运营总监罗叶发表了<以数启智,数字化制胜智慧金融>的演讲. 本文根据其现场演讲整理.(文末附 PPT 下载地址) &qu ...

  3. 湘财证券罗叶:数字化在金融领域的应用与实践,从“我觉得”到“用户觉得”...

    在「神策 2020 数据驱动用户大会」上海站现场,湘财证券网络金融部运营总监罗叶发表了<以数启智,数字化制胜智慧金融>的演讲. 本文根据其现场演讲整理.(文末附 PPT 下载地址) &qu ...

  4. [知识图谱] 4.1-知识图谱在金融领域中的应用实践

    目前,知识图谱在金融领域中的应用是最为火热的,涉及到金融中风控.营销.预测等重点环节. 知识图谱在金融领域中的风控类应用 1.反欺诈应用: 最近几年,金融欺诈的形式多种多样,提供虚假资料,团伙欺诈,内 ...

  5. 4.1-知识图谱在金融领域中的应用实践

    目前,知识图谱在金融领域中的应用是最为火热的,涉及到金融中风控.营销.预测等重点环节. 知识图谱在金融领域中的风控类应用 1.反欺诈应用: 最近几年,金融欺诈的形式多种多样,提供虚假资料,团伙欺诈,内 ...

  6. 当金融风控遇上人工智能,众安金融的实时特征平台实践

    导读:随着企业数字化转型升级,线上业务呈现多场景.多渠道.多元化的特征.数据要素价值的挖掘可谓分秒必争,业务也对数据的时效性和灵活性提出了更高的要求.在庞大分散.高并发的数据来源背景下,数据的实时处理 ...

  7. 中国首份AI落地白皮书发布!地方政府规模大,金融领域最积极,北京供给超上海深圳总和...

    组委会 发自 凹非寺  量子位 报道 | 公众号 QbitAI 人工智能落地,有方向可以参考了. 在MEET2020智能未来大会上,IDC联合量子位发布白皮书,全面展示了2019年中国人工智能应用状况 ...

  8. 中国首份AI落地白皮书发布!金融领域最积极,北京供给超沪深总和

    2019-12-09 13:06:23 组委会 发自 凹非寺  量子位 报道 | 公众号 QbitAI 人工智能落地,有方向可以参考了. 在MEET2020智能未来大会上,IDC联合量子位发布白皮书, ...

  9. GAIR 2020 工业互联网专场演讲实录:腾讯云人工智能在工业互联网领域的实践

    2020年8月7日-9日,第五届CCF-GAIR全球人工智能与机器人峰会于上周五正式在深圳开幕. CCF-GAIR 2020将延续过去的强大阵容,在新基建机遇下,CCF-GAIR 2020 设立了 1 ...

  10. 从蚂蚁金服一窥人工智能在金融领域的机遇与挑战

    从蚂蚁金服一窥人工智能在金融领域的机遇与挑战 CCAI 蚂蚁金服 人工智能 金融 中国人工智能大会 阅读2469  编者按:由中国人工智能学会.阿里巴巴以及蚂蚁金服联合主办,CSDN.中国科学院自动化 ...

最新文章

  1. PHP-FPM进程数的设定
  2. opc ua服务器大批量修改,opc ua服务器 数据配置
  3. 如何阻止ajax自动重定向_重发和重定向有什么区别与重定向应用
  4. C++ 多重继承之内存存储
  5. PS图片无损放大插件 Alien Skin Blow Up 3 for Mac
  6. FusionCharts破解版导出图片步骤
  7. CES:IT大变革,软件的新平台与新机遇
  8. c语言程序下三子棋,C语言实现三子棋游戏(初级版)
  9. 华为零售商品识别一等奖方案
  10. 我为什么不喜欢网赚和SEO
  11. STM32相关问题解决方法
  12. mysql 表单记录主键重新从1开始排序
  13. FAT32 文件系统详解
  14. [PTA]实验5-6 使用函数判断完全平方数
  15. 数学中的哈斯图如何构造?附实例
  16. phalcon mysql_phalcon数据库操作
  17. 华文慕课计算机组成结构第二章课后习题解析
  18. 奇安信2022年营收66.3亿:同比增14% 扣非后净亏3亿
  19. MongoDB数据库的简介与安装步骤
  20. 关于mp4格式转m3u8切片加密的方案调研

热门文章

  1. 正版软件汇集,遥感集市
  2. 小度wifi在window server2008R2系统下创建不了
  3. Firfox的炫酷名字怎么来,各位,好不好奇~!
  4. 浏览器出现ERR_PROXY_CONNECTION_FAILED 错误代码
  5. Python中字典的常用方法
  6. C/C++ 内部收益率
  7. VEMD11940FX01光学传感器
  8. 浏览器使用flash时出现此Flash Player 与您所在地区不相容的提示解决方法
  9. 数仓指标体系--建设方法
  10. mysql 报broken pipe_Mysql Broken pipe错误