在信息爆炸时代下,要想快速获取有价值的内容非常困难,这一点在新闻行业中尤为明显,而本文提到的自然语言理解技术将会是一个不错的解决建议。

自然语言理解技术在新闻行业中的应用

现如今,人类生活在一个信息大爆炸的时代。我们每个人每天所接受的新闻信息量对于一个生活在一百年前的人来说,是无法想象的。

然而,相较于一百年前的人,我们同样只有一双眼睛,我们一天所拥有的时间同样只有24小时。因此,如何在有限的时间内获得尽可能多的,有价值的新闻信息,成为了当下最值得人们关注的问题之一。面对这一棘手的问题,人工智能技术为我们带来了有效的解决方案

本文将分别从新闻媒体机构和新闻读者这两类群体的视角出发,盘点当前自然语言理解(NLP)技术在新闻媒体领域中的部分应用。看看人工智能技术如何帮我们更加从容地面对这信息焦虑的时代。

1. 面向新闻媒体公司的应用

目前,全球的媒体机构都在努力寻求以最佳的方式将最新和最有趣的信息分享给自己的读者,于是,“新闻推送服务”的质量就成了各家新闻媒体的核心竞争力。

“新闻推送服务”旨在有效地向新闻读者提供最相关和最有价值的新闻内容。 为了实现这样的服务,系统需要分析和判断用户的偏好并与找到相关的新闻内容,而这样的任务需要处理大量的数据。 这样的数据处理任务恰恰是自然语言理解技术(NLP)所擅长的。

新闻媒体公司往往需要两种不同类型数据的采集,来创建有效的新闻推送服务。

第一类是新闻信息的数据。

我们需要获得有关新闻的文本,音频和视频内容信息,内容信息包括主题,关键字,情感,以及实体。这些数据将用于新闻知识图谱的构建,新闻知识图谱能够对新闻内容进行快速搜索,并通过内容关联信息获得有效的推荐。

第二类是用户行为的数据。

我们需要收集用户在互联网上所产的时间序列数据。 通过对用户行为的跟踪,算法将结合收集到的数据以及相关的元数据来学习用户的行为习惯,了解用户的兴趣点。将用户感兴趣的新闻内容有针对性的传递给用户。

不同的公司将推送服务建立在不同的数据导向上,其业务模式的特色也有所不同:

以新闻信息数据为导向的公司善于做新闻内容分类和摘要提取。

这类公司让用户自主选择感兴趣的新闻话题,然后通过深度学习和NLP技术分析大量的新闻数据,整理来自不同网站和其他非结构化来源的信息,并根据不同的主题,关键字,人名和企业自动对新闻进行分类,快速找到用户感兴趣的新闻内容。

以用户行为数据为导向的公司更多的是聚焦在用户的习惯和兴趣点上。

这类公司通过深度学习算法,通过一段时间对用户查阅新闻的跟踪学习后,掌握用户的阅读偏好,再直接依靠NLP技术分析新闻文本的内容,理解新闻的含义,将用户的阅读偏好与新闻内容相匹配,实现个性化新闻推送服务。

2. 面向新闻读者的应用

对于新闻读者来说,智能的“新闻推送服务”可以有效的控制所接受新闻的数量,帮助用户节省查找新闻的时间。然而,真实世界中,每天都会产生出大量的假新闻,这些新闻内容往往扭曲现实,存在偏见。不少新闻媒体为了谋求利益,只关注新闻的浏览量,而忽略了新闻内容的质量和真实性。

人工智能技术在赋能媒体公司实现个性化新闻推送的同时,也在尝试为新闻读者排除掉垃圾信息和虚假新闻。NLP技术能够分析特定新闻项目的偏见和歧义,以帮助读者将假新闻位从海量的信息中分离出来。

目前,NLP技术在新闻质量的检测的工作上有两个方面的应用。一个是对虚假新闻的鉴别工作,另一个是对偏见新闻观点的判别工作。

假新闻鉴别的应用主要是依靠两种实现方式。

一种方式是通过NLP技术对新闻信息的上下文语境进行全局理解,分析某个新闻观点与其所在的整篇新闻内容的关联,判断真实新闻和虚假新闻之间的差异。 当前流行的方法之一是TF-IDF(术语频率 – 逆文档频率)矢量化器,该技术用于判断一个词在文章中的重要性。

另一种方式是直接通过信息距离算法对比不同新闻来源的新闻内容,针对同一个新闻报道向读者提供不同的解释和分析角度,从而帮助用户将新闻中的谎言与事实分开。

新闻偏见判别的应用其实算是假新闻鉴别的一个进阶版应用。在真实生活中,大部分新闻报道或多或少都会存在偏见色彩。即使是针对同一个事件的报道,只要稍微调整报道中所使用的语言,就可以反映出截然不同的观点。

然而,市场上目前就新闻偏见的问题并没有成熟的解决方案。NLP技术在这一问题上做了很多科研方面的尝试,其思路是通过训练一组向量机(SVM)模型,从不同的维度对一条新闻的内容进行打分,计算每个评判要素的得分,然后得出该条新闻偏见程度的分数。这样的模型只能识别出具有明显偏见色彩的新闻,在真实的应用场景中还并不成熟。

总结

今天,在这个信息过量的时代,我们迫切的想要找到一个有效的方法,来获取自己感兴趣,并且高质量新闻信息。自然语言理解技术正在不断的优化我们获取新闻的方式,并帮助我们把控新闻的质量。

  • 对于新闻媒体公司来讲,NLP技术可用于对新闻内容进行分类,根据读者的兴趣和喜好实现个性化新闻推送服务。
  • 对于广大新闻读者来说,依靠NLP技术可以鉴别出新闻内容的真伪,从而不被假新闻和带有偏见色彩的新闻所欺骗。

以目前新闻产生总量的发展趋势来看,未来我们的生活当中将会出现远比现在更多的新闻信息。幸运的是,海量的新闻数据恰恰可以更好的推进NLP技术在新闻媒体领域的应用。届时,NLP技术将进一步加速其在各种新闻服务中的部署和落地应用。

新闻行业中,自然语言理解技术该如何应用?相关推荐

  1. 智能催收系统中自然语言理解模块设计

    摘要 随着社会信贷消费的流行,待催收的违约用户逐渐增多.针对此问题,对Rasa对话系统开发框架中的自然语言理解模块进行改进,显著提升智能催收系统中自然语言理解模块的准确率,并对最终得到的训练模型进行性 ...

  2. 交互搜索中的自然语言理解技术

    交互搜索 交互搜索是一种新的产品形态,可以和用户对话,记住用户的购物需求和偏好,提供购物知识和建议.在搜索页面下拉就可以进入了,类似于微信的小程序的进入方式. 自然语言理解 对话和搜索的最大区别就是对 ...

  3. 对话系统中自然语言理解NLU——意图识别与槽位填充

    目录 1. 什么是意图识别和槽位填充 1.1 语义槽的设计 2. 意图识别的方法 2.1 规则模板 2.2 统计机器学习 2.3 深度学习 3. 意图识别的难点 4. 槽位填充的方法 5. 参考 问答 ...

  4. HMS Core新闻行业解决方案:让技术加上人文的温度

    开发者们,你希望用户如何获取新闻? 有的人靠手机弹窗知天下事,有的人则在新闻应用中尽览每一篇文章:有的人一目十行,有的人则喜欢细细咀嚼:有的人主动探索,有的人则想要应用投其所好. 科技在不断刷新着用户 ...

  5. matlab在电力行业中的仿真技术-MATLAB小电流接地系统单向故障仿真分析

    前言 文中涉及代码可参见,需要的小伙伴自行订阅! 基于Matlabsimulink的小电流接地系统单向故障仿真分析 基于Matlab/simulink的小电流接地系统单向故障仿真分析,包涵中性点不接地 ...

  6. matlab在电力行业中的仿真技术-MATLAB基于EKF算法估计电动汽车蓄电池的SOC

    前言 关于本文的代码请参加,有兴趣的小伙伴可自行订阅. matlab电力系统仿真-MATLAB基于EKF算法估计电动汽车蓄电池的SOC 电动汽车(EV)是未来汽车的一大发展方向.动力锂电池组是电动汽车 ...

  7. 景联文科技:自然语言处理(NLP)系列(一)——自然语言理解(NLU)

    作为人工智能领域的基础,自然语言处理(NLP)一直是该领域最热门技术之一.近年来,一种潜在的新语言模型GPT-4出现,他能够掌握更广泛的会话主题,甚至成为对话的 "主导者",实时语 ...

  8. ChineseGLUE:为中文NLP模型定制的自然语言理解基准

    机器之心整理 参与:张倩.郑丽慧 GLUE 是一个用于评估通用 NLP 模型的基准,其排行榜可以在一定程度上反映 NLP 模型性能的高低.然而,现有的 GLUE 基准针对的是英文任务,无法评价 NLP ...

  9. 关于在呼叫中心业务中应用语音识别技术的探讨

    关于在呼叫中心业务中应用语音识别技术的探讨 摘要:本文首先给出了语音技术的应用现状,接着对语音识别技术在呼叫中心中可应用可尝试的业务进行探讨,最后提出呼叫中心业务中应用语音识别技术的虚拟CSR概念. ...

最新文章

  1. R语言进行主成分分析(PCA)、使用prcomp函数进行主成分分析:碎石图可视化(scree plot)、R通过线图(line plot)来可视化主成分分析的碎石图(scree plot)
  2. IT容灾系统周期管理图
  3. C/C++之预处理命令
  4. 信息学奥赛一本通 2027:【例4.13】三角形
  5. 微服务写的最全的一篇文章
  6. MySQL数据约束和关联查询
  7. 鸿蒙系统2017就有,北京汽车首款搭载鸿蒙系统燃油SUV即将亮相
  8. Linux命令之diff
  9. 动手学习数据分析(三)——数据重构
  10. php 7.4连接MySQL
  11. 魔百盒B863AV3.2-M,B863AV3.1-M2线刷+卡刷精简固件(S905L3A-B)
  12. easywechat 网页授权登录
  13. 自定义ImageView加载圆形图片
  14. Python爬虫简介
  15. 低代码到底是银弹,还是行业毒瘤?
  16. Java 开发验证码。随机产生一个四位数的验证码,每位数可能是数字、大写字母或小写字母。
  17. RK3588 调试 phy
  18. python输入一个字符串、计算其中小写字符的个数_利用键盘录入,输入一个字符串,统计该字符串中各个字符的数量,并输出(c/c++实现)...
  19. 中国央行将发行全球首个法定数字货币,你准备好了吗?
  20. C++核心准则R.32: 通过​unique_ptr(widget)类型参数表示函数试图获取widget的所有权

热门文章

  1. mongodb 与 mysql区别 NOSQL 型号与SQL型号的区别 是非关系型号与关系型号的区别
  2. TENSORFLOW较好的博客
  3. 安装oracle11的时候 提示ORA-28056 未能将审计记录写入windows事件日志,这是怎么回事啊
  4. 史上最极客科技演示今日诞生
  5. 为什么说康托尔知道聚宝盆的秘密?
  6. 他是20世纪最伟大的发明家之一,却因竞争对手迫害,郁郁而终
  7. 说说软件开发这个职业
  8. 谷歌像素递归超分辨率研究:怎么消灭低分辨率图像马赛克?
  9. 超图学习综述: 算法分类与应用分析
  10. 报道 | 1899篇论文、1329个机构、6012位作者,NeurIPS 2020谁在独领风骚?