在AI时代,我们希望计算机能够拥有视觉、听觉、行动以及语言的智能,而相对于听和看以及行动,语言是我们人类区别于其他动物的最重要特征之一。语言是我们思维的载体,也因此我们对于语言的理解和处理,变得尤为重要。而在计算机领域,自然语言处理(NLP,NaturalLanguageProcessing)就是研究如何让计算机理解并生成人类的语言,从而和人类平等流畅地沟通交流。

自然语言处理技术在百度已经有悠久的历史,早在百度诞生之时就成为搜索技术的重要组成部分,一直伴随着百度的发展而进步。从中文分词、词性分析、改写,到机器翻译、篇章分析、语义理解、对话系统等等,NLP技术已成功应用在们的生活之中。

NLP是什么?

NLP是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的学科。NLP由两个主要的技术领域构成:自然语言理解和自然语言生成。

自然语言理解方向,主要目标是帮助机器更好理解人的语言,包括基础的词法、句法等语义理解,以及需求、篇章、情感层面的高层理解。

自然语言生成方向,主要目标是帮助机器生成人能够理解的语言,比如文本生成、自动文摘等。

NLP技术基于大数据、知识图谱、机器学习、语言学等技术和资源,并可以形成机器翻译、深度问答、对话系统的具体应用系统,进而服务于各类实际业务和产品。

我们为什么需要NLP?

人们在用百度搜索一个生僻字时,不知道拼音的情况下会搜索:“4个又念什么?”,我们发现,搜索结果一定是告诉你这个“叕”字念什么,而不是“4个又念什么”的这几个词表面的匹配结果,这其中已经用到自然语言理解的能力了,它帮助搜索引擎理解用户需要搜的是“由4个又组成的字”,而不是“4个又是什么”这几个孤零零的词。由此可见,NLP技术真正能够知道你所说的话的深层语义是什么,这项技术也把人工智能推向了一个新的高度。

那么NLP究竟能能够干什么?如何帮助业务实现,百度NLP开放的几项典型技术,具体如下:

情感倾向分析

针对带有主观描述的中文文本,可自动判断该文本的情感极性类别并给出相应的置信度。情感极性分为积极、消极、中性。情感倾向分析能帮助企业理解用户消费习惯、分析热点话题和危机舆情监控,为企业提供有力的决策支持。

评论观点抽取

自动分析评论关注点和评论观点,并输出评论观点标签及评论观点极性。目前支持13类产品用户评论的观点抽取,包括美食、酒店、汽车、景点等,可帮助商家进行产品分析,辅助用户进行消费决策。

词义相似度计算

用于计算两个给定词语的语义相似度,基于自然语言中的分布假设,即越是经常共同出现的词之间的相似度越高。词义相似度是自然语言处理中的重要基础技术,是专名挖掘、query改写、词性标注等常用技术的基础之一。

词法分析

百度词法分析向用户提供分词、词性标注、命名实体识别三大功能。该服务能够识别出文本串中的基本词汇标注和词汇的词性,并进一步识别出命名实体,百度词法分析的算法效果大幅领先已公开的主流中文词法分析模型。

短文本相似度

能够提供不同短文本之间相似度的计算,输出的相似度是一个介于-1到1之间的实数值,越接近1则相似度越高。这个相似度值可以直接用于结果排序,也可以作为一维基础特征作用于更复杂的系统。

DNN语言模型

语言模型是通过计算给定词组成的句子的概率,从而判断所组成的句子是否符合客观语言表达习惯。在机器翻译、拼写纠错、语音识别、问答系统、词性标注、句法分析和信息检索等系统中都有广泛应用。

词向量表示

词向量表示表示是通过训练的方法,将语言词表中的词映射成一个长度固定的向量。词表中所有的词向量构成一个向量空间,每一个词都是这个词向量空间中的一个点,利用这种方法,实现文本的可计算。

依存句法分析

利用句子中词与词之间的依存关系来表示词语的句法结构信息(如主谓、动宾、定中等结构关系)

并用树状结构来表示整句的的结构(如主谓宾、定状补等)。
  人工智能、大数据、云计算和物联网的未来发展值得重视,均为前沿产业,多智时代专注于人工智能和大数据的入门和科谱,在此为你推荐几篇优质好文:
1.Hanlp自然语言处理工具的使用演练
2.深度学习、机器学习与NLP,为什么要学习这些新技术
1.什么是自然语处理,自然语言处理主要有什么用,有什么难点

多智时代-人工智能和大数据学习入门网站|人工智能、大数据、物联网、云计算的学习交流网站

NLP是什么,百度的NLP技术有有哪些?相关推荐

  1. 百度一口气亮出NLP十年积累:完整技术布局全面披露,面向业界砸下11项七夕大礼...

    鱼羊 发自 凹非寺 量子位 报道 | 公众号 QbitAI 十年,从名不见经传到世界舞台中央,中国NLP经历怎样的历程,未来又将向何处去? ACL首任华人主席.百度CTO王海峰说:站在百度的角度,过去 ...

  2. 百度一口气亮出NLP十年积累:完整技术布局全面披露,面向业界砸下11项七夕大礼

    百度一口气亮出NLP十年积累:完整技术布局全面披露,面向业界砸下11项七夕大礼:https://zhuanlan.zhihu.com/p/197625888

  3. nlp 中文文本纠错_百度中文纠错技术

    原标题:百度中文纠错技术 分享嘉宾:付志宏 百度资深研发工程师 编辑整理:李润顺 内容来源:Baidu Brain & DataFun AI Talk<百度中文纠错技术> 出品社区 ...

  4. 前百度资深NLP算法工程师(剑桥女博士)带来求职八问八答

    前百度高级NLP算法工程师(剑桥女博士)带来求职八问八答 在求职自然语言处理相关岗位的过程中,有很多小伙伴们都希望获得资深导师的面试指导.小编特此提取了小伙伴们在面试过程中遇到的部分问题,总结出了八问 ...

  5. 收藏 | 700页NLP算法在百度、阿里、腾讯等一线大厂的最佳实践!PDF限时领!

    NLP算法在百度.阿里.腾讯等一线大厂的最佳实践? NLP以及知识图谱在业界的进展? 下阶段我们的发展方向有哪些? 今天,2020 DataFunTalk 精选: <NLP算法在业界的应用实践合 ...

  6. 【NLP】python中英文关键词抽取技术总结

    [NLP]python中英文关键词抽取技术总结 无论是在中文还是英文中关键词抽取技术都是有着很重要的应用价值和分析价值,下面在python环境中分别针对中文和英文介绍几种常用的关键词抽取方法. 1. ...

  7. 百度知识图谱技术及应用

    分享嘉宾:王泉博士 百度 资深研发工程师 编辑整理:付一韬 出品平台:DataFunTalk 导读:知识图谱是让机器像人类一样理解客观世界的基石.本次报告首先简要介绍知识图谱在百度的位置及整体的发展概 ...

  8. 跨越专业翻译的语言之墙:百度翻译的技术攀登

    作为一个科技从业者,阅读AI顶会的最新论文.浏览国内外创新的最新动向,是我工作的重要部分.平时接触的开发者.科学家.企业研究人员等,工作生活中也涉及大量专业阅读. 于是乎,我就会经常听到这样的抱怨: ...

  9. 百度孙宇:百度语义理解技术ERNIE及其应用

    不到现场,照样看最干货的学术报告! 嗨,大家好.这里是学术报告专栏,读芯术小编不定期挑选并亲自跑会,为大家奉献科技领域最优秀的学术报告,为同学们记录报告干货,并想方设法搞到一手的PPT和现场视频--足 ...

  10. 关于大数据技术的演讲_百度大数据技术开放平台再度亮相

    众所周知,百度凭借在大数据领域多年的深厚技术积累,一直冲在产业智能化的最前线.在去年的百度AI开发者大会上,百度大数据发布了全新的大数据产品技术栈,覆盖了数据工程.数据科学.数据产品和行业解决方案,并 ...

最新文章

  1. 记一次对某企业的渗透测试实战
  2. printf函数输出详解
  3. [CQOI]九连环(FFT优化+高精)
  4. xenserver6.2 内存leak故障处理
  5. 记一次“Shiro+任务调度”开发过程中出现UnavailableSecurityManagerException解决思路
  6. python两数相乘代码_Python 实现大整数乘法算法的示例代码
  7. linux led测试程序,Linux中加入led驱动及测试程序详解
  8. python语句块的定义_第五章、Python语句
  9. 小程序中添加客服按钮contact-button
  10. 运维之道 | Linux常用网络命令
  11. ucore操作系统 lab1 实验报告
  12. Linux虚拟机配置防火墙和软件安装限制
  13. 首次揭秘!字节跳动基础架构技术迭代演进之路
  14. php支付宝单笔转账到支付宝账户,用户提现业务
  15. 李彦宏对话IMF总裁拉加德:缓解B端焦虑,要看AI这道主菜味道如何
  16. 助教日志_【沈阳航空航天大学软件工程 1,2班】期末排行
  17. [C/C++]宽字符与控制台程序
  18. android手机赚钱软件排行
  19. 银行HR讲述实习生转正故事:寒门真的再难出贵子
  20. MATLAB中assignment模块,Simulink Matlab Function 模块使用问题求教

热门文章

  1. gds是什么系统简称_气体检测仪GDS系统是什么系统?
  2. OpenGL ES EAGLContext 和 EGLContext
  3. 光纤跳线的分类和概述
  4. PyTorch基础:Tensor的自动广播机制与向量化
  5. Cadence PSpice 补充1:脉冲信号源的详细介绍与使用方法图文演示
  6. OSChina 周五乱弹 —— 埃塞俄比亚的远房大表姐
  7. c语言人民日报排版的代码,人民日报都在玩的排版黑科技,教你1分钟上手!
  8. 【Jon】连接Mysql数据库出现1046错误
  9. Opencv访问图像像素的三种方法
  10. 记录一个pycharm的神奇bug