NLP是人工智能的一个子领域,作为AI产品经理,我们至少要知道NLP是什么,它能做什么事,这样我们就能获得一种解决问题的思维,将遇到的问题和方法连接起来。接下来我从“NLP是什么、能做什么、目前遇到的难题”三个方面来简单介绍下NLP。

一.什么是NLP

NLP,中文叫自然语言处理,简单来说,是一门让计算机理解、分析以及生成自然语言的学科,大概的研究过程是:研制出可以表示语言能力的模型——提出各种方法来不断提高语言模型的能力——根据语言模型来设计各种应用系统——不断地完善语言模型。

NLP理解自然语言目前有两种处理方式:

1.基于规则来理解自然语言,即通过制定一些系列的规则来设计一个程序,然后通过这个程序来解决自然语言问题。输入是规则,输出是程序;

2.基于统计机器学习来理解自然语言,即用大量的数据通过机器学习算法来训练一个模型,然后通过这个模型来解决自然语言问题。输入是数据和想要的结果,输出是模型。

接下来简单介绍NLP常见的任务或应用。

二.NLP能做什么:

1.分词

中文可以分为字、词、短语、句子、段落、文档这几个层面,如果要表达一个意思,很多时候通过一个字是无法表达的一个含义的,至少一个词才能更好表达一个含义,所以一般情况是以“词”为基本单位,用“词”组合来表示“短语、、句子、段落、文档”,至于计算机的输入是短语或句子或段落还是文档就要看具体的场景。由于中文不像英文那样词与词之间用空格隔开,计算机无法用区分一个文本有哪些词,所以要进行分词。目前分词常用的方法有两种:

(1)基于规则:Heuristic(启发式)、关键字表

(2)基于机器学习/统计方法:HMM(隐马尔科夫模型)、CRF(条件随机场)

(注:在这里就不具体介绍方法的原理和实现过程了,大家感兴趣,可以自行百度了解)

现状分词这项技术非常成熟了,分词的准确率已经达到了可用的程度,也有很多第三方的库供我们使用,比如jieba,所以一般在实际运用中我们会采用“jieba+自定义词典”的方式进行分词。

2.词编码

现在把“我喜欢你”这个文本通过分词分成“我”、“喜欢”、“你”三个词,此时把这三词作为计算机的输入,计算机是无法理解的,所以我们把这些词转换成计算机能理解的方式,即词编码,现在普遍是将词表示为词向量,来作为机器学习的输入和表示空间。目前有两种表示空间:

(1)离散表示:

A.One-hot表示

假设我们的语料库是:

我喜欢你你对我有感觉吗

词典{“我”:1,“喜欢”:2,“你”:3,“对“:4,“有”:5,“感觉”:6,“吗”:7} 。一共有七个维度。

所以用One-hot表示:

“我” :[1, 0, 0, 0, 0, 0, 0]

“喜欢”:[0, 1, 0, 0, 0, 0, 0]

········

“吗” :[0, 0, 0, 0, 0, 0, 1]

即一个词用一个维度表示

B.bag of word:即将所有词的向量直接加和作为一个文档的向量。

所以“我 喜欢 你”就表示为:“[1, 1, 1, 0, 0, 0, 0]”。

C. Bi-gram和N-gram(语言模型):考虑了词的顺序,用词组合表示一个词向量。

这三种方式背后的思想是:不同的词都代表着不同的维度,即一个“单位”(词或词组合等)为一个维度。

(2)分布式表示:word2vec,表示一个共现矩阵向量。其背后的思想是“一个词可以用其附近的词来表示”。

离散式或分布式的表示空间都有它们各自的优缺点,感兴趣的读者可以自行查资料了解,在这里不阐述了。这里有一个问题,当语料库越大时,包含的词就越多,那词向量的维度就越大,这样在空间储存和计算量都会指数增大,所以工程师在处理词向量时,一般都会进行降维,降维就意味着部分信息会丢失,从而影响最终的效果,所以作为产品经理,跟进项目开发时,也需要了解工程师降维的合理性。

3.自动文摘

自动文摘是指在原始文本中自动摘要出关键的文本或知识。为什么需要自动文摘?有两个主要的原因:(1)信息过载,我们需要在大量的文本中抽出最有用、最有价值的文本;(2)人工摘要的成本非常高。目前自动文摘有两种解决思路:第一种是extractive(抽取式),从原始文本中找到一些关键的句子,组成一篇摘要;另一种方式是abstractive(摘要式),计算机先理解原始文本的内容,再用自己的意思将其表达出来。自动文摘技术目前在新闻领域运用的最广,在信息过载的时代,用该技术帮助用户用最短的时间了解最多、最有价值的新闻。此外,如何在非结构的数据中提取结构化的知识也将是问答机器人的一大方向。

4.实体识别

实体识别是指在一个文本中,识别出具体特定类别的实体,例如人名、地名、数值、专有名词等。它在信息检索、自动问答、知识图谱等领域运用的比较多。实体识别的目的就是告诉计算机这个词是属于某类实体,有助于识别出用户意图。比如百度的知识图谱:

“周星驰多大了”识别出的实体是“周星驰”(明星实体),关系是“年龄”,搜索系统可以知道用户提问的是某个明星的年龄,然后结合数据“周星驰 出生时间 1962年6月22日”以及当前日期来推算出周星驰的年龄,并把结果直接把这个结果显示给用户,而不是显示候选答案的链接。

此外,NLP常见的任务还有:主题识别、机器翻译、文本分类、文本生成、情感分析、关键字提取、文本相似度等,以后有时间再为大家做简单介绍。

三.NLP目前存在的难点

1.语言不规范,灵活性高

自然语言并不规范,虽然可以找一些基本规则,但是自然语言太灵活了,同一个意思可以用多种方式来表达,不管是基于规则来理解自然语言还是通过机器学习来学习数据内在的特征都显得比较困难。

2.错别字

在处理文本时,我们会发现有大量的错别字,怎么样让计算机理解这些错别字想表达的真正含义,也是NLP的一大难点

3.新词

我们处在互联网高速发展的时代,网上每天都会产生大量的新词,我们如何快速地发现这些新词,并让计算机理解也是NLP的难点

4.用词向量来表示词依然存在不足

上述,我们讲到,我们是通过词向量来让计算机理解词,但是词向量所表示的空间,它是离散,而不是连续,比如表示一些正面的词:好,很好,棒,厉害等,在“好”到“很好”的词向量空间中,你是不能找到一些词,从“好”连续到“很好”,所以它是离散、不连续的,不连续最大的问题就是不可导.计算机是处理可导的函数非常容易,不可导的话,计算量就上来了。当然现在也有一些算法是计算词向量做了连续近似化,但这肯定伴随着信息的损失。总之,词向量并不是最好的表示词的方式,需要一种更好的数学语言来表示词,当然可能我们人类的自然语言本身就是不连续的,或者人类无法创建出“连续”的自然语言。

如何快速入门NLP自然语言处理概述
人工智能与自然语言处理概述:AI三大阶段、NLP关键应用领域
NLP自然语言处理技术,在人工智能法官中的应用是什么?

多智时代-人工智能和大数据学习入门网站|人工智能、大数据、物联网、云计算的学习交流网站

什么是自然语言处理,自然语言处理能做什么,主要有哪些哪点?相关推荐

  1. 自然语言c,自然语言处理_自然语言处理常用方法举例说明 - 人工智能 - 电子发烧友网...

    自然语言处理简介 自然语言处理是计算机科学领域与人工智能领域中的一个重要方向.它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法.自然语言处理是一门融语言学.计算机科学.数学于一体的科学 ...

  2. Python自然语言处理-自然语言工具包(NLTK)

    一. 简介 如何理解每个单词的具体含义.自然语言工具包(Natural Language Toolkit,NKTK)就是这样一个python库,用于识别和标记英语文本单词中各个词的词性(parts o ...

  3. 中文自然语言处理数据集:ChineseNLPCorpus(附链接)

    来源:AINLP 本文约1300字,建议阅读5分钟. 本文为你推荐中文自然语言处理数据集. 推荐一个Github项目:ChineseNLPCorpus,该项目收集了一批中文自然语言处理数据集的相关链接 ...

  4. 专栏 | 李航教授展望自然语言对话领域:现状与未来

    来源:机器之心 摘要:原华为诺亚方舟实验室主任.现已加入字节跳动 AI Lab的李航教授近日发表博客,对自然语言对话领域的现状和最新进展进行总结,并展望了未来的走向. 1. 引言 语音助手.智能客服. ...

  5. 华为诺亚方舟实验室主任李航:神经符号处理开启自然语言处理新篇章

    华为诺亚方舟实验室主任李航:神经符号处理开启自然语言处理新篇章 本文作者:王金许 2017-07-26 19:29 导语:​深度学习(神经处理)给自然语言处理带来了革命性的进步,基于深度学习的机器翻译 ...

  6. 基于大数据与深度学习的自然语言对话

    基于大数据与深度学习的自然语言对话 发表于2015-12-04 09:44| 7989次阅读| 来源<程序员>电子刊| 5 条评论| 作者李航.吕正东.尚利峰 大数据深度学习自然语言处理自 ...

  7. 【杂谈】如何在专家指导下系统性学习自然语言处理

    熟悉有三AI的人应该知道,有三AI在CV领域有春夏秋季划,供大家系统性学习计算机视觉.也有同学问过,咱们NLP怎么没有类似的项目呢! 今天就来了,经过一段时间的准备,这次我们推出了<系统性入门自 ...

  8. 自然语言处理笔记-哈工大 关毅

    目录 文章目录 目录 前言 绪论课程 课程定性 课程应用 个人经验 统计自然语言处理 自然语言处理绪论 自然语言处理绪论 二 自然语言处理绪论 三 自然语言处理绪论 四 前言 硕士生涯结束,开始专心做 ...

  9. 人工智能 | 自然语言处理研究报告(概念篇)

    博主github:https://github.com/MichaelBeechan 博主CSDN:https://blog.csdn.net/u011344545 ================= ...

  10. 《统计自然语言处理》读书笔记 一.基础知识及概念介绍

    最近准备学习自然语言处理相关的知识,主要参考<统计自然语言处理·宗成庆>和<Natural Language Processing with Python>,推荐大家阅读.第一 ...

最新文章

  1. Python 技术点
  2. LBWE 和SBIW的关系
  3. go的http服务报错accept4: too many open files
  4. 剑指offer之合并已排序链表(递归实现)
  5. 【翻译】在Ext JS应用程序中构建可维护的控制器
  6. 查看java上下文切换,七日打卡--java并发编程之上下文切换
  7. 2015 kitti 数据集_kitti 数据集解析
  8. lzg_ad:在CF卡上实现EWF功能
  9. java 点云数据处理_点云数据处理学习笔记
  10. 组成原理之全加器实验
  11. Android HTTP网络详解
  12. AndroidStudio中Files under the “build“ folder are generated and should not be edited的解决方法
  13. 万能码不可能中创造可能(安全扫码专业委员会)
  14. Thinkpad linux 读卡器驱动
  15. WPF的Effect效果
  16. rewind函数+php,PHP SplFixedArray rewind()用法及代码示例
  17. 【数据库】主键,超键,候选键,外键区别与联系?
  18. 论文翻译解读:Translating Embeddings for Modeling Multi-relational Data【TransE】
  19. 松勤软件测试试题,如果让你测试一个完全不熟悉的系统,你会怎么办?
  20. 【说文解字】商品和货品

热门文章

  1. 教你如何鉴别iPhone翻新机!
  2. 王菲给师父打电话拜年,受高人指点,她扶摇直上联手天王横扫歌坛
  3. 阿里高校实践计划 class6 搭建nas个人网盘
  4. java后端必会【基础知识点】
  5. php源码比赛,TSRC挑战赛: PHP防御绕过挑战实录
  6. 电脑版微信多开,安全不限制个数
  7. python初级练习
  8. Intent启动拨号盘,实现打电话功能
  9. M-Arch(12)第十一个示例:如何用无源蜂鸣器播放音乐
  10. 说明书丨Epigentek EpiNext 高灵敏免疫共沉淀测序试剂盒