浅谈自然语言在科技时代的运用
自然语言处理是现代技术最重要的组成之一,常用的自然语言一般指汉语、英语等。是随着人类社会发展演变而来的语言。区别于人工语言,如程序设计的语言。
自然语言是指用计算机对自然语言的形、音、义等信息进入处理,即对字、词、句、篇章的输入、输出、识别、分析、理解、生成等的操作和加工。实现人机间的信息交流。
随着计算机记录的文字资料越来多,尤其是伴随着互联网发展,文字资料与日俱增。如何让计算机自动处理这些文字资料甚至是理解这些文字呢?计算机专家们为此开始了几十年的研究。
我根据自己的认识来总结以下自然语言处理这些年都干了些什么,有哪些好的应用。
一、基础研究
(1)词、分词
统一一下文本里面的词频,看看哪些词是提及最多的等等。
英文,词与词之间是用空格分开的,统计词很简单。最多加上stemming算法,就是同一个词的不同时态、单复数等处理。
中文,词与词之间没有空隙,最多在句子之间有标点符号。要统计中文词汇,首先要做个分词的步骤,业内术语叫做“中文分词”。做分词研究是中文自然语言处理的第一步,方法有很多种,无非是词典和机器学习。
(a)基于词典的方法
搞一个汉语词典,以一定的数据结构存储方便查找。其中一种叫做“Trie Tree”的数据结构很合适。词典的持续更新很重要,词典里面没有的新词就只能被分成单字。基于词典的有点就是一个字:快!
字典的持续更新是可以做到的,爬虫每天爬虫新闻、微博的内容,用新词发现算法从中发现新词更新到词典中。
新词发现算法,是一直统计算法,在一堆语料中通过统计计算字与字之间的粘合度、左右邻居的信息熵就可以把其中的词找出来,效果很好。
(b)机器学习
早些年的机器学习方法有HMM(隐马尔可夫模型),CRF(条件随机场),效果都不错,在封闭训练集上等达到百分之九十几的准确率。这些机器学习的方法能在一定程度上识别新词,但仅仅是一定程度上。
最近几年深度学习发展很快,有些研究者把它用到分词上也达到了很好的效果。不过,总感觉这是杀鸡用牛刀。
实际应用中,都是字典加机器学习的方法结合来用的。
(2)词性标注(POS)
词性是人类语言文字中的一个规则,而这个规则又比较松散,一个词有多个词性,位置不同词性不同,人类自己识别起来都很费劲。词性标注,就是让计算机通过一定的算法把一句话里面的每个词分成不同的词性。
词性标注,一般都是用机器学习的方法来做。通过人工事先标注好的语料来进行机器学习得到一个模型,计算机程序使用这个模型再来对其它文本进行标注。早期的机器学习方法有HMM,CRF等。这些年也可以上深度学习来做。
(3)命名实体识别(NER)
命名实体,就是代表一个实体的词汇,比如,人名、地名、机构名。这个一般的做法是规则+机器学习的方法。CRF同样在这里有用武之地。
(4)句法分析
让计算机来把一句话的主谓宾、定状补给分析出来。这也是一项挑战。同样,它也可以通过CRF来实现。
以上过程,分词、词性标注、命名实体识别、依存句法分析都可以用CRF来实现。从原理上,他们有相同的特点,都是最字或词的一种标注。
CRF分词是由字组词的过程,训练语料把每个字标记成词的开头、中间、结尾等标记。训练过程是学习这些字、标记的上下文关系;分词过程是根据学习的关系给字打上标记,再根据这些标记组成词。
CRF词性标注、命名实体识别、句法分析是同样的道理,但他们标注的都是词、词性等关系。
(5)语音处理
以上谈及的都是对文本内容的研究,语言的另一种形式——语音也是多年来计算机研究的一个领域。
这里的语音处理主要是跟自然语言处理相关的,最主要的是语音转文本,其它还有文本转语音,唤醒词识别。
唤醒词识别,值得特别介绍一下。现在智能设备很多,智能语音助手、智能音响等具有语音交互功能的软硬件产品,基本上都有一个“语音唤醒功能”。比如你给你的智能音响或机器人起了个名字叫“小白”,你叫它“小白”以后,它就开始和你交互了;如果你叫它“小黑”,它就不搭理你。这个“小白”就是它的唤醒词,每个人对自己的产品都可以用不同的唤醒词。唤醒词识别做的就是如何训练一个特定词汇的识别模型,甚至还包括个人音色特征(别人叫它小白也不行)。
以上就是自然语言处理做的基础研究内容,这些基础研究有什么应用能让我们的生活更美好呢?
转载于:https://www.cnblogs.com/amiza/p/10368649.html
浅谈自然语言在科技时代的运用相关推荐
- 【大道至简】浅谈自然语言处理(NLP)学习路线(二):N-Gram模型,一文带你理解N-Gram语言模型
本文相关文章:浅谈自然语言处理(NLP)学习路线(一)--- 概述_nlp学习路线_尚拙谨言的博客-CSDN博客 大家好,我是尚拙谨言.欢迎来到大道至简专栏之自然语言处理学习路线.在本系列往期文章中, ...
- 浅谈自然语言处理技术在自动化的应用
自然语言处理与技术其在自动化的应用 引言 作为人工智能领域的一个重要分支,自然语言处理在目前的学术界领域非常的有市场.无论从哪个方面来看,自然语言处理技术,非常的具有前瞻性.目前,自然语言处理技术应以 ...
- [zz]浅谈自然语言处理(NLP)和 自然语言理解(NLU)
自然语言处理主要步骤包括: 1. 分词(只针对中文,英文等西方字母语言已经用空格做好分词了):将文章按词组分开 2. 词法分析:对于英文,有词头.词根.词尾的拆分,名词 ...
- 浅谈自然语言处理(NLP)和 自然语言理解(NLU)
自然语言处理主要步骤包括: 1. 分词(只针对中文,英文等西方字母语言已经用空格做好分词了):将文章按词组分开 2. 词法分析:对于英文,有词头.词根.词尾的拆分,名词.动词.形容词. ...
- 浅谈可视化设计-数据时代的“美味烹饪师”(下)
目录: 1. 什么是大屏数据可视化 2. 设计流程介绍 3. 结合情感打造二维设计美感 4. 构建空间感&二维与三维的融合 5. 小结 结合情感打造二维设计美感 上篇我们讲到了<可视化设 ...
- 从生物进化浅谈产品创新
从生物进化浅谈产品创新 互联网时代市场日息万变,如何在这个不确定的时代找寻一个出口呢.达尔文的<物种起源>这本书给了我们一个启发:自然选择导致进化. 达尔文清楚的说出了人类从猴子进化过来的 ...
- 弘辽科技浅谈移动互联网时代如何定位品牌
原标题<弘辽科技浅谈移动互联网时代如何定位品牌> 移动互联网时代,品牌和顾客之间横亘着一个巨大的信息海洋.如果顾客知道你,那么你和顾客无限近.如果顾客不知道你,那么你跟顾客无限远. 我们看 ...
- 科技推动时代发展,浅谈IT技术如何改善数据中心运维管理
伴随现代化社会不断发展,众多企业逐渐扩大规模,业务剧增,数据中心的重要性由此可见,同时数据中心设施.规模都逐渐丰富起来,企业核心数据也更加集中.此时,对于数据中心的管理者职责和压力更是加剧,这也就要求 ...
- 浅谈互联网时代下融媒技术现状
浅谈互联网时代下融媒技术现状 摘要:近年来,我国数字技术的迅速发展使得媒体技术在"互联网+"时代下不断发展融合,形成了如今的融合媒体技术.新兴融媒技术的发展给广播电视行业带来了新的 ...
最新文章
- M2 芯片终于要来了?全线换新,性能远超M1 Max
- 七十四、Python | Leetcode数字系列(下篇)
- 025 资源的隔离与配置
- 我的世界java版tis,我的世界1.7.10~1.8.8 9tis-3d回到汇编的时代mod
- 两者相差百分比怎么算_相差200元!小米11和iQOO 7谁更值得买?说说真实想法
- 手游server之数据IO进化
- 动态定时任务数据库获取方式
- html5判断多选框是否选择的函数,复选框(checkbox)、多选框
- 面试系列第2篇:回文字符串判断的3种方法!
- python打包软件后报错 :SyntaxError: Non-UTF-8 code starting with ‘\x90‘ in file 的原因及解决方法
- 腾讯云432元撸4年2H4G6M云服务器
- JavaScript RegExp(正则)
- [转帖]onInterceptTouchEvent和onTouchEvent调用时序
- 技术干货 | 六分钟学会使用 HBuilder 引入构建 mPaaS 小程序
- 《Redis设计与实现》阅读:Redis底层研究之简单动态字符串SDS
- Excel2010中打开Smartview时报不能设置类Addin的installed属性
- java图片转pdf_java使用itextpdf将图片转换成pdf的简单实例 | 学步园
- 【清晖诗社】“立秋” 诗意浓,佳作有奖征集ing!
- matlab/simulink电力电子仿真斜坡信号Ramp设置和使用
- matlab+whisker,Matlab Boxplot:使用特定的百分位数作为上部胡须或在手动上部胡须编辑后删除多余的异常值...