自然语言处理笔记3-哈工大 关毅
目录
文章目录
- 目录
- 前言
- 汉语的分词与频度统计(1)
- 汉语词汇的特点
- 汉语的分词与频度统计(2)
- 汉语的分词与频度统计(3)
- 汉语的分词与频度统计(4)
- 汉语的分词与频度统计(5)
- 汉语的分词与频度统计(6)
- 汉语的分词与频度统计(7)
前言
硕士生涯结束,开始专心做一件自己觉得有用的工具,先做工程,后搞理论。
自然语言处理是一个非常难的问题,同时是人工智能皇冠上的明珠。
接下来会记录一系列自然语言处理的笔记,来自于哈工大老师关毅。
汉语的分词与频度统计(1)
语言分类{孤立语if 没有附加词,如汉语黏着语if 有附加词,如日语曲折语if 形态变化,如英语语言分类\begin{cases} 孤立语&\text{if } 没有附加词,如汉语\\ 黏着语 &\text{if } 有附加词 ,如日语 \\ 曲折语 &\text{if } 形态变化,如英语 \end{cases} 语言分类⎩⎪⎨⎪⎧孤立语黏着语曲折语if 没有附加词,如汉语if 有附加词,如日语if 形态变化,如英语
词是自然语言处理中的最小单位。
语速,词,短语,句子,语群。
汉语词汇的特点
结合紧密,使用频繁,汉语的词可以拆开。
调换位置,有限度地展开。
字串可以切分为词串。
提出规划。
汉语的自动分词是他的重要组成部分,对他分词很困难。
新领域老方法,新瓶装旧酒。
汉语的分词与频度统计(2)
GB分词规划,提出了汉字的分词规则。
四字词语,一律是词。切分歧义,未登录词,比较困难。
比如提高中国人民生活水平比较困难。
覆盖型切分容易出问题,真歧义同属切分型。
如何排除歧义呢?
蛋鸡问题先有蛋。
分词做词切分,前驱字串和后驱字串。
词法信息实例。
歧义字串单切,句法规则调整。
利用语义信息实例进行切分。
新出现的词最困难,挂一漏万。
上下文出现的条件,以及分词系统。
互信息,极大方差,极大熵模型。
汉语的分词与频度统计(3)
主要分词方法,正向最大匹配方法,几个字符在一块儿。去掉一个词再试,逆向匹配方法。
双向匹配法。
最小分词方法:做的东西是给人看的。
创造力最丰富:20-40岁的时候。
不存在切分歧义的点:分段,计算最短路径。图的方法去理解这些东西。
词网格方法:生成所有可能切分的方式。计算词的概率。
汉语的分词与频度统计(4)
哈工大2005年第一名,做到95%。
语料库,平衡语料库。
生语料库,半生不熟语料库,句法分析所困。
语法分析十万级的词汇基本没用。
共时语料库,历时语料库。
发展时间一段时间以内,各种模型的正确率。
统计机器翻译,统计翻译模型。
中文信息语料库:英语:Brown corpus。
Penn Treebank。句法树,数学化。
双语语料库,法律文档语料库。
词频统计,构建词汇模型的核心。词典收词的规律。
汉语的分词与频度统计(5)
《现代汉语频率词典》LJVAC华语共时语料库。
建立了各地词典。双音节词最多,定量分析。
用词相同率和地域相关。
词频反映国家政策的变化。
汉语的分词与频度统计(6)
词频一个数表,高频虚,低频实词。定量分析,占90%的词低于10次。
zipf定律,f正比于1/r。
y=kxcy=kx^cy=kxc
指数定理,同取对数。除特高频和特低频以外都符合。
语料库规律,可以推测句式规律。
1构语语言模型,模型多少词enough2heap’s law。
反映了词表长度与语料库的关系。平滑算法更好的保障。
汉语的分词与频度统计(7)
其他的统计分布规律,频度和频度词个数,推荐大家看,创世纪的第八天。
真正的科学,需要枯燥的处理一件事,需要把一件事情做到极致。
自然语言处理笔记3-哈工大 关毅相关推荐
- 自然语言处理笔记4-哈工大 关毅
目录 文章目录 目录 前言 汉语语料库的多级加工(1) 汉语语料库的多级加工(2) 汉语语料库的多级加工(3) 汉语语料库的多级加工(4) 汉语语料库的多级加工(5) 汉语语料库的多级加工(6) 汉语 ...
- 自然语言处理笔记2-哈工大 关毅
目录 文章目录 目录 前言 自然语言处理概论(七) 自然语言处理概论(八) 数学基础和语言学基础(1) 数学基础和语言学基础(2) 数学基础和语言学基础(3) 数学基础和语言学基础(4) 数学基础和语 ...
- 自然语言处理笔记10-哈工大 关毅
目录 文章目录 目录 前言 基于认知科学原理的相似模型(五) 基于认知科学原理的相似模型(六) 面向旅游领域的问答系统实验 前言 硕士生涯结束,开始专心做一件自己觉得有用的工具,先做工程,后搞理论. ...
- 自然语言处理笔记6-哈工大 关毅
目录 文章目录 目录 前言 Markov模型1 Markov模型2 Markov 模型3 Markov模型4 Markov模型(5) 前言 硕士生涯结束,开始专心做一件自己觉得有用的工具,先做工程,后 ...
- 自然语言处理笔记9-哈工大 关毅
目录 文章目录 目录 前言 课堂总结(一) 课堂总结(二) 课堂总结(三) 课堂总结(四) 前言 硕士生涯结束,开始专心做一件自己觉得有用的工具,先做工程,后搞理论. 自然语言处理是一个非常难的问题, ...
- 自然语言处理笔记8-哈工大 关毅
目录 文章目录 目录 前言 问答系统基础一 问答系统基础二 问答系统术语 问答系统基础三 问答系统基础四 问答系统基础五 前言 硕士生涯结束,开始专心做一件自己觉得有用的工具,先做工程,后搞理论. 自 ...
- 自然语言处理笔记7-哈工大 关毅
目录 文章目录 目录 前言 句法分析技术1 句法分析技术2 句法分析技术3 句法分析技术4 前言 硕士生涯结束,开始专心做一件自己觉得有用的工具,先做工程,后搞理论. 自然语言处理是一个非常难的问题, ...
- 自然语言处理笔记5-哈工大 关毅
目录 文章目录 目录 前言 n-gram语言模型(一) n-gram语言模型(二) n-gram语言模型(三) n-gram语言模型(四) n-gram语言模型(五) n-gram语言模型(六) n- ...
- 自然语言处理笔记11-哈工大 关毅
目录 文章目录 目录 前言 一篇论文的诞生(1) 一篇论文的诞生(2) 一片论文的诞生(3) 前言 硕士生涯结束,开始专心做一件自己觉得有用的工具,先做工程,后搞理论. 自然语言处理是一个非常难的问题 ...
最新文章
- 7.某计算机的控制器采用微程序控制方式,微指令中的操作控制字段的16位采用混合表示法,其中用11位采用直接表示法,另外5位分为3位和2位的编码表示法,则此格式的微指令最多可表示多少个微指令?
- VirtWire 向客服发ticket
- SQL语句复习【专题八】
- log4j配置文件及nutch中的日志配置
- java csv to list_java – 如何轻松地将CSV文件处理为List
- SpringBoot之日志记录 SLF4J(H)
- 约瑟夫环非递归算法分析
- 【LOJ】#2479. 「九省联考 2018」制胡窜
- SQL Server 2005 14420 14421错误
- 如何转型成为一家真正发挥大数据作用的 “数据驱动型公司”?
- Java中this、super的用法(2)
- MXF 媒体交换文件格式
- 单片机STM8S测量电压电路_50个单片机晶振问题及解决方法小结
- 802.11无线wifi协议学习(二)
- MS2108 USB 数字视频采集芯片 支持8bit/16bit BT601/BT709/BT656/ BT1120转USB
- unity读取Json文件
- Contrastive Adaptation Network for Unsupervised Domain Adaptation
- 深度linux显示方块,在Deepin下用Wine运行文华财经赢顺的经验,附字体显示方框的解决...
- html教程转换mp3,kgm转换mp3图文版教程,值得收藏
- 1987年,国际C语言混乱代码大赛
热门文章
- 《了不起的盖茨比》读书笔记2-全文
- 困在电商的蕉下,上市即是下坡路的开端?
- Java Thread.sleep的InterruptedException 线程阻塞 线程中断
- 打卡Linux哲学思想 and 命令
- 运行jar包并打印日志到指定文件
- Torque汽车诊断教程
- python高德地图api调用实例_Python 利用高德地图api实现经纬度与地址的批量转换...
- java 上传图片转base64_java将图片转为base64返回给前端
- 制作html表白页面,HTML+CSS入门 表白页面实例讲解
- 正式上线|只需5秒,国产AI作画神器到底有多绝?