目录

文章目录

  • 目录
  • 前言
  • 汉语的分词与频度统计(1)
    • 汉语词汇的特点
  • 汉语的分词与频度统计(2)
  • 汉语的分词与频度统计(3)
  • 汉语的分词与频度统计(4)
  • 汉语的分词与频度统计(5)
  • 汉语的分词与频度统计(6)
  • 汉语的分词与频度统计(7)

前言

硕士生涯结束,开始专心做一件自己觉得有用的工具,先做工程,后搞理论。
自然语言处理是一个非常难的问题,同时是人工智能皇冠上的明珠。
接下来会记录一系列自然语言处理的笔记,来自于哈工大老师关毅。

汉语的分词与频度统计(1)

语言分类{孤立语if 没有附加词,如汉语黏着语if 有附加词,如日语曲折语if 形态变化,如英语语言分类\begin{cases} 孤立语&\text{if } 没有附加词,如汉语\\ 黏着语 &\text{if } 有附加词 ,如日语 \\ 曲折语 &\text{if } 形态变化,如英语 \end{cases} 语言分类⎩⎪⎨⎪⎧​孤立语黏着语曲折语​if 没有附加词,如汉语if 有附加词,如日语if 形态变化,如英语​
词是自然语言处理中的最小单位。
语速,词,短语,句子,语群。

汉语词汇的特点

结合紧密,使用频繁,汉语的词可以拆开。
调换位置,有限度地展开。
字串可以切分为词串。
提出规划。
汉语的自动分词是他的重要组成部分,对他分词很困难。
新领域老方法,新瓶装旧酒。

汉语的分词与频度统计(2)

GB分词规划,提出了汉字的分词规则。
四字词语,一律是词。切分歧义,未登录词,比较困难。
比如提高中国人民生活水平比较困难。
覆盖型切分容易出问题,真歧义同属切分型。
如何排除歧义呢?
蛋鸡问题先有蛋。
分词做词切分,前驱字串和后驱字串。
词法信息实例。
歧义字串单切,句法规则调整。
利用语义信息实例进行切分。
新出现的词最困难,挂一漏万。
上下文出现的条件,以及分词系统。
互信息,极大方差,极大熵模型。

汉语的分词与频度统计(3)

主要分词方法,正向最大匹配方法,几个字符在一块儿。去掉一个词再试,逆向匹配方法。
双向匹配法。
最小分词方法:做的东西是给人看的。
创造力最丰富:20-40岁的时候。
不存在切分歧义的点:分段,计算最短路径。图的方法去理解这些东西。
词网格方法:生成所有可能切分的方式。计算词的概率。

汉语的分词与频度统计(4)

哈工大2005年第一名,做到95%。
语料库,平衡语料库。
生语料库,半生不熟语料库,句法分析所困。
语法分析十万级的词汇基本没用。
共时语料库,历时语料库。
发展时间一段时间以内,各种模型的正确率。
统计机器翻译,统计翻译模型。
中文信息语料库:英语:Brown corpus。
Penn Treebank。句法树,数学化。
双语语料库,法律文档语料库。
词频统计,构建词汇模型的核心。词典收词的规律。

汉语的分词与频度统计(5)

《现代汉语频率词典》LJVAC华语共时语料库。
建立了各地词典。双音节词最多,定量分析。
用词相同率和地域相关。
词频反映国家政策的变化。

汉语的分词与频度统计(6)

词频一个数表,高频虚,低频实词。定量分析,占90%的词低于10次。
zipf定律,f正比于1/r。
y=kxcy=kx^cy=kxc
指数定理,同取对数。除特高频和特低频以外都符合。
语料库规律,可以推测句式规律。
1构语语言模型,模型多少词enough2heap’s law。
反映了词表长度与语料库的关系。平滑算法更好的保障。

汉语的分词与频度统计(7)

其他的统计分布规律,频度和频度词个数,推荐大家看,创世纪的第八天。
真正的科学,需要枯燥的处理一件事,需要把一件事情做到极致。

自然语言处理笔记3-哈工大 关毅相关推荐

  1. 自然语言处理笔记4-哈工大 关毅

    目录 文章目录 目录 前言 汉语语料库的多级加工(1) 汉语语料库的多级加工(2) 汉语语料库的多级加工(3) 汉语语料库的多级加工(4) 汉语语料库的多级加工(5) 汉语语料库的多级加工(6) 汉语 ...

  2. 自然语言处理笔记2-哈工大 关毅

    目录 文章目录 目录 前言 自然语言处理概论(七) 自然语言处理概论(八) 数学基础和语言学基础(1) 数学基础和语言学基础(2) 数学基础和语言学基础(3) 数学基础和语言学基础(4) 数学基础和语 ...

  3. 自然语言处理笔记10-哈工大 关毅

    目录 文章目录 目录 前言 基于认知科学原理的相似模型(五) 基于认知科学原理的相似模型(六) 面向旅游领域的问答系统实验 前言 硕士生涯结束,开始专心做一件自己觉得有用的工具,先做工程,后搞理论. ...

  4. 自然语言处理笔记6-哈工大 关毅

    目录 文章目录 目录 前言 Markov模型1 Markov模型2 Markov 模型3 Markov模型4 Markov模型(5) 前言 硕士生涯结束,开始专心做一件自己觉得有用的工具,先做工程,后 ...

  5. 自然语言处理笔记9-哈工大 关毅

    目录 文章目录 目录 前言 课堂总结(一) 课堂总结(二) 课堂总结(三) 课堂总结(四) 前言 硕士生涯结束,开始专心做一件自己觉得有用的工具,先做工程,后搞理论. 自然语言处理是一个非常难的问题, ...

  6. 自然语言处理笔记8-哈工大 关毅

    目录 文章目录 目录 前言 问答系统基础一 问答系统基础二 问答系统术语 问答系统基础三 问答系统基础四 问答系统基础五 前言 硕士生涯结束,开始专心做一件自己觉得有用的工具,先做工程,后搞理论. 自 ...

  7. 自然语言处理笔记7-哈工大 关毅

    目录 文章目录 目录 前言 句法分析技术1 句法分析技术2 句法分析技术3 句法分析技术4 前言 硕士生涯结束,开始专心做一件自己觉得有用的工具,先做工程,后搞理论. 自然语言处理是一个非常难的问题, ...

  8. 自然语言处理笔记5-哈工大 关毅

    目录 文章目录 目录 前言 n-gram语言模型(一) n-gram语言模型(二) n-gram语言模型(三) n-gram语言模型(四) n-gram语言模型(五) n-gram语言模型(六) n- ...

  9. 自然语言处理笔记11-哈工大 关毅

    目录 文章目录 目录 前言 一篇论文的诞生(1) 一篇论文的诞生(2) 一片论文的诞生(3) 前言 硕士生涯结束,开始专心做一件自己觉得有用的工具,先做工程,后搞理论. 自然语言处理是一个非常难的问题 ...

最新文章

  1. 7.某计算机的控制器采用微程序控制方式,微指令中的操作控制字段的16位采用混合表示法,其中用11位采用直接表示法,另外5位分为3位和2位的编码表示法,则此格式的微指令最多可表示多少个微指令?
  2. VirtWire 向客服发ticket
  3. SQL语句复习【专题八】
  4. log4j配置文件及nutch中的日志配置
  5. java csv to list_java – 如何轻松地将CSV文件处理为List
  6. SpringBoot之日志记录 SLF4J(H)
  7. 约瑟夫环非递归算法分析
  8. 【LOJ】#2479. 「九省联考 2018」制胡窜
  9. SQL Server 2005 14420 14421错误
  10. 如何转型成为一家真正发挥大数据作用的 “数据驱动型公司”?
  11. Java中this、super的用法(2)
  12. MXF 媒体交换文件格式
  13. 单片机STM8S测量电压电路_50个单片机晶振问题及解决方法小结
  14. 802.11无线wifi协议学习(二)
  15. MS2108 USB 数字视频采集芯片 支持8bit/16bit BT601/BT709/BT656/ BT1120转USB
  16. unity读取Json文件
  17. Contrastive Adaptation Network for Unsupervised Domain Adaptation
  18. 深度linux显示方块,在Deepin下用Wine运行文华财经赢顺的经验,附字体显示方框的解决...
  19. html教程转换mp3,kgm转换mp3图文版教程,值得收藏
  20. 1987年,国际C语言混乱代码大赛

热门文章

  1. 《了不起的盖茨比》读书笔记2-全文
  2. 困在电商的蕉下,上市即是下坡路的开端?
  3. Java Thread.sleep的InterruptedException 线程阻塞 线程中断
  4. 打卡Linux哲学思想 and 命令
  5. 运行jar包并打印日志到指定文件
  6. Torque汽车诊断教程
  7. python高德地图api调用实例_Python 利用高德地图api实现经纬度与地址的批量转换...
  8. java 上传图片转base64_java将图片转为base64返回给前端
  9. 制作html表白页面,HTML+CSS入门 表白页面实例讲解
  10. 正式上线|只需5秒,国产AI作画神器到底有多绝?