数学之美系列二 -- 谈谈中文分词

2006年4月10日上午 08:10:00

发表者: 吴军， Google 研究员

谈谈中文分词

----- 统计语言模型在中文处理中的一个应用

上回我们谈到利用统计语言模型进行语言处理，由于模型是建立在词的基础上的，对于中日韩等语言，首先需要进行分词。例如把句子 “中国航天官员应邀到美国与太空总署官员开会。”

分成一串词：

中国 / 航天 / 官员 / 应邀 / 到 / 美国 / 与 / 太空 / 总署 / 官员 / 开会。

最容易想到的，也是最简单的分词办法就是查字典。这种方法最早是由北京航天航空大学的梁南元教授提出的。

用 “查字典” 法，其实就是我们把一个句子从左向右扫描一遍，遇到字典里有的词就标识出来，遇到复合词（比如 “上海大学”）就找最长的词匹配，遇到不认识的字串就分割成单字词，于是简单的分词就完成了。这种简单的分词方法完全能处理上面例子中的句子。八十年代，哈工大的王晓龙博士把它理论化，发展成最少词数的分词理论，即一句话应该分成数量最少的词串。这种方法一个明显的不足是当遇到有二义性（有双重理解意思）的分割时就无能为力了。比如，对短语 “发展中国家” 正确的分割是“发展-中-国家”，而从左向右查字典的办法会将它分割成“发展-中国-家”，显然是错了。另外，并非所有的最长匹配都一定是正确的。比如“ 上海大学城书店”的正确分词应该是 “上海-大学城-书店，” 而不是 “上海大学-城-书店”。

九十年代以前，海内外不少学者试图用一些文法规则来解决分词的二义性问题，都不是很成功。90年前后，清华大学的郭进博士用统计语言模型成功解决分词二义性问题，将汉语分词的错误率降低了一个数量级。

利用统计语言模型分词的方法，可以用几个数学公式简单概括如下：

我们假定一个句子S可以有几种分词方法，为了简单起见我们假定有以下三种：

A1, A2, A3, ..., Ak,

B1, B2, B3, ..., Bm

C1, C2, C3, ..., Cn

其中，A1, A2, B1, B2, C1, C2 等等都是汉语的词。那么最好的一种分词方法应该保证分完词后这个句子出现的概率最大。也就是说如果 A1,A2,..., Ak 是最好的分法，那么（P 表示概率）：

P (A1, A2, A3, ..., Ak）〉 P (B1, B2, B3, ..., Bm), 并且

P (A1, A2, A3, ..., Ak）〉 P(C1, C2, C3, ..., Cn)

因此，只要我们利用上回提到的统计语言模型计算出每种分词后句子出现的概率，并找出其中概率最大的，我们就能够找到最好的分词方法。

当然，这里面有一个实现的技巧。如果我们穷举所有可能的分词方法并计算出每种可能性下句子的概率，那么计算量是相当大的。因此，我们可以把它看成是一个动态规划（Dynamic Programming) 的问题，并利用 “维特比”（Viterbi）算法快速地找到最佳分词。

在清华大学的郭进博士以后，海内外不少学者利用统计的方法，进一步完善中文分词。其中值得一提的是清华大学孙茂松教授和香港科技大学吴德凯教授的工作。

需要指出的是，语言学家对词语的定义不完全相同。比如说 “北京大学”，有人认为是一个词，而有人认为该分成两个词。一个折中的解决办法是在分词的同时，找到复合词的嵌套结构。在上面的例子中，如果一句话包含“ 北京大学”四个字，那么先把它当成一个四字词，然后再进一步找出细分词 “北京” 和 “大学”。这种方法是最早是郭进在 “Computational Linguistics” （《计算机语言学》）杂志上发表的，以后不少系统采用这种方法。

一般来讲，根据不同应用，汉语分词的颗粒度大小应该不同。比如，在机器翻译中，颗粒度应该大一些，“北京大学”就不能被分成两个词。而在语音识别中，“北京大学”一般是被分成两个词。因此，不同的应用，应该有不同的分词系统。Google 的葛显平博士和朱安博士，专门为搜索设计和实现了自己的分词系统。

也许你想不到，中文分词的方法也被应用到英语处理，主要是手写体识别中。因为在识别手写体时，单词之间的空格就不很清楚了。中文分词方法可以帮助判别英语单词的边界。其实，语言处理的许多数学方法通用的和具体的语言无关。在 Google 内，我们在设计语言处理的算法时，都会考虑它是否能很容易地适用于各种自然语言。这样，我们才能有效地支持上百种语言的搜索。

对中文分词有兴趣的读者，可以阅读以下文献：

1. 梁南元

书面汉语自动分词系统

http://www.touchwrite.com/demo/LiangNanyuan-JCIP-1987.pdf

2. 郭进

统计语言模型和汉语音字转换的一些新结果

http://www.touchwrite.com/demo/GuoJin-JCIP-1993.pdf

3. 郭进

Critical Tokenization and its Properties

http://acl.ldc.upenn.edu/J/J97/J97-4004.pdf

4. 孙茂松

Chinese word segmentation without using lexicon and hand-crafted training data

http://portal.acm.org/citation.cfm?coll=GUIDE&dl=GUIDE&id=980775

转载于:https://www.cnblogs.com/renly/archive/2013/01/08/2850766.html

数学之美系列二 -- 谈谈中文分词相关推荐

数学之美系列二 -- 谈谈中文分词
数学之美系列二 -- 谈谈中文分词 2006年4月10日上午 08:10:00 发表者: 吴军, Google 研究员谈谈中文分词 ----- 统计语言模型在中文处理中的一个应用上回我们谈到利 ...
数学之美系列二十－自然语言处理的教父马库斯
数学之美系列二十 -自然语言处理的教父马库斯 2007年4月13日下午 07:03:00 <script language=javascript> uT("time1176 ...
数学之美系列二十四 -- 谈谈动态规划与如何设计动态规划算法
数学之美--动态规划今年九月二十三日,Google.T-Mobile 和 HTC 宣布了第一款基于开源操作系统 Android 的 3G 手机,其中一个重要的功能是利用全球卫星定位系统实现全球导航 ...
数学之美系列二十：自然语言处理的教父马库斯
我们在前面的系列中介绍和提到了一些年轻有为的科学家,迈克尔·柯林斯,艾里克·布莱尔,大卫·雅让斯基,拉纳帕提等等,他们都出自宾夕法尼亚计算机系米奇·马库斯(Mitch Marcus)名下.就像许多武侠 ...
【数学之美系列二十】自然语言处理的教父马库斯
2007年4月13日下午 07:03:00 发表者:Google 研究员,吴军我们在前面的系列中介绍和提到了一些年轻有为的科学家,迈克尔·柯林斯,艾里克·布莱尔,大卫·雅让斯基,拉纳帕提等等,他们 ...
数学之美系列十七 -- 谈谈搜索引擎作弊问题(Search Engine Anti-SPAM)
2006年11月28日上午 03:18:00 Google 研究员吴军自从有了搜索引擎,就有了针对搜索引擎网页排名的作弊(SPAM).以至于用户发现在搜索引擎中排名靠前的网页不一定就是高质量的, ...
数学之美系列十六（上）不要把所有的鸡蛋放在一个篮子里 -- 谈谈最大熵模型
数学之美系列十六(上) 不要把所有的鸡蛋放在一个篮子里 -- 谈谈最大熵模型 [我们在投资时常常讲不要把所有的鸡蛋放在一个篮子里,这样可以降低风险.在信息处理中,这个原理同样适用.在数学上,这个原理 ...
NLP+词法系列（二）︱中文分词技术简述、深度学习分词实践（CIPS2016、超多案例）
摘录自:CIPS2016 中文信息处理报告<第一章词法和句法分析研究进展.现状及趋势>P4 CIPS2016 中文信息处理报告下载链接:http://cips-upload.bj.bce ...
数学之美系列九 -- 如何确定网页和查询的相关性
数学之美系列九 -- 如何确定网页和查询的相关性 [我们已经谈过了如何自动下载网页.如何建立索引.如何衡量网页的质量(Page Rank).我们今天谈谈如何确定一个网页和某个查询的相关性.了解了这四 ...

数学之美系列二 -- 谈谈中文分词

数学之美系列二 -- 谈谈中文分词相关推荐

最新文章

热门文章