这本NLP小书《自然语言处理答问》终于出版了,还是蛮感触的。看商务这个《汉语知识丛书》系列,所选皆中国语言学界前辈,如雷贯耳。大家小书,精华荟萃,忝列其上,不胜惶恐。尤其是朱德熙先生的学术经典《语法答问》,是当年入行的启蒙书之一,几十年来读了不知道多少遍。屡读屡新,高山仰止。

受本书体例所限,未能有题献致谢之处,不无遗憾。回想此书从酝酿到封笔,一波三折,几近难产,其间几十番校改亦似陷入死循环。如今终于付梓,回顾给予各种支持的老师、同事和亲友,心存感念。没有他们的鞭策和推举、合作和指正,便没有本书的面世。

题献还真考虑过,从学术启蒙和传承看,毫无疑问理应献给我的恩师,以示符号逻辑学派在中国的传承和发展。当时的设计是:

首先要感谢的自然是商务印书馆的责任编辑冯爱珍。两年多的策划布局、反复校正,体现的是商务老专家的敬业和严谨。商务在中国出版界的品质和口碑,原来是有这样一批一字不苟、精益求精的编辑精英撑起的。近三年无数的编辑通信往来,终于迎来了她的祝贺:

本书的主要理论与实践源自人工智能的理性主义路线(称为符号逻辑派),与近三十年来的经验主义主流(称为机器学习派)呈对比。其在自然语言处理领域的起点是乔姆斯基的形式语言理论。我有幸师从中国机器翻译之父刘涌泉和刘倬先生多年,又有多次机会亲聆前辈董振东教授教诲,也从前辈冯志伟教授处获得计算语言学的熏陶。去国后有博士导师Paul McFetridge、Fred Popowich 以及给我们讲授HPSG 的语言系主任Nancy教授,带领我进入基于合一的文法领域。那是30年来最后一波符号逻辑的学术热潮了,尽管看似昙花一现。博士以后辗转南下,机缘巧合一头扎进工业界担任语言处理技术带头人二十余年,致力于NLP规模化产品研发。这种独特的经历使我成为本领域计算语言学家中极少数的“幸存者”,有机会在符号路线上深耕,推出独有的理论与实践创新。
合作者郭进博士在关键时刻,高屋建瓴,挽救了此作,不致胎死腹中。郭兄也是近三十年的老相识了。当年他在中文分词领域叱咤风云,是大陆学界第一位在本行顶尖学刊《计算语言学》上发表论文的学者(实际上是这个中文处理基础领域的理论终结者)。二十年前我在 TREC 第一届问答系统得奖的时候,与郭兄在会上不期而遇。他约我彻夜长谈,一定要问我怎么做的系统,表现出的浓厚兴趣令人感动。作为语言学家,我从入行就步入了语言学逐渐从主流舞台出局的国际大势(见《丘吉:钟摆摆得太远》)。科班主流出身的郭兄摈弃门户之见,不耻下问,颇让我意外惊喜。后来我们就NLP两条路线的纠缠有过很多争辩讨论。早在与商务酝酿本书之前,郭兄就力促我著书立说,曰不要断了符号逻辑的香火。开始动手写才发现,要把事情说清楚很不容易。想说的话太多,但头绪繁杂,一团乱麻。写了一章,就陷入泥潭。我内心动摇,说放弃算了。郭兄指出,这是系统工程,不宜用你语言处理的那套自底而上(bottom-up)的归纳式梳理。终于说服郭兄出马,自顶而下(top-down)指挥,宏观掌控,约法三章,不许枝枝蔓蔓。毕竟是工程老将架构大师,布局谋篇如烹小鲜。此一生机,柳暗花明。人生有很多跨越时空的奇妙片刻,连缀成串,让人很难相信没有一种缘分的东西(见附录“零 缘起”)。
本书论及的话题都在两个微信群与群主及同行友人有过多次切磋,从中深受教益。一个是《人工智能简史》作者尼克的AI群,一个是白硕老师的语义计算群。本书申报过程中,承蒙清华大学人工智能教授马少平和北京大学中文系詹卫东教授的专业推荐。2017年,詹教授还特邀笔者上北大“博雅语言学”讲座论《洞穿乔姆斯基大院的围墙》。同年,受孙乐研究员邀请,出席中文信息学会2017年学术年会,马教授主持介绍我做了主题演讲《中文自动句法解析的迷思和痛点》。这些演讲为本书相关章节内容的宣讲与接收反馈提供了平台。高博提供服务的【立委NLP频道(liweinlp.com)】也为本书的相关话题及其背景提供了数字平台。
特别需要感谢的是老友米拉(mirror)对本书初稿的谬爱。米拉说:“有些伽利略科学对话的意思,有趣得很”。 他反复推敲,细致入微;其科学见识和文字功力使很多审改堪称一字之师。直到最后定版前,死期只剩五天,我说终于从死循环中出来啦,米拉坚持:“我再学习修正一版如何?换了人视点就不一样了。我试试吧,总是要完美些才好。将来是准备推荐夫人做学中文的教材呢。”让人哑然失笑。当年我因为喜欢米拉的文字隽永,为他编辑过《镜子大全》。这是投桃报李,还是惺惺相惜呢。
毛德操先生也是本书的助产婆。特别是关于乔姆斯基批判,我从毛老、尼克和白硕老师处得到的教益最多。毛老是计算机业界著作等身的专家,我跟他说:在您的多次蛊惑和鞭策下,我终于开始“著书立说”了。毛老激励道:“哦,好事情啊!我当然要拜读。说到符号逻辑派,正是现下AI界新秀们的缺门。不说钟摆是否一定会回摆,至少是互补。我觉得你的书会大有可为。你不妨先在中国出版,然后把它译成英文在美国再出一次。”我有些受宠若惊:“英文出版就不提了,美国出版界我两眼全黑,又是非主流的东西。本书价值也许要经潮起潮落的时间积淀后,才会显现。这也是为什么要咬牙写出来的理由。自然语言符号逻辑派本来已经断层。我第一步是想保证内容的学术性,要经得起时间和同行的批评。”毛老的很多建议非常精彩,令人折服,不妨摘要分享给本书的读者。

我的老同学王建军教授在学术严谨性与章节安排方面提出了很好的建议。特别感谢宋柔老师、周流溪老师的鼓励和建议。各种鼓励和帮助也来自同行友人周明、李航、裴健、张桂平、施水才、傅爱平、李利鹏、雷晓军、洪涛、王伟、陈利人、唐锡南、黄萱菁、刘群、孙茂松、荀恩东、薛平、姜大昕、牛小川、执正、严永欣、欧阳锋。在成书出版的过程中,笔者受到了公司领导周伯文、何晓冬、胡郁、高煜光、贾岿的支持,一并致谢。

在符号NLP落地应用的过程中,我不同时期的搭档和助手,Lars、牛成、Lokesh、李磊、唐天、林天兵、马丁,帮助实现了产品的规模化,显示了自然语言创新的价值。田越敏、孙雅萱、郭玉婷、侯晓晨、Sophia Guo 等同学仔细阅读了本书的初稿,她们的反馈意见保证了本书对于后学的可理解性。
做了一辈子工匠,著书立说从来没有正式列入我的人生计划。在两年的成书过程中,家人也跟着激动自豪,分享“一本书主义”的喜悦;尤其是老爸和太太的鼓励。 最后是女儿甜甜的贡献。讲解词典黑箱原理的时候,觉得可以采纳流行的段子作为插图。为避免无意侵权,只得求甜甜帮忙了。甜欣然应允,于是有了两幅女儿给老爹的书画图,别有趣味。

甜甜说画的就是我,我觉得蛮像,倒是画她自己不怎么像。老相册里找到几张带她小时候游玩的留影可做比照。回首过去20多年,女儿与NLP从来都是生活的两个圆心。女儿的贴心,让坐了一辈子NLP学术冷板凳的积淀压模过程,也飘过丝丝暖意。

这注定是一本小众冷书。但愿所传承创新的符号自然语言学术,丝相连、藕不断。有如人工智能理性主义的潮起潮落,庶几留下一声历史的回响。谁知道呢,五十年河西,“神经”恐非历史的终结。钟摆回摆的时节,历史或被重新发现。

夜阑人静,耳机中飘来秘密花园的名曲,那是新世纪《落雨的时节》(Sometimes when it rains)。余音萦绕,不绝如缕。
记于二零二零年七月十五日夜半苹果镇。

目 录

零 缘起     
壹 自然语言与语言形式   
贰 语言的符号模型 
叁 中文分词的迷思 
肆 词性标注的陷阱 
伍 语言递归的误区 
陆 乔姆斯基语言学反思   
柒 深度解析是图不是树   
捌 有限状态的机制创新   
玖 错误放大与负负得正   
拾 歧义包容与休眠唤醒   
零 缘起
自20世纪80年代起,人工智能领域见证了理性主义(rationalism)与经验主义(empiricism)的“两条路线斗争”。其中,自然语言学界的“斗争”结果是,文法学派(grammar school)与统计学派(statistical school)此消彼长,机器学习渐成主流,计算文法(computational grammar)则有断代之虞。
2018年,李维与郭进在硅谷就自然语言解析(natural language parsing)问题进行了十次长谈,回顾并展望文法学派的机制创新与传承之路,意图呼唤理性主义回归,解构自然语言,协同攻坚人工智能的认知堡垒,遂成此作。
李维,1983年入中国社会科学院研究生院,师从刘涌泉、刘倬先生,主攻机器翻译(machine translation),始涉足自然语言领域。毕业后在中国社会科学院语言研究所从事机器翻译研究,继而留学英国、加拿大,获Simon Fraser University(SFU)计算语言学(Computational Linguistics)博士。1997年起,在美国水牛城、硅谷,从事自然语言理解(Natural Language Understanding, NLU)工业实践20余载,为人工智能(Artificial Intelligence,AI)应用第一线的系统架构师。
郭进,1994年新加坡国立大学计算机科学博士,主攻中文分词(Chinese tokenization)和统计模型(statistical model),成果见于《计算语言学》杂志等。1998年赴美,先后在摩托罗拉、亚马逊、京东硅谷研究院等从事人工智能研究,探索将机器学习(machine learning)、自然语言处理(Natural Language Processing, NLP)等人机交互技术应用于互联网与物联网的解决方案。

写在NPL小书出版之时相关推荐

  1. 写专业书确能帮助自己快速提升——写在我的书出版半年后,同时和大家分享选书的方式...

    在去年,我咬牙坚持了半年,出版了一本书,java web轻量级开发面试教程,是去年8月1号正式上架销售,目前我还在写书,感觉有必要在这方面做个总结. 第一能用这篇文章记录下我尚未消退的上进心,以后当我 ...

  2. 专访小书作者刘传君:练太极的“读书机器”

    访谈嘉宾:刘传君 刘传君,创过业.做过产品.一个爱读书,喜欢分享的程序员.先后在图灵社区出版了<HTTP小书><Git小书><Vue.js小书><Swift ...

  3. python统计英文句子每个单词字数_Python小书3-文本英文单词统计

    之前写Python Web小书第三小节本来用的垃圾邮件的案例三郎:Python贝叶斯推理垃圾邮件分类​zhuanlan.zhihu.com 后来发现里面的东西,涉及到概率,程序太复杂了...哈哈哈 所 ...

  4. 两本小书的命运 --- 记《Effective STL》和《The Art Of Deception》两本书的出版翻译过程

    这两年来,时常听到读者或者朋友们问我"最近还有新书要出版吗",我的回答是,有两本拖了很久的书快要出版了.我乐观地估计,这两本书在2005年都能出版,然而,不幸的是,这两本书都未能如 ...

  5. 追书神器的api接口写的微信小程序

    @这是我基于追书神器的api接口写的微信小程序 这是我小程序的二维码

  6. 《书店》:一本平凡的小书

    <书店>是一本平凡的小书,它出自英国女作家佩内洛普·菲兹杰拉德之手.她60岁才开始写作,一生写了9本书,却有3本入围英国布克奖,终有一本获奖.评论界对她的评价是:"看不出惊世骇俗 ...

  7. 三本 OOP 绝佳小书(by 侯捷)

    由於出版人的水平和視野的侷限,以及讀者的浮動,雖然許多經典已經出版,現在大夥兒(出版人和讀者)卻一勁兒注視新書,很大程度可說是捨近求遠.在C++/OOP 世界中,EC,MEC,TCSL,Primer, ...

  8. 面对500篇GNN论文,心态差点儿崩了,幸好我有这本小书

    题图 | Computer vector created by stories - www.freepik.com 说起来,大学时代的图灵君也算得上是零挂科修完全部计算机课程的人才.怀着对前沿技术的满 ...

  9. React.js小书总结

    (迁移自旧博客2017 08 27) 第一阶段 react的组件相当于MVC里面的View. react.js 将帮助我们将界面分成了各个独立的小块,每一个块就是组件,这些组件之间可以组合.嵌套,就成 ...

  10. Rabbitmq小书

    Rabbitmq小书 RabbitMQ 安装 Docker安装 Rabbitmq初识 AMQP 0.9.1 协议解析 AMQP协议简介 消息代理和他们所扮演的角色 AMQP 0-9-1 模型简介 AM ...

最新文章

  1. awk,sed,grep基本用法列举
  2. 输入法图标(语言栏)不见了怎么办
  3. Android Studio 如何导出和导入自己的常用设置,避免重复制造轮子。加快开发速度...
  4. 现代化医学信息管理c语言,山西医科大学_院校信息库_阳光高考
  5. Windows 系统版本判断
  6. EnforceLearning-主动强化学习
  7. ubuntu系统安装vscode教程
  8. 《面向对象的思考过程(原书第4版)》一1.11 组合
  9. 和css3实例教程_最好CSS和CSS3教程
  10. 使用Matplotlib Numpy Pandas构想泰坦尼克号高潮
  11. eclipse离线安装Activiti Designer插件
  12. JAVA中Calendar与Date类型互转
  13. python接口自动化登录_python 接口自动化--登录
  14. vue 中indexof_前端小知识-Vue中使用indexOf() 方法
  15. 这16个数据可视化案例,惊艳了全球数据行业
  16. HTML table表头排序箭头绘制法【不用箭头图片】
  17. Elasticsearch Refresh vs Flush
  18. 【人工智能】一文读懂人脸识别技术
  19. shell了解MySQL_MySQL Shell的简单介绍(r12笔记第95天)
  20. IT行业招聘技巧--渠道篇

热门文章

  1. Driver error 11
  2. Science:揭示人类大脑进化机制
  3. 如何才能解决堵车?这个实验告诉你答案!
  4. 优化About Us页面,提高网站询盘转化
  5. OTA三种差分算法安装使用。bsdiff,hdiffpatch,xdelta3
  6. 男生追女生的方法有哪些?
  7. react中使用高德地图进行定位
  8. (转)国内外三个不同领域巨头分享的Redis实战经验及使用场景
  9. GISer开发者的技能清单
  10. 用c++实现蓝桥杯超级玛丽