By 超神经

内容一览:什么?中文 NLP 和英文 NLP 研究的是两个方向?源远流长的汉语让 NLP 的探索,变得步履维艰?我们将在本文的内容里,一起回顾最近以来,那些给中文 NLP领域带来突破的几个项目。

关键词:NLP   中文  预训练模型  测试基准

有人这么说到,如果你研究过 NLP (自然语言处理),就会知道中文 NLP 有多难。

虽然同属 NLP,但在英文和中文领域,因为语言习惯的不同,导致二者的分析和处理存在很大的差异,难点和挑战也各不相同。

中文 NLP 中的一些方法

而且当前流行的一些模型,大都是针对英文开发,再加上在中文用语的特有习惯,很多任务(如分词)都十分困难,导致了中文 NLP 领域进展十分缓慢。

但这一类问题或许将会很快被改变,因为自去年以来,陆续出现很多十分出色的开源项目,极大地推动了 NLP 中文领域的发展。

模型:中文预训练的 ALBERT

2018 年,谷歌推出了语言模型 BERT ,Bidirectional Encoder Representations from Transformers,因为极其强劲的性能,一发布就血洗了多项 NLP 标准的榜单,随即被封神。

但 BERT 的一个缺点就是太过庞大,BERT-large 拥有 3 亿参数,训练起来十分不易。2019 年谷歌 AI 推出了轻量级的 ALBERT (A Little BERT),它比BERT 模型的参数小了 18 倍,但性能却在其之上。

ALBERT 推出时的性能对比

虽然解决了预训练模型训练成本高,参数量巨大的问题,但 AlBERT 还是只针对于英文语境,这让专注中文开发的工程师感到了一丝无奈。

为了让这个模型可在中文语境下使用,造福更多的开发者,数据工程师徐亮所在的团队,于 2019 年 10 月,开源了首个中文预训练的中文版 ALBERT 模型。

项目在 GitHub 上收获了 2200 多个点赞

  项目地址  

https://github.com/brightmart/albert_zh

这个中文预训练的 ALBERT 模型(记作 albert_zh),是在海量中文语料上训练而得来,其训练的内容来自多个百科,新闻以及互动社区,包含了 30G 的中文语料,超过一亿亿汉字。

从数据对比来看,albert_zh 预训练序列长度设置为 512,批次为 4096,训练产生了 3.5 亿个训练数据,而另一款强劲的预训练模型 roberta_zh ,预训练产生了 2.5 亿个训练数据,序列长度为 256。

albert_zh 预训练生成的训练数据更多、使用的序列长度更长,预计 albert_zh 会有比 roberta_zh 更好的性能表现,并且能更好处理较长的文本。

albert_zh 和其他模型的性能比较

此外,albert_zh 训练了从 tiny 版到 xlarge 版一系列不同参数量的 ALBERT 模型,极大地促进了 ALBERT 在中文 NLP 领域的普及。

值得一提的是在 2020 年 1 月,谷歌 AI 发布了 ALBERT V2 ,才缓缓地推出了 ALBERT 的谷歌中文版。

基准 :做中文 GLUE 的 ChineseGLUE

当有了模型之后,又该如何去判断它们好坏呢?这需要有足够好的测试基准,同样在去年,针对中文 NLP 的基准测试 ChineseGLUE 也被开源。

ChineseGLUE 借鉴于业内著名的测试基准 GLUE,后者是九种英语语言理解任务的集合,其目标是推动通用的、鲁棒的自然语言理解系统的研究。

此前没有与 GLUE 相对应的中文版本,一些预训练模型在不同任务上的公开测试无法得到评断,导致中文领域 NLP 发展和应用出现错位,甚至是技术应用上的滞后。

面对这种情形,AlBERT 第一作者蓝振忠博士,ablbert_zh 开发者徐亮等 20 多位工程师,共同推出了针对中文 NLP 的基准:ChineseGLUE。

  项目地址  

https://github.com/chineseGLUE/chineseGLUE

ChineseGLUE 的出现,让中文被纳入作为新模型评价的一个指标,对中文预训练模型的测试,形成了一个完整的评价体系。

这个强大的测试基准,包含了以下几个方面的内容:

1)包含若干句子或句子对的中文任务基准测试,覆盖多个不同程度的语言任务。

2)提供性能评估的排行榜,排行榜会定期更新,以此来提供模型的选择依据。

3)收集了一些基准模型,包含开始的代码、预训练模型 ChineseGLUE 任务的基准,这些基准在 TensorFlow,PyTorch,Keras 等框架下可用。

4)拥有预训练或语言建模研究的巨型原始语料库,大约达到了 10G(2019 年),而且计划到 2020 年底将扩大到充足的原始语料库(如 100G)。

项目于 2019 年 10 月增加了评测网站

ChineseGLUE 的推出和不断完善,有望像 GLUE 见证 BERT 出现那般,见证更强大的中文 NLP 模型诞生。

2019 年 12 月 11 月底,该项目迁移至更全面的更多技术支持的项目:CLUEbenchmark/CLUE。

  项目地址  

https://github.com/CLUEbenchmark/CLUE

数据:史上最全数据集、最大语料库

有了预训练模型和测试基准,还有一个重要的环节在于数据集、语料库等数据资源。

这就促成了一个更全面的组织 CLUE ,CLUE 为 Chinese GLUE 的缩写,这是一个为中文语言理解提供评估基准的开源组织,他们关注的方向有:任务和数据集,基准,经过预训练的中文模型,语料库和排行榜发布。

前段时间,CLUE 发布了最大最全的中文 NLP 数据集,涵盖 10 个大类共 142 个数据集,CLUEDatasetSearch。

最终的网页界面展示

  项目地址  

https://github.com/CLUEbenchmark/CLUEDatasetSearch

其内容包括 NER、QA、情感分析、文本分类、文本分配、文本摘要、机器翻译、知识图谱、语料库以及阅读理解等当前研究的全部主要方向。

只要在网站页面上键入关键词,或者所属领域等信息,就能搜索到相应的资源。每一个数据集,会提供名称、更新时间、提供者、说明、关键字、类别以及论文地址等几方面的信息。

最近,CLUE 组织又陆续开源了 100 GB 的中文语料,以及高质量的中文预训练模型集合,并且在 arViv 提交了一篇论文。

https://arxiv.org/abs/2003.01355

在语料方面,CLUE 开源了 CLUECorpus2020:Large-scale Pre-training Corpus for Chinese 100G 的中文预训练语料。

这些内容,是对 Common Crawl 数据集的中文部分,进行语料清洗后得到的数据。

它们可直接用于预训练、语言模型或语言生成任务,或发布专用于中文 NLP 任务的小词表。

使用小数据集在 BERT-base 上的性能对比

  项目地址  

https://github.com/CLUEbenchmark/CLUECorpus2020

在模型合集方面,则是发布了 CLUEPretrainedModels:高质量中文预训练模型集合---最先进大模型、最快小模型、相似度专门模型。

大模型(第三行)性能对比

其中大模型取得与当前中文 NLP 效果最佳模型一致的效果,某些任务有胜出;小模型速度比 Bert-base 提升了 8 倍左右;语义相似度模型,用于处理语义相似度或句子对问题,大概率比直接用预训练模型效果更优。

  项目地址  

https://github.com/CLUEbenchmark/CLUEPretrainedModels

这些资源的发布,某种程度上来讲,像是推动发展进程的燃料,而足够充足的资源,或许将开启中文 NLP 行业的飞奔之路。

他们让中文 NLP 变得 Easy

在语言角度来说,中文和英文是全球使用人数最多,影响力最大的两种语言,但因为不同的语言特色,在 NLP 领域的研究上也面对着不同的问题。

虽然中文的 NLP 发展,相比于机器能更好理解的英文研究,确实要困难和滞后了一些,但正是因为有文中那些愿意推动中文 NLP 发展的工程师,不断地探索并分享自己的成果,才能让这些技术能够更好地进行迭代。

CLUE 的几位代码贡献者

感谢他们的努力,贡献了这么多优质的项目!同时,也期望有更多的人,能够参与进来,共同推动中文 NLP 的发展大业。

—— 完 ——

扫描二维码,加入讨论群

获得更多优质数据集

了解人工智能落地应用

关注顶会&论文

回复「读者」了解更多

更多精彩内容(点击图片阅读)

这群工程师,业余将中文 NLP 推进了一大步相关推荐

  1. 这群工程师,业余时间将中文 NLP 推进了一大步

    内容一览:什么?中文 NLP 和英文 NLP 研究的是两个方向?源远流长的汉语让 NLP 的探索,变得步履维艰?我们将在本文的内容里,一起回顾最近以来,那些给中文 NLP领域带来突破的几个项目. 关键 ...

  2. 这个开源数据集要在全球扩大中文NLP影响力,你也能来做贡献!

    源 | 机器之心编辑部 千言的升级重点聚焦大模型时代的机遇和挑战. 「千言」是由百度联合中国计算机学会.中国中文信息学会共同发起的面向自然语言处理的开源数据集项目,旨在推动中文信息处理技术的进步.近日 ...

  3. 资源警告!有人收罗了40个中文NLP词库,放到了GitHub上

    乾明 编辑整理 量子位 出品 | 公众号 QbitAI 你还在为进行中文NLP找不到词库而发愁吗? 你还在为了从文本中抽取结构化信息而抓耳挠腮吗? 现在,这些症状可以得到缓解了. 最近,在GitHub ...

  4. 最强中文NLP预训练模型艾尼ERNIE官方揭秘【附视频】

    "最近刚好在用ERNIE写毕业论文" "感觉还挺厉害的" "为什么叫ERNIE啊,这名字有什么深意吗?" "我想让艾尼帮我写作业& ...

  5. 优质中文NLP资源集合,做项目一定用得到!

    整理 | Jane 出品 | AI科技大本营(公众号id:rgznai100) 今天要给大家在推荐 Github 上一个优质的中文 NLP 工具和资源集合项目--funNLP,已经获得了 5.3k S ...

  6. 史上最全开源中文 NLP 数据集:包括10大类、142条数据源,总有你钟意的那一款!...

    关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 有了这个开源项目,再也不用担心找不到好用的中文 NLP 数据集,142 条数据集, ...

  7. 10大类、142条数据源,中文NLP数据集线上搜索开放

    关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 有了这个开源项目,再也不用担心找不到好用的中文 NLP 数据集,142 条数据集, ...

  8. 直播回顾 | 最强中文NLP预训练模型艾尼ERNIE官方揭秘

    允中 发自 凹非寺 量子位 编辑 | 公众号 QbitAI "最近刚好在用ERNIE写毕业论文" 看了上面热火的讨论,你一定很好奇"艾尼"."ERNI ...

  9. 独家揭秘!史上最强中文NLP预训练模型 | 直播报名中

    编辑部 发自 凹非寺  量子位 报道 | 公众号 QbitAI 随着AI的快速发展,相信"深度学习"对大部分人来说已经不是一个陌生的概念了.通过深度学习,计算机能够在围棋.电子竞技 ...

最新文章

  1. simulink中错误object[id]!=NULL Component: Simulink | Category:Model error
  2. 如何让Node.js运行在浏览器端
  3. 瑞幸被椰树“带坏”了?
  4. 第12章[12.2] Ext JS可编辑列Grid的全场景开发
  5. [C#]System.Timers.Timer(2)
  6. LeetCode_151_python_翻转字符串里的单词
  7. 干掉Dubbo,换下Spring Cloud,这个架构有点厉害!
  8. atx和matx机箱_【技嘉Z87评测】强迫症的执拗 同价位ATX与MATX到底咋选(全文)_技嘉 G1.Sniper M5_主板评测-中关村在线...
  9. “拖延症”的良方——对于追求完美,自制力差,情绪化的人很受用。
  10. 2353410-06-5,TCO-PEG8-TFP ester单分散交联剂,含有TCO部分和PFP酯
  11. python 去除水印_cv2 去除图片水印
  12. java pageoffice获取word数据_PageOffice实现最简单的Java导出Word中的数据
  13. Wox + Everything = 效率神器(附下载链接)
  14. 家里蹲太孤单?来用python画一只单身狗吧
  15. table表格表头单元格添加斜线
  16. 【修真院“善良”系列之十七】请拿好这支时间之箭
  17. 【方案分享】2020个人抖音账号打造执行方案(附下载)
  18. 清理C盘(浪费了很多时间,终于找到了一个比较高效的方法)
  19. java干两年失业了,干了两年开发后,感觉快要被淘汰
  20. SimpleDateFormat api

热门文章

  1. 京东抢购脚本使用方法+代码更新(超详细)
  2. 【解决】Win7 安装 Cinema 4D R20(C4D) 时显示 不能定位 RemoveDllDirectory 于 kernel32.dll 解决
  3. puppeteer 鼠标定位滑块_puppeteer的使用
  4. 【Crypto】RSA
  5. 帝国cms 搭建 仿站
  6. 4G多卡聚合智能融合通信设备无人机无线视频传输
  7. 一篇感人至深的授权协议
  8. Linux命令vi模式命令404.500报错解决方案
  9. 分布式数据库架构及企业实践——基于Mycat中间件
  10. GeoTools源码解读 - XML处理