背景

语言技术平台(Language Technology Platform, LTP)是哈工大社会计算与信息检索研究中心(HIT-SCIR)历时多年研发的一整套高效、高精度的中文自然语言处理开源基础技术平台。

该平台集词法分析(分词、词性标注、命名实体识别)、句法分析(依存句法分析)和语义分析(语义角色标注、语义依存分析)等多项自然语言处理技术于一体。其中句法分析、语义分析等多项关键技术多次在CoNLL国际评测中获得了第1名。此外,平台还荣获了2010年中国中文信息学会科学技术一等奖、2016年黑龙江省科技进步一等奖

目前,LTP已被包括清华大学、北京大学、CMU等国内外众多大学及科研机构在内的600余家研究单位签署协议使用。同时,向百度、腾讯、华为、讯飞等多家知名公司收费授权。

GitHub的星标达2500余个,Fork数750余个。有效解决了自然语言处理技术入行门槛高,准确率、效率偏低,缺少共享数据和程序资源,重复开发现象严重,结果可视化差,错误分析困难,较难真正支持各类应用研究等众多问题。

特色

哈工大SCIR本科生冯云龙等同学在车万翔教授指导下,于近日对LTP进行了新一轮的全面升级,并推出了LTP 4.0版本。此次升级的主要改进为:

  • 基于多任务学习框架进行统一学习,使得全部六项任务可以共享语义信息,达到了知识迁移的效果。既有效提升了系统的运行效率,又极大缩小了模型的占用空间

  • 基于预训练模型进行统一的表示 ,有效提升了各项任务的准确率

  • 基于教师退火模型蒸馏出单一的多任务模型,进一步提高了系统的准确率

  • 基于PyTorch框架开发,提供了原生的Python调用接口,通过pip包管理系统一键安装,极大提高了系统的易用性

性能

下表列出了新旧版LTP在精度、效率和模型大小方面的对比:

为了模型的小巧易用,本次发布的版本基于哈工大讯飞联合实验室发布的中文 ELECTRA Small 预训练模型。后续将陆续发布基于不同预训练模型的版本,从而为用户提供更多准确率和效率平衡点的选择。

测试环境如下:

  • Python 3.7

  • LTP 4.0 Batch Size = 1

  • CentOS 3.10.0-1062.9.1.el7.x86_64

  • Intel(R) Xeon(R) CPU E5-2640 v4 @ 2.40GHz

备注:速度数据在人民日报命名实体测试数据上获得,速度计算方式均为所有任务顺序执行的结果。另外,语义角色标注与语义依存新旧版采用的语料不相同,因此无法直接比较(新版语义依存使用SemEval 2016语料,语义角色标注使用CTB语料)。

使用

新版LTP采用原生Python实现,仅需运行 pip install ltp 即可安装使用。调用方式:

from ltp import LTP
ltp = LTP() # 默认自动下载并加载 Small 模型
segment, hidden = ltp.seg(["他叫汤姆去拿外衣。"])
pos = ltp.pos(hidden)
ner = ltp.ner(hidden)
srl = ltp.srl(hidden)
dep = ltp.dep(hidden)
sdp = ltp.sdp(hidden)

欢迎访问http://ltp.ai/(点击文末“阅读原文”进行跳转),获取平台的源代码、模型及更详细的介绍信息,敬请提出反馈意见。

更多阅读

#投 稿 通 道#

 让你的论文被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得技术干货。我们的目的只有一个,让知识真正流动起来。

???? 来稿标准:

• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)

• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志

???? 投稿邮箱:

• 投稿邮箱:hr@paperweekly.site

• 所有文章配图,请单独在附件中发送

• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通

????

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。

LTP 4.0!单模型完成6项自然语言处理任务相关推荐

  1. hanlp 训练模型_LTP 4.0!单模型完成6项自然语言处理任务

    来源|哈工大SCIR 语言技术平台(Language Technology Platform, LTP)是哈工大社会计算与信息检索研究中心(HIT-SCIR)历时多年研发的一整套高效.高精度的中文自然 ...

  2. 科大讯飞2020脑PET图像分析和疾病预测---单模型进决赛前五

    图像分类比赛 科大讯飞2020脑PET图像分析和疾病预测---单模型进决赛前五 目录 1 前言 2 算法名称 3 创新点 4 算法描述 4.1 算法思想 4.1.1对数据进行裁剪处理 4.1.2 数据 ...

  3. “单模型轻量化”技术全新上线——老子云服务开发企业近600家,平台用户超10万

    6月10日,老子云"单模型轻量化"技术全新上线,比人工处理时间快100倍,实现了三维全自动轻量化领域从0到1的技术突破.并利用自研3D引擎和工具平台,成功搭建了可在孪生地球中&qu ...

  4. 滴滴KDD2017论文:基于组合优化的出租车分单模型 By 机器之心2017年8月14日 10:29 数据挖掘顶会 KDD 2017 已经开幕,国内有众多来自产业界的论文被 KDD 2017 接收。

    滴滴KDD2017论文:基于组合优化的出租车分单模型 By 机器之心2017年8月14日 10:29 数据挖掘顶会 KDD 2017 已经开幕,国内有众多来自产业界的论文被 KDD 2017 接收.本 ...

  5. 文本分类(一)EWECT微博情绪分类大赛第三名Bert-Last_3embedding_concat最优单模型复现

    tensorflow2.0 + transformers EWECT微博情绪分类大赛第三名Bert-Last_3embedding_concat最优单模型复现 前言 代码部分 训练结果 总结 迭代优化 ...

  6. 中文巨量模型“源1.0”:模型结构与生成效果解析

    浪潮人工智能研究院 "源 1.0"自 2021 年 9 月底发布以来收获了广泛的关注.其参数量达 2457 亿,超越美国 OpenAI 组织研发的 GPT-3."源 1. ...

  7. 百度飞桨开源Open Images Dataset V5目标检测比赛最好单模型MSF-DET

    目标检测是计算机视觉领域中的核心任务.Open Images Dataset V5(OIDV5)是目前规模最大的目标检测公开数据集[1].基于飞桨(PaddlePaddle)的PaddleDetect ...

  8. 斩获VCR竞赛榜第一,腾讯微视推出BLENDer单模型,超越多模型最好效果

    出品 | CSDN(ID:CSDNnews) 视觉常识推理VCR (Visual Commonsense Reasoning )是人工智能领域的前沿热点问题,我国<新一代人工智能发展规划> ...

  9. 使用Keras进行单模型多标签分类

    原文:https://www.pyimagesearch.com/2018/05/07/multi-label-classification-with-keras/ 作者:Adrian Rosebro ...

最新文章

  1. 【翻译】《理解收益率曲线》系列
  2. CentOS6.5安装MySQL5.1.73
  3. vim 有用命令-20190217
  4. python安装email模块_Python使用SMTP模块、email模块发送邮件
  5. 要学Web前端开发,你要掌握这6点知识
  6. mongodb输错命令后不能删除问题
  7. I.MX6开发板移植Linux4.1.15内核之TSC2007触摸屏设备树信息的添加
  8. 《大数据》2015年第2期“动态”——大数据发现银行贷款风险
  9. 成功申请MVP,晒晒来自微软的奖品
  10. 古代皇帝的某祖某宗,有什么讲究
  11. Unity2021.2.0版本汉化
  12. 数字孪生智慧监狱三维可视化系统建设方案
  13. ssm心理咨询服务平台毕业设计源码324615
  14. 基于MDKA5D31-EK_T70开发板的QT示例-demo04:LM75A温度监测
  15. 【免费抢票】6月9日杭州,产品经理会议
  16. 第20件事 风险分析
  17. 美团点评广告实时索引的设计与实现
  18. 如何让百度搜索到自己的博客?
  19. MOS管开关设计知识-(五种MOS管开关电路图方式)
  20. python实现数据恢复软件手机版下载_强力手机数据恢复

热门文章

  1. 搜索linux中大于m文件,linux 下查找大于100M的文件(转)
  2. 数据结构34:二叉树前序遍历、中序遍历和后序遍历
  3. STL——关联式容器
  4. javascript里你绝对用的上的字符分割函数--原创
  5. spring+hibernate+struts整合(1)
  6. mysql php遍历数据6_PHP 循环遍历数据里中的内容
  7. rgb sw 线主板接口在哪_十代至尊i910980XE直接上:技嘉X299X AORUS MASTER主板评测
  8. 基于java的作业管理系统_基于java的作业管理系统
  9. python在sql添加数据库_使用Python创建MySQL数据库实现字段动态增加以及动态的插入数据...
  10. java程序中可以有几个构造方法_java中多个构造方法可以相互引用么?