百度开源的依存句法分析系统
向AI转型的程序员都关注了这个号????????????
机器学习AI算法工程 公众号:datayx
依存句法分析是自然语言处理核心技术之一,旨在通过分析句子中词语之间的依存关系来确定句子的句法结构,如下图实例所示:
依存句法分析作为底层技术,可直接用于提升其他NLP任务的效果,这些任务包括但不限于语义角色标注、语义匹配、事件抽取等。该技术具有很高的研究价值及应用价值。为了方便研究人员和商业合作伙伴共享效果领先的依存句法分析技术,我们开源了基于大规模标注数据训练的高性能的依存句法分析工具,并提供一键式安装及预测服务,用户只需一条命令即可获取依存句法分析结果。
依存句法分析标注关系集合
DuCTB1.0数据集含14种标注关系,具体含义见下表:
项目介绍
DDParser(Baidu Dependency Parser)是百度自然语言处理部基于深度学习平台飞桨(PaddlePaddle)和大规模标注数据研发的依存句法分析工具。其训练数据不仅覆盖了多种输入形式的数据,如键盘输入query、语音输入query,还覆盖了多种场景的数据,如新闻、论坛。该工具在随机评测数据上取得了优异的效果。同时,该工具使用简单,一键完成安装及预测。
本项目所用方法出自论文《Deep Biaffine Attention for Neural Dependency Parsing》,也有对应的pytorch版本。
代码 以及运行教程 获取:
关注微信公众号 datayx 然后回复 句法分析 即可获取。
AI项目体验地址 https://loveai.tech
效果说明
CTB5: Chinese Treebank 5.0 是Linguistic Data Consortium (LDC)在2005年发布的中文句法树库,包含18,782条句子,语料主要来自新闻和杂志,如新华社日报。
DuCTB1.0:
Baidu Chinese Treebank1.0
是百度构建的中文句法树库,即本次所发布的依存句法分析工具-DDParser的训练数据来源,具体信息参见数据来源
注:由于CTB5数据集规模较小,最优模型(即评测模型)使用了句子的word级表示、POS(词性标签)表示、以及预训练词向量,而DuCTB1.0数据集规模较大,其最优模型仅使用了句子的word级和char级表示。
快速开始
版本依赖
python
: >=3.6.0paddlepaddle
: 1.8.2LAC
: >=0.1.4
一键安装
用户可以使用以下方式进行一键安装及预测:
pip安装 pip install ddparser
半自动安装 先从 https://pypi.org/project/ddparser/ 下载包,解压后使用
python setup.py install
安装包。
功能使用
未分词方式
代码示例
已分词方式
代码示例
注:标签含义见依存句法分析标注关系集合。
进阶使用
项目下载
用户可以通过git clone https://github.com/baidu/DDParser
下载源码,并且执行下列命令安装依赖库:
pip install --upgrade paddlepaddle-gpu
pip install --upgrade LAC
模型下载
我们发布了基于DuCTB1.0
训练的模型,通过执行cd ddparser && sh download_pretrained_model.sh
下载模型,模型将保存在./ddparser/model_files/baidu下。
训练
用户可以通过sh run_train.sh
训练模型。详细命令如下所示:
注:用户可通过修改train_data_path
, valid_data_path
和test_data_path
指定训练集,评估集和测试集, 参数含义见参数说明,所用数据集格式见数据格式说明。
评估
用户可以通过执行sh download_data.sh
下载我们提供的评估集,其将保存在./data/baidu/下。该评估集共2,592条句子,平均长度为11.27字符。
用户可以通过执行sh run_evaluate.sh
评估模型效果,详细命令如下所示:
注:用户可通过修改test_data_path
指定评估集,所用数据集格式见数据格式说明。
预测
基于源码,我们提供两种基于命令行的预测方法,分别用于已分词数据和未分词数据。
基于已分词数据的预测
预测的输入数据要求以CoNLL-X
(官方说明)格式组织,缺失字段使用“-”代替。通过执行sh run_predict.sh
进行预测,详细命令如下所示:
注:用户可通过修改infer_data_path
和infer_result_path
指定要预测的数据集和预测结果的路径。
基于未分词数据的预测
预测的输入数据为字符串形式,一行一条数据。通过执行sh run_predict_query.sh
对来自标准输入的数据进行预测,详细命令如下所示:
注:默认调用LAC
预测分词和词性
参数说明
数据格式说明
本项目数据格式基于CoNLL-X(官方说明)的风格,缺少的字段使用"-"代替(用户只用关注ID,FROM,HEAD,DEPREL,PROB等列即可),如“百度是一家高科技公司”的可解析为如下格式:
阅读过本文的人还看了以下文章:
TensorFlow 2.0深度学习案例实战
基于40万表格数据集TableBank,用MaskRCNN做表格检测
《基于深度学习的自然语言处理》中/英PDF
Deep Learning 中文版初版-周志华团队
【全套视频课】最全的目标检测算法系列讲解,通俗易懂!
《美团机器学习实践》_美团算法团队.pdf
《深度学习入门:基于Python的理论与实现》高清中文PDF+源码
特征提取与图像处理(第二版).pdf
python就业班学习视频,从入门到实战项目
2019最新《PyTorch自然语言处理》英、中文版PDF+源码
《21个项目玩转深度学习:基于TensorFlow的实践详解》完整版PDF+附书代码
《深度学习之pytorch》pdf+附书源码
PyTorch深度学习快速实战入门《pytorch-handbook》
【下载】豆瓣评分8.1,《机器学习实战:基于Scikit-Learn和TensorFlow》
《Python数据分析与挖掘实战》PDF+完整源码
汽车行业完整知识图谱项目实战视频(全23课)
李沐大神开源《动手学深度学习》,加州伯克利深度学习(2019春)教材
笔记、代码清晰易懂!李航《统计学习方法》最新资源全套!
《神经网络与深度学习》最新2018版中英PDF+源码
将机器学习模型部署为REST API
FashionAI服装属性标签图像识别Top1-5方案分享
重要开源!CNN-RNN-CTC 实现手写汉字识别
yolo3 检测出图像中的不规则汉字
同样是机器学习算法工程师,你的面试为什么过不了?
前海征信大数据算法:风险概率预测
【Keras】完整实现‘交通标志’分类、‘票据’分类两个项目,让你掌握深度学习图像分类
VGG16迁移学习,实现医学图像识别分类工程项目
特征工程(一)
特征工程(二) :文本数据的展开、过滤和分块
特征工程(三):特征缩放,从词袋到 TF-IDF
特征工程(四): 类别特征
特征工程(五): PCA 降维
特征工程(六): 非线性特征提取和模型堆叠
特征工程(七):图像特征提取和深度学习
如何利用全新的决策树集成级联结构gcForest做特征工程并打分?
Machine Learning Yearning 中文翻译稿
蚂蚁金服2018秋招-算法工程师(共四面)通过
全球AI挑战-场景分类的比赛源码(多模型融合)
斯坦福CS230官方指南:CNN、RNN及使用技巧速查(打印收藏)
python+flask搭建CNN在线识别手写中文网站
中科院Kaggle全球文本匹配竞赛华人第1名团队-深度学习与特征工程
不断更新资源
深度学习、机器学习、数据分析、python
搜索公众号添加: datayx
机大数据技术与机器学习工程
搜索公众号添加: datanlp
长按图片,识别二维码
百度开源的依存句法分析系统相关推荐
- 百度开源两款句法分析应用工具,提升文本处理任务效果
欢迎关注[百度NLP]官方公众号,及时获取自然语言处理领域核心技术干货!! 阅读原文:https://mp.weixin.qq.com/s/4ar6jHtF3b_6DIScB2IuuQ 继2020年8 ...
- 基于深度学习的依存句法分析进展
http://www.cipsc.org.cn/qngw/?p=885 前言: 中国中文信息学会青年工作委员会(简称青工委)是中国中文信息学会的下属学术组织,专门面向全国自然语言处理领域的青年学者和学 ...
- 仿百度文库/仿豆丁文库开源版MTCEO文库系统 v2.4
仿百度文库/仿豆丁文库开源版MTCEO文库系统 v2.4 应众多网友要求,MCEO2.4在一片呼声中正式上线! 已安装MTCEO2.3的用户可通过后台-工具-在线升级,进行在线升级!方便简单!在升 ...
- 句法依存分析_恭喜 | 黑龙江大学自然语言处理实验室获得NLPCC2019跨领域移植中文依存句法分析封闭测试第一名!...
点击上方,选择星标或置顶,每天给你送干货! 阅读大概需要3分钟 跟随小博主,每天进步一丢丢 欢送师兄师姐毕业 任务介绍 我们做的实验为Task1的closed任务 任务设置 任务描述: 输入一个自然语 ...
- .依存句法分析--提取用户评论
原文链接:https://cloud.tencent.com/developer/article/1590322 <自然语言处理入门>12.依存句法分析--提取用户评论 2020-02-2 ...
- 知识图谱--实体关系抽取,依存句法分析
我爱自然语言处理 https://www.52nlp.cn/tag/%E4%BE%9D%E5%AD%98%E5%8F%A5%E6%B3%95%E5%88%86%E6%9E%90 基于Hanlp的依存句 ...
- 百度开源联邦学习框架 PaddleFL:简化大规模分布式集群部署
百度开源联邦学习框架 PaddleFL:简化大规模分布式集群部署 作者 | 钰莹近两年,联邦学习技术发展迅速.作为分布式的机器学习范式,联邦学习能够有效解决数据孤岛问题,让参与方在不共享数据的基础上联 ...
- 百度开源的 71 个项目,看看你用过几个?
点击上方蓝色"程序猿DD",选择"设为星标" 回复"资源"获取独家整理的学习资料! 作者 | SoftCloud 来源 | https:// ...
- 百度交易中台之账房系统架构浅析
导读:百度交易中台作为集团移动生态战略的基础设施,面向收银交易与清分结算场景,为赋能业务提供高效交易生态搭建.目前支持百度体系内多个产品线,主要包含:小程序,地图打车,百家号,招财猫,好看视频等.本文 ...
最新文章
- Android Environment 的作用以及常用的方法
- EmEditor Professional(文本编辑) 下载地址
- sdcms的一个bug,总是提示,该文件不允许被上传
- hsv java_rgb-hsv-hsl-android.java
- 初中计算机网络的教案20分钟,初中网络安全教育教案
- 发明导诊机器人团队_牛!这个平均年龄21岁的团队竟然发明偏瘫康复机器人
- 苹果春季新品发布会来了:将推iPhone13 Pro系列紫色版
- nyoj 作业题 dp
- 比尔盖茨:反垄断案让我分心,不然微软定能打败安卓
- 周末ROS学习沙龙第五期——IMU应用、红外应用、语音应用
- java中的执行顺序_Java中的执行顺序
- JDK源码分析(2)之 Array 相关
- 斐讯k2p官方固件如何登陆ssh后台
- Maven仓库的下载和配置settings.xml文件
- python中ipo是什么意思呢_ipo是什么意思呢?ipo是不是就是上市呢?
- 表白代码收藏馆,谁说程序猿不懂浪漫
- 帝国cms后台界面修改方法 最新版教程
- Mock.js数据模拟,rap2、postman可视化接口平台,Vue框架的接口链接应用
- 读入一个正整数 n,计算其各位数字之和,用汉语拼音写出和的每一位数字。
- Mac OS中隐藏和显示文件的操作
热门文章
- 基于vue-cli的webpack配置优化
- 手机web禁止微信调整字体
- 0-5v转0-20ma和0-5v转4-20ma
- C++类中的main函数
- 长痘痘部位和对应的毛病
- 请检查captcha表格_【分享】工程资料这样写,再也不用担心检查组来检查资料了...
- php做异地登录验证,PHP实现用户异地登录提醒功能的方法【基于thinkPHP框架】
- 请输入30名同学的c语言成绩,求大神帮忙做这几道结构体的c语言!今天就要交实验报告!急啊急!!!!! (1)一个班级共有30名学...
- 黑马博客——详细步骤(十一)博客系统的前台展示页面
- Selenium与Cypress的比较