在线文本实体抽取能力,助力应用解析海量文本数据
随着信息化的发展,很多具有重要价值的知识隐藏分布在海量数据中,影响了人们获取知识的效率,如何处理繁杂的非结构化文本数据成为难题。
近日,HMS Core机器学习服务6.5.0版本新增在线文本实体抽取能力,该能力可以检测出文本中是否存在比如日期、姓名、专有名词等实体信息,并将此类实体抽取出来,即自动处理非结构化自然语言文本数据的能力。例如,影视行业的应用中常常会出现大量文字的影评、资讯等内容,使用在线文本实体抽取能力即可快速提取结构信息,帮助搭建知识图谱,便于用户清晰理解。
此外,文本实体抽取能力更多应用于问答系统、信息索引、知识图谱构建等领域。
问答系统
问答系统是信息检索系统的一种高级形式,它能用准确、简洁的自然语言回答用户提出的问题。在问答系统实现过程中,则需要用到文本实体抽取能力识别问题和知识库中的实体信息,再通过多种算法模型匹配出精准回答。
信息索引
使用在线文本实体抽取能力,可命名特定实体信息作为索引和超链接。比如用户在评论时提到的专有名词,可以生成超链接,便于其他用户检索了解相关内容。
知识图谱构建
知识图谱是由实体、关系和属性组成的一种数据结构,即具有有向图结构的一个知识库,文本实体抽取能力作为知识图谱构建过程中的底层能力,有着极其重要的作用。比如构建音乐知识图谱,首先需要大量的文本数据中提取出歌手、歌曲、作词、影视等相关信息,然后再进行知识图谱的搭建。
目前,华为机器学习服务在线文本实体抽取能力共支持人名、金钱、影视名、网页链接在内的16个实体类别,可根据实际语义场景应用于不同类别的App中。
集成步骤
- 开发准备
详细准备步骤可参考华为开发者联盟官网。
- 集成和配置apigateway鉴权
基于apigateway的鉴权机制:
"paths": {
"/entityExtract": { "post": { "operationId": "entityExtract",
"parameters": [{"in": "body", "name": "req", "required": true,
"schema": { "$ref": "#/definitions/NerEnterReq" } }, {
"name": "X-Request-ID", "in": "header", "required": true,
"type": "string"
}, {"name": "X-Package-Name", "in": "header", "required": true,
"type": "string" }, ……],"responses": {"200": { "description": "response of 200",
"schema": { "$ref": "#/definitions/ResponseEntityNerBodyVo"}}}}}
- 创建在线文本实体构造器
// 使用自定义的参数配置创建语种检测器。MLRemoteNerSetting setting = new MLRemoteNerSetting.Factory().setSourceLangCode("zh").create();
MLRemoteNer ner = MLNerFactory.getInstance().getRemoteNer(setting);
进行文本实体抽取。
- 在线获取文本实体抽取
异步方法示例代码:
ner.asyncEntityExtract(input).addOnSuccessListener(new OnSuccessListener<RemoteNerResultItem[]>() {@Overridepublic void onSuccess(RemoteNerResultItem[] remoteNerResults) {// 成功的处理逻辑。if(remoteNerResults != null){// 有识别结果}else {// 识别结果为空}}}).addOnFailureListener(new OnFailureListener() {@Overridepublic void onFailure(Exception e) {// 识别失败,获取相关异常信息。try {MLException mlException = (MLException) e;// 获取错误码,开发者可以对错误码进行处理,根据错误码进行差异化的页面提示。int errorCode = mlException.getErrCode();// 获取报错信息,开发者可以结合错误码,快速定位问题。String errorMessage = mlException.getMessage();} catch (Exception error) {// 转换错误处理。}}});
同步方法示例代码:
try {RemoteNerResultItem[] remoteNerResults = ner.syncEntityExtract(input);// 识别成功逻辑if(remoteNerResults != null){// 有识别结果}else {// 识别结果为空}} catch (MLException mlException) {// 失败的处理逻辑。// 获取错误码,开发者可以对错误码进行处理,根据错误码进行差异化的页面提示。int errorCode = mlException.getErrCode();// 获取报错信息,开发者可以结合错误码,快速定位问题。String errorMessage = mlException.getMessage();}
- 完成后,释放资源
if (ner != null) {ner.stop();
}
了解更多详情>>
访问华为开发者联盟官网
获取开发指导文档
华为移动服务开源仓库地址:GitHub、Gitee
关注我们,第一时间了解 HMS Core 最新技术资讯~
在线文本实体抽取能力,助力应用解析海量文本数据相关推荐
- 文本分类模型_多标签文本分类、情感倾向分析、文本实体抽取模型如何定制?...
文心(ERNIE)是依托百度深度学习平台飞桨打造的语义理解技术与平台,集先进的预训练模型.全面的NLP算法集.端到端开发套件和平台化服务于一体,为企业和开发者提供一整套NLP定制与应用能力.在2020 ...
- NLP专栏简介:数据增强、智能标注、意图识别算法|多分类算法、文本信息抽取、多模态信息抽取、可解释性分析、性能调优、模型压缩算法等
NLP专栏简介:数据增强.智能标注.意图识别算法|多分类算法.文本信息抽取.多模态信息抽取.可解释性分析.性能调优.模型压缩算法等 专栏链接:NLP领域知识+项目+码源+方案设计 订阅本专栏你能获得什 ...
- java 接收前台富文本_java 解析富文本处理 img 标签
很多项目都需要到富文本来添加内容,就好比新闻啊,旅游景点之类的,都需要使用富文本去添加数据,然而怎么我这边就发现了两个问题 1)怎样将富文本的图片的 src 获取出来? 2)后台上传的时候用的是相对路 ...
- 中文文本关键词抽取的三种方法-python
利用Python实现中文文本关键词抽取的三种方法 转自github 文本关键词抽取,是对文本信息进行高度凝练的一种有效手段,通过3-5个词语准确概括文本的主题,帮助读者快速理解文本信息.目前,用于文本 ...
- Python文本整理案例分析:《全唐诗》文本整理
在整理<全唐诗>的文本之前,我们首先需要完成以下两个步骤: 确定需求 了解文本 在完成以上步骤后,我们开始实际着手整理文本,在整理的过程中大体上也包含两个流程: 文本解析 结果输出 全唐诗 ...
- PaddleNLP通用信息抽取技术UIE【一】产业应用实例:信息抽取{实体关系抽取、中文分词、精准实体标。情感分析等}、文本纠错、问答系统、闲聊机器人、定制训练
相关文章: 1.快递单中抽取关键信息[一]----基于BiGRU+CR+预训练的词向量优化 2.快递单信息抽取[二]基于ERNIE1.0至ErnieGram + CRF预训练模型 3.快递单信息抽取[ ...
- 时间语义解析工具 Python版,从文本中提取时间,并解析其含义,在线使用,时间语义识别
时常我们需要从文本中,提取出时间信息,并将这个信息标准化,例如: [新华社报2021-9-9]国家统计局今天发布了2021年8月份全国CPI(居民消费价格指数) 需要从中抽取出 2021-9-9 和 ...
- Android开发--使用实体类解析JSON文本
Android开发–使用实体类解析JSON文本 在Android开发过程中,涉及到了API的调用的时候,会返回特定的数据,两个主流返回的数据格式是JSON形式和XML形式.但是相对于XML,JSON数 ...
- 【DBpedia Spotlight】知识图谱实体链接/抽取文本实体
修改论文模型时需要对DBpedia进行实体链接,官方的DBpedia Spotlight就非常好用,特此记录. 1 Docker 由于DBpedia Spotlight需要部署到服务器中,官方Gith ...
最新文章
- 【MySQL解惑笔记】忘记MySQL数据库密码
- 用PHP代码实现简单的工厂模式,用PHP代码实现简单的工厂模式
- C语言程序的基本结构
- 【NLP】全方位解读 | Facebook的搜索是怎么做的?
- xml转svg_C# Excel 转PDF/图片/HTML/TXT/XML/XPS/CSV/ODS/SVG/EMF
- ASP.NET MVC 学习之路-5
- intellij idea开发工具
- CentOS7下RabbitMq安装和开机自启动配置
- 电商网站交易记录设计
- pad 迅雷 bt php_iOS永久版迅雷来了 BT、磁力链下载最全教程收好
- B4A-Basic4android
- php实现微信小程序登录(根据微信小程序接口更新最新教程)
- linux限制syslog大小,c – 如何限制syslog管理的日志文件的总大小?
- 龙贝格算法例题_数值分析实验报告——龙贝格求积算法 椭圆周长公式
- 【区块链】(2)区块链概念与体系
- 计算机组成原理学习(哈工大视频)第六章 计算机的运算方法
- 零基础 Python学习
- GNT《谷蓝尼牧场》游戏将正式开通超级节点申请
- WCF:学习Artech大哥的入门程序
- Fotophire Toolkit(图片处理软件)v1.3.1中文版