随着信息化的发展,很多具有重要价值的知识隐藏分布在海量数据中,影响了人们获取知识的效率,如何处理繁杂的非结构化文本数据成为难题。

近日,HMS Core机器学习服务6.5.0版本新增在线文本实体抽取能力,该能力可以检测出文本中是否存在比如日期、姓名、专有名词等实体信息,并将此类实体抽取出来,即自动处理非结构化自然语言文本数据的能力。例如,影视行业的应用中常常会出现大量文字的影评、资讯等内容,使用在线文本实体抽取能力即可快速提取结构信息,帮助搭建知识图谱,便于用户清晰理解。

此外,文本实体抽取能力更多应用于问答系统、信息索引、知识图谱构建等领域。

问答系统

问答系统是信息检索系统的一种高级形式,它能用准确、简洁的自然语言回答用户提出的问题。在问答系统实现过程中,则需要用到文本实体抽取能力识别问题和知识库中的实体信息,再通过多种算法模型匹配出精准回答。

信息索引

使用在线文本实体抽取能力,可命名特定实体信息作为索引和超链接。比如用户在评论时提到的专有名词,可以生成超链接,便于其他用户检索了解相关内容。

知识图谱构建

知识图谱是由实体、关系和属性组成的一种数据结构,即具有有向图结构的一个知识库,文本实体抽取能力作为知识图谱构建过程中的底层能力,有着极其重要的作用。比如构建音乐知识图谱,首先需要大量的文本数据中提取出歌手、歌曲、作词、影视等相关信息,然后再进行知识图谱的搭建。

目前,华为机器学习服务在线文本实体抽取能力共支持人名、金钱、影视名、网页链接在内的16个实体类别,可根据实际语义场景应用于不同类别的App中。

集成步骤

  1. 开发准备

详细准备步骤可参考华为开发者联盟官网。

  1. 集成和配置apigateway鉴权

基于apigateway的鉴权机制:

"paths": {
"/entityExtract": { "post": { "operationId": "entityExtract",
"parameters": [{"in": "body",  "name": "req",  "required": true,
"schema": { "$ref": "#/definitions/NerEnterReq"  } },  {
"name": "X-Request-ID", "in": "header",  "required": true,
"type": "string"
}, {"name": "X-Package-Name",  "in": "header", "required": true,
"type": "string"  }, ……],"responses": {"200": {   "description": "response of 200",
"schema": { "$ref": "#/definitions/ResponseEntityNerBodyVo"}}}}}
  1. 创建在线文本实体构造器
// 使用自定义的参数配置创建语种检测器。MLRemoteNerSetting setting = new MLRemoteNerSetting.Factory().setSourceLangCode("zh").create();
MLRemoteNer ner = MLNerFactory.getInstance().getRemoteNer(setting);
进行文本实体抽取。
  1. 在线获取文本实体抽取

异步方法示例代码:

ner.asyncEntityExtract(input).addOnSuccessListener(new OnSuccessListener<RemoteNerResultItem[]>() {@Overridepublic void onSuccess(RemoteNerResultItem[] remoteNerResults) {// 成功的处理逻辑。if(remoteNerResults != null){// 有识别结果}else {//  识别结果为空}}}).addOnFailureListener(new OnFailureListener() {@Overridepublic void onFailure(Exception e) {// 识别失败,获取相关异常信息。try {MLException mlException = (MLException) e;// 获取错误码,开发者可以对错误码进行处理,根据错误码进行差异化的页面提示。int errorCode = mlException.getErrCode();// 获取报错信息,开发者可以结合错误码,快速定位问题。String errorMessage = mlException.getMessage();} catch (Exception error) {// 转换错误处理。}}});

同步方法示例代码:

try {RemoteNerResultItem[] remoteNerResults = ner.syncEntityExtract(input);// 识别成功逻辑if(remoteNerResults != null){// 有识别结果}else {//  识别结果为空}} catch (MLException mlException) {// 失败的处理逻辑。// 获取错误码,开发者可以对错误码进行处理,根据错误码进行差异化的页面提示。int errorCode = mlException.getErrCode();// 获取报错信息,开发者可以结合错误码,快速定位问题。String errorMessage = mlException.getMessage();}
  1. 完成后,释放资源
if (ner != null) {ner.stop();
}

了解更多详情>>

访问华为开发者联盟官网
获取开发指导文档
华为移动服务开源仓库地址:GitHub、Gitee

关注我们,第一时间了解 HMS Core 最新技术资讯~

在线文本实体抽取能力,助力应用解析海量文本数据相关推荐

  1. 文本分类模型_多标签文本分类、情感倾向分析、文本实体抽取模型如何定制?...

    文心(ERNIE)是依托百度深度学习平台飞桨打造的语义理解技术与平台,集先进的预训练模型.全面的NLP算法集.端到端开发套件和平台化服务于一体,为企业和开发者提供一整套NLP定制与应用能力.在2020 ...

  2. NLP专栏简介:数据增强、智能标注、意图识别算法|多分类算法、文本信息抽取、多模态信息抽取、可解释性分析、性能调优、模型压缩算法等

    NLP专栏简介:数据增强.智能标注.意图识别算法|多分类算法.文本信息抽取.多模态信息抽取.可解释性分析.性能调优.模型压缩算法等 专栏链接:NLP领域知识+项目+码源+方案设计 订阅本专栏你能获得什 ...

  3. java 接收前台富文本_java 解析富文本处理 img 标签

    很多项目都需要到富文本来添加内容,就好比新闻啊,旅游景点之类的,都需要使用富文本去添加数据,然而怎么我这边就发现了两个问题 1)怎样将富文本的图片的 src 获取出来? 2)后台上传的时候用的是相对路 ...

  4. 中文文本关键词抽取的三种方法-python

    利用Python实现中文文本关键词抽取的三种方法 转自github 文本关键词抽取,是对文本信息进行高度凝练的一种有效手段,通过3-5个词语准确概括文本的主题,帮助读者快速理解文本信息.目前,用于文本 ...

  5. Python文本整理案例分析:《全唐诗》文本整理

    在整理<全唐诗>的文本之前,我们首先需要完成以下两个步骤: 确定需求 了解文本 在完成以上步骤后,我们开始实际着手整理文本,在整理的过程中大体上也包含两个流程: 文本解析 结果输出 全唐诗 ...

  6. PaddleNLP通用信息抽取技术UIE【一】产业应用实例:信息抽取{实体关系抽取、中文分词、精准实体标。情感分析等}、文本纠错、问答系统、闲聊机器人、定制训练

    相关文章: 1.快递单中抽取关键信息[一]----基于BiGRU+CR+预训练的词向量优化 2.快递单信息抽取[二]基于ERNIE1.0至ErnieGram + CRF预训练模型 3.快递单信息抽取[ ...

  7. 时间语义解析工具 Python版,从文本中提取时间,并解析其含义,在线使用,时间语义识别

    时常我们需要从文本中,提取出时间信息,并将这个信息标准化,例如: [新华社报2021-9-9]国家统计局今天发布了2021年8月份全国CPI(居民消费价格指数) 需要从中抽取出 2021-9-9 和 ...

  8. Android开发--使用实体类解析JSON文本

    Android开发–使用实体类解析JSON文本 在Android开发过程中,涉及到了API的调用的时候,会返回特定的数据,两个主流返回的数据格式是JSON形式和XML形式.但是相对于XML,JSON数 ...

  9. 【DBpedia Spotlight】知识图谱实体链接/抽取文本实体

    修改论文模型时需要对DBpedia进行实体链接,官方的DBpedia Spotlight就非常好用,特此记录. 1 Docker 由于DBpedia Spotlight需要部署到服务器中,官方Gith ...

最新文章

  1. 【MySQL解惑笔记】忘记MySQL数据库密码
  2. 用PHP代码实现简单的工厂模式,用PHP代码实现简单的工厂模式
  3. C语言程序的基本结构
  4. 【NLP】全方位解读 | Facebook的搜索是怎么做的?
  5. xml转svg_C# Excel 转PDF/图片/HTML/TXT/XML/XPS/CSV/ODS/SVG/EMF
  6. ASP.NET MVC 学习之路-5
  7. intellij idea开发工具
  8. CentOS7下RabbitMq安装和开机自启动配置
  9. 电商网站交易记录设计
  10. pad 迅雷 bt php_iOS永久版迅雷来了 BT、磁力链下载最全教程收好
  11. B4A-Basic4android
  12. php实现微信小程序登录(根据微信小程序接口更新最新教程)
  13. linux限制syslog大小,c – 如何限制syslog管理的日志文件的总大小?
  14. 龙贝格算法例题_数值分析实验报告——龙贝格求积算法 椭圆周长公式
  15. 【区块链】(2)区块链概念与体系
  16. 计算机组成原理学习(哈工大视频)第六章 计算机的运算方法
  17. 零基础 Python学习
  18. GNT《谷蓝尼牧场》游戏将正式开通超级节点申请
  19. WCF:学习Artech大哥的入门程序
  20. Fotophire Toolkit(图片处理软件)v1.3.1中文版

热门文章

  1. 利用H5+实现APP在线更新
  2. Android 如何选择城市-CityPicker
  3. 【转】 组合 组合 各种组合
  4. springboot的学习(2)
  5. 手写一个简易版本的RPC
  6. ArangoDB数据库——AQL常用函数(二)
  7. 客户售后服务工作单管理系统 下载
  8. 支持向量机SVM(三)软间隔与松弛变量的替代损失函数
  9. rap2检测哪些接口在使用_使用RAP2和Mock.JS实现Web API接口的数据模拟和测试
  10. Facebook在安全漏洞后重置对9000万账户的访问权限