在上一篇文章《基于Gate的中文信息抽取API调用方式--未成功》中本来想采用Gate中的中文插件进行命名实体识别,但是没有成功,最后只能通过扩展Gate中的ANNIE插件来实现了。

ANNIE是Gate中用于英文信息抽取的插件,可以实现英文中的诸如命名实体识别等任务。要想处理中文信息需要对ANNIE进行扩展,包括扩展词表以及规则。ANNIE的主要词表为主目录是ANNIE\resource\gazetteer,后缀名为lst词表文件中存放着词语,词表以UTF-8编码,每个词语独立一行。Gate需要一个索引文件确定词表文件以及类别之间的对应关系,一般为lists.def,内容形如

airports.lst:location:airport

其中airports.lst为词表文件,location是为词表指定的主要类型,airport为指定的次要类型。这些词表会编译成有限状态机,用于后续过程调用。

语法规则指定需要识别的特定类型,以jape为后缀的文件均是存放的语法规则,放置目录为ANNIE\resource\NE,可以根据自己的需要进行扩展。main.jape存放着所需要的所有规则文件名称。

具体的代码和执行过程与前一篇中的内容一致,主要区别在于加载ANNIE。

 public void initAnnie(){Out.prln("Initialising ANNIE...");try {annieController = (SerialAnalyserController) PersistenceManager.loadObjectFromFile(new File(new File(Gate.getPluginsHome(),ANNIEConstants.PLUGIN_DIR), ANNIEConstants.DEFAULT_FILE));} catch (PersistenceException e) {logger.error(e.getMessage());e.printStackTrace();} catch (ResourceInstantiationException e) {logger.error(e.getMessage());e.printStackTrace();} catch (IOException e) {logger.error(e.getMessage());e.printStackTrace();}Out.prln("...ANNIE loaded");} 

执行结果良好,能够达到我的需要。

基于Gate的ANNIE插件的中文信息抽取相关推荐

  1. 基于Bert-NER构建特定领域中文信息抽取框架

    向AI转型的程序员都关注了这个号???????????? 机器学习AI算法工程   公众号:datayx 知识图谱(Knowledge Graph)主要由实体.关系和属性构成,而信息抽取(Inform ...

  2. C.8 基于ERNIELayoutPDFplumber-UIEX的多方案学术论文信息抽取

    NLP专栏简介:数据增强.智能标注.意图识别算法|多分类算法.文本信息抽取.多模态信息抽取.可解释性分析.性能调优.模型压缩算法等 专栏详细介绍:NLP专栏简介:数据增强.智能标注.意图识别算法|多分 ...

  3. 基于DGCNN和概率图的轻量级信息抽取模型

    作者丨苏剑林 单位丨追一科技 研究方向丨NLP,神经网络 个人主页丨kexue.fm 前几个月,百度举办了"2019语言与智能技术竞赛" [1],其中有三个赛道,而我对其中的&qu ...

  4. paddle 图标注_基于DGCNN和概率图的轻量级信息抽取模型

    作者丨苏剑林 单位丨追一科技 研究方向丨NLP,神经网络 个人主页丨kexue.fm 前几个月,百度举办了"2019语言与智能技术竞赛" [1],其中有三个赛道,而我对其中的&qu ...

  5. 基于语义和规则的Web网页细粒度信息抽取方法

    基于语义和规则的Web网页细粒度信息抽取方法 王晓飞11 (北京邮电大学模式识别实验室) 摘要:本文在利用语义和规则的基础上,提出了一个Web网页信息细粒度抽取的方法.方法首先,利用Web网页的结构和 ...

  6. 实体-关系信息抽取上线使用F1值87.1% (附数据集)

    向AI转型的程序员都关注了这个号???????????? 机器学习AI算法工程   公众号:datayx 基于 TensorFlow 的实体及关系抽取,2019语言与智能技术竞赛信息抽取(实体与关系抽 ...

  7. JavaFX和可视化信息抽取

    1.阅读说明 本篇博客是非介绍类的,即,不含有关于JavaFX的基础介绍.博客主要描述实现可视化信息抽取时,如何利用JavaFX的WebView组件.仅介绍涉及到的JavaFX的内容,至于可视化信息抽 ...

  8. ####好好好######信息抽取——实体关系联合抽取

    信息抽取--实体关系联合抽取 目录 简介 实体关系联合抽取 Model 1: End-to-End Relation Extraction using LSTMs on Sequences and T ...

  9. 面向知识图谱的信息抽取

    面向知识图谱的信息抽取 人工智能技术与咨询 点击蓝字 · 关注我们 来源:< 数据挖掘,> ,作者赵海霞等 关键词: 知识图谱:信息抽取:实体抽取:关系抽取:开放域 摘要: 摘要: 随着大 ...

最新文章

  1. AI录音笔一战成名!搜狗以语言AI为核心重点突破多点开花
  2. 一条数据的HBase之旅,简明HBase入门教程-Write全流程
  3. python文件读写库_【8】python文件的读写方法
  4. 微信摇一摇插件ios_iOS实现微信摇一摇功能
  5. PHP 通过设置P3P头来实现跨域访问COOKIE
  6. Docker上部署FTP服务器(基于stilliard/pure-ftpd)
  7. Oracle 函数进阶、分组排序、列转行、cast 类型转换、dbms_random 生成随机数、sys_guid
  8. webpack 图像压缩_基于 TinyPNG 封装的一个支持nodejs、命令行和 webpack 的图片压缩工具...
  9. Python从入门到入土-基础知识准备
  10. 详细版【卷积神经网络CNN】基础模型(邱锡鹏)
  11. 2018Web前端面试题及答案大全
  12. Python数据挖掘实战-唐宇迪-专题视频课程
  13. 妙计旅行一面试题:字符串反转
  14. SWUN 1423 - 伊邪那美
  15. 键盘右边数字键不能用,只能当方向键使用
  16. 应用层加密方_加密应用层数据之前要问的6个问题
  17. Git帝国之tag大臣
  18. Windows 环境JDK环境配置
  19. python matplotlib绘制 3D图像专题 (三维柱状图、曲面图、散点图、曲线图合集)
  20. 读书感受 之 《菊与刀》

热门文章

  1. iOS笔记059 - 网络总结
  2. 市场调研报告-全球与中国溶剂净化器市场现状及未来发展趋势
  3. web自动化如何在不同浏览器运行_从理论到工具:带你全面了解自动化测试框架...
  4. VR,正在上演一出“风月宝鉴”
  5. bulk这个词的用法_bulk是什么意思
  6. Zoom视频会议软件使用
  7. 使用网络调试助手连接阿里云平台
  8. day05 【异常、线程】
  9. 弹窗代码大全window.open
  10. 小白自学CAD教程:706集全网最新CAD学习教程,一学就会