一、数据处理
1.1、 Loading raw input data

  • 下载数据
//将数据下载到 /input 文件夹下
bash <(curl -fsSL git.io/getdeepdive) spouse_example// 或者使用如下指令下载
bash deepdive load articles input/articles-1000.tsv.bz2
  • 为这些数据在 app.ddlog 声明一个表格
articles(id      text,content text
).
  • using the input/articles.tsv.sh script, 运行,创建表,然后获取和加载数据,将input文件中的对应的文件导入postgresql数据库中
//建立链接(第一个参数为数据文件)
ln -s articles-1000.tsv.bz2 input/articles.tsv.bz2// 执行脚本,同时会下载 Stanford's CoreNLP
deepdive do articles
// 查看是否导入成功,该指令会显示所匹配的字段
deepdive query '?- articles(id, _).'

1.2. Adding NLP markups
使用 Stanford’s CoreNLP 进行归一化词形、词性标注、命名实体识别、依存句法分析等工作。

  • 现在来声明 output schema 结构 。

// In DDlog // ----------------------------- sentences(doc_id         text,sentence_index int,sentence_text  text,tokens         text[],lemmas         text[],pos_tags       text[],ner_tags       text[],doc_offsets    int[],dep_types      text[],dep_tokens     int[] ).
  • 使用 nlp_markup.sh 来调用封装好的 CoreNLP,CoreNLP 库 需要Java 8 支持。
# In DDlog
#-----------------------------
function nlp_markup over (doc_id  text,content text) returns rows like sentencesimplementation "udf/nlp_markup.sh" handles tsv lines.
  • 最后,指定 nlp_markup 函数在文章中的每一行都运行,并将输出的追加到 sentences 中
// In DDlog
// -----------------------------
sentences += nlp_markup(doc_id, content) :-articles(doc_id, content).
  • Again, to execute, we compile and then run (每当 DDlog 内容被改变,都要重新编译):
deepdive compiledeepdive do sentences 
  • 此时进行查看,将有 tokens and NER tags
deepdive query 'doc_id, index, tokens, ner_tags | 5?- sentences(doc_id, index, text, tokens, lemmas, pos_tags, ner_tags, _, _, _).
'

【DeepDive Tutorial 】Extracting mentions of spouses from the news相关推荐

  1. 【Unity/Tutorial】官方AircraftJetAI(四)喷射机首飞

    目录 说在前面 系列目录 相关函数 移动喷射机 添加刚体/BoxCollier组件 控制器脚本 用户控制脚本 飞行录像 说在前面 Unity版本:2017.4.37 资源下载:这个资源是官方自带的资源 ...

  2. 【Java Tutorial中文版 开篇综述】 Oracle(甲骨文)公司Java最新官方教程【译文】

    (新出的目录功能我也不太会弄,本来只有4个子目录的,不知道系统怎么默认成10多个了,会挑目录的麻烦评论留言指导. ) Java Tutorial 此篇为[Java Tutorial]系列开篇综述.Ja ...

  3. github(desktop)使用教程(三) 【保姆级】{desktop tutorial repository,创建分支,编辑文件,保存修改,commit,publish to github}

    此篇详解如何用github desktop创建一个仓库 首先点击creat a tutorial(指导性的) repository  成功后的界面(这里我试过几次才成功,如果出现问题就仔细阅读错误提示 ...

  4. 【C++基础】【集成编译环境01】Clion的C++编译环境和Boost Test Framworks框架运行实践

    本文项目源码链接: CLionboostunittestframeworks项目源码-C++文档类资源-CSDN文库 前言和行文思路: VScode.Clion.Pycharm都是集成环境的编辑器,他 ...

  5. 2006年上半年 网络工程师 上下午试卷【附带答案】

    2004-2017年真题+答案[0.23RMB]自取 2006年上半年 网络工程师 上午试卷 ● 高速缓存Cache与主存间采用全相联的地址影像方式,高速缓存的容量为4MB,分为4块,每块1MB,主存 ...

  6. 【Android 逆向】ART 脱壳 ( DexClassLoader 脱壳 | oat_file_assistant.cc 中涉及的 oat 文件生成流程 )

    文章目录 前言 一.dalvik_system_DexFile.cc#DexFile_openDexFileNative 函数分析 二.oat_file_manager.cc#OpenDexFiles ...

  7. 【面向代码】学习 Deep Learning Convolution Neural Network(CNN)

    转载自: [面向代码]学习 Deep Learning(三)Convolution Neural Network(CNN) - DarkScope从这里开始 - 博客频道 - CSDN.NET htt ...

  8. 【信息抽取】NLP中关系抽取的概念,发展及其展望

    事物.概念之间的关系是人类知识中非常重要的一个部分,但是他们通常隐藏在海量的非结构文本中.为了从文本中抽取这些关系事实,从早期的模式匹配到近年的神经网络,大量的研究在多年前就已经展开. 然而,随着互联 ...

  9. 【AI杂谈】从一篇参考文献比正文还长的文章,杂谈深度学习综述

    欢迎来到专栏<AI杂谈>,顾名思义就是说一些比较杂的有意思的东西了,任何东西都有可能. 今天首先介绍一篇文章,2014年的一篇深度学习综述,<Deep learning in Neu ...

最新文章

  1. Rabbitmq后台运行命令
  2. 运维实战案例之文件已删除但空间不释放问题解析
  3. css flexbox模型_CSS Flexbox在全国范围内的公路旅行中得到了解释
  4. python小数点进位小学数学_python小数的进位与舍去的介绍(附代码)
  5. Web前端JavaScript笔记(3)对象
  6. Ajax提交表单数据(包含文件)
  7. 【PyQt】PyQt4使用qt-designer进行设计
  8. oracle 12c 自增序列
  9. 已解决:git push代码出现Support for password authentication was removed on August 13, 2021.
  10. 使用Python画玫瑰花
  11. Python 外星人入侵游戏(一):武装飞船(上)
  12. VSCode 单文件编译 与 多文件编译(windows)
  13. U盘Linux启动引导
  14. 分区助手扩大C盘,亲测有效
  15. Kaggle与机器学习流程
  16. linux下查询主机名和主机ID
  17. iOS 应用退到管理后台 左上角图片未更新(或不显示)
  18. C++/CLI 托管C++的托管与非托管字符串的相互转换【1】
  19. LINUX-模块化编程
  20. fanuc机器人四边形编程_Fanuc焊接机器人编程小例子

热门文章

  1. 制作适应手机网页、平板电脑(iPad)、电脑网页的三种方法
  2. 核心技术及创新点怎么写
  3. power 相关:(二)功耗的分析 —— power compiler
  4. (n++)+(n++)+(n++)与(++n)+(++n)+(++n)的区别
  5. 梦幻无穷的幻灯片切换效果
  6. Gurobi--Error code: 10005. Unable to retrieve attribute solved ‘Pi‘ 解决
  7. SQL2008服务器连接失败
  8. GitHub 小白入门
  9. python爬虫80行代码拿下喜马拉雅有声书
  10. 深度学习和神经网络的介绍(一)