DocuSky是一个个人化的数位人文协作平台,可以为研究者提供一些数位人文研究的服务。并且同马库斯、CBDB、Palladio有着兼容性,可以实现跨平台操作,形成更全面的工作流程和功能。

北京大学工作坊教程视频链接

图源:北京大学数字人文工作坊简报

首先我们可以通过多种方式来获取原始的文本,例如维基百科,网站爬虫,资源下载,或者ocr。在我们得到这些文本之后,如果想对其中涉及的人物、地名、书名、时间等等多种类的词进行分析时,往往需要进行词性标注、替换等。举个简单的例子,《魔道祖师》中的魏无羡,名字叫魏婴,号夷陵老祖,对话中也会被称作魏公子,在我们进行文本分析的时候就要把所有指代一个人的词都换成一个,例如魏无羡,以方便后面的统计词频、趋势变化等工作。那么今天就以人名地名的提取为主要的目的,以国语版《海上花列传》为例,来带大家熟悉一下Docusky强大的建库工作。

首先我们需要对txt或者word格式的文本进行一个结构化的工作,来整理成一个excel表:

建库前的excel表

当然,这些字段也可以根据需要进行替换。但是要注意的是,Filename这一字段一定要有,并且值唯一,不能有重复项。并且由于识别排序的问题,应该使用001、0001的计数方式,否则顺序就会发生错误(血的教训)。具体前面几个0应该根据数据总条数调整,例如一共有1200个数据,那么编号就应该是0001-1200。

接下来,让我们进入Docusky进行建库工作。

工具界面

工具界面分成了7大种类,可以根据需求进行选择。因为建库需要.xml文件,所以我们需要将我们的excel转换成.xml文件。使用转换文本格式标签下的表格文本转换工具。

选择表格文本转换工具(新版)
网站上的说明

传入刚才的表格,点全选,再下一步。

文献集名称选择资料表名称就可以,唯一编号就选filename

栏位设置

第一个和最后两个不用填。这里可以将excel表里的每一列对应到数据库中并在特定标签下显示。

这一步可以增加自定的栏位。可以满足个性化的需求。之前在建excel的时候为每个事件都填写了属于什么类型的动作,所以这里可以增加动作栏位。

设置最主要的部分:内文

在这里可以设置刚才没有设置的正文部分。

到这里建库基本结束,命名之后最好下载一份,并且点击建库到DocuSky上。在下面可以预览,如果发现错误的话可以返回修改。

建库需要一些时间。等待状态为OK时说明建库成功了。

虽然说建完了库,但是我们的最终目标还没达到。人名地名还没标注。我们自己做了人名地名字典,需要按照格式再准备一个excel表:tagVal内填所有属于人/地名的词,Term填权威词,即将前面的词全部替换为一个词。最后一项可以附上该人物在CBDB的链接,建库之后可以点击进入该人物库中查看。这里暂且不填。

人地名字典示意

填好之后,我们需要构建一个新的标记人地名称字典的库。

点击标记与编辑标签下的批次标记工具,进入界面需要加载两个文件:一个是xml文件,另一个是刚才的人地名字典excel文件。点击输出,会得到一个CT-开头的文件。

工作还没有全部完成,继续来到建库与重整标签,选择诠释资料管理工具。

选择刚才CT开头的xml文件,

后分类显示顺序可以调整其在自订后分类显示的顺序。比如我们把complication_name调成1,在数据库中目录就会第一个显示。

下拉会出现这一栏,可以在自定展示标题处写上自己比较好分辨的名称。我们可以写成人名和地名。

最后会输出一个以-M结尾的文件。我们点开自己的资料库:

命名后点浏览,上传刚才的xml文件即可。至此所有建库工作全部结束。

接下来可以看一下成果:

数据库一览

人地名都被标记了。还可以点击右上角的Tag,进行词云、筛选等多种操作。在想查看的人物前面打勾,再进行筛选/过滤等等操作,就可以只看他出场的章节。

Tag分析

点第一个云的标签,可以用词云的方式显示:

《海上花》词云图

此外还可以用词缀工具查看与特定词相连的词。比如我们想看洪善卿的后两个出现过什么字,我们可以设置如下的检索式:

洪善卿后两个字的检索结果

这个功能可以帮我们词与词之间潜在的语义关系。

那么建库完成了,我们从哪获取数据来进行下一就要用到词汇分析工具:到本地开展下一步分析呢?我们再次从首页的探勘与分析标签页下找到标记与词汇分析工具。

我们直接来到corpus,因为是直接从docusky我们自己的库中被标注好的文本进行分析,所以步骤相对简单。当然也可以直接传入一个未被标注的文档和一个希望查看词频的文档进行标记并进行词频统计。步骤是相似的。

点击method2里面的蓝色按钮传入文件,就直接跳到Analysis一栏,因为我们直接用的库里的文件,所以点击右面的选项卡,把人名地名都勾选上点击run。

分析结果

可以看到分析结果导出方式有3种,我们分别来看看:

第一种:基本词频

基本词频文件

基本

提供了TF(词频)IDF(逆向文件频率),两者乘积可以看这个词在文本中的重要程度。

再来看第二个:

以文件来分类的结果

以及第三个:

以term来分类的结果

前者是以每个filename做一行,把这句话里面的地名、人名分别提了出来。后者是以每个term做一行,其实就相当于前者的拆分。使用者可以根据需求自行判断。

本次的分享就到这里,来看看通过平台实现的结果:

人地共现网络

开头和结尾标记 在不同系统_文本标记的宝藏平台——Docusky相关推荐

  1. 开头和结尾标记 在不同系统_写人作文的写作技巧。含思维导图、开头结尾写法及范文分析...

    从小到大,我们接触了形形色色的人.有无微不至地关怀着我们的亲人,有朝夕相处的老师和同学,有从小玩到大的小伙伴,有从事着各种工作的街坊邻居,甚至有在不经意间给了我们鼓励和帮助的陌生人--那么,写人的作文 ...

  2. ljd-2008+下载式多功能实验开发系统_运动控制模型仿真实验平台(YXMCP-ATCA-150)...

    电力电子实验台|光伏并网逆变器|电机测试台架|智能微电网-南京研旭电气​www.njyxdq.com 动控制模型仿真实验平台介绍: 传统的方式对嵌入式算法的编写以及实物调试都有比较高的要求,控制板性能 ...

  3. HTML文档包应含几个基本标记,HTML基本结与常用标记.doc

    HTML基本结与常用标记 附录A HTML基本结构与常用标记 1 HTML简介 我们在浏览器上看到的网页其实是HTML文件构成的,HTML是"Hypertext Markup Languag ...

  4. html文档定一层的标记,HTML基本结构和常用标记.doc

    HTML基本结构和常用标记 附录A HTML基本结构与常用标记 1 HTML简介 我们在浏览器上看到的网页其实是HTML文件构成的,HTML是"Hypertext Markup Langua ...

  5. Python 单下划线(“_“)与双下划线(“__“)以及以双下划线开头和结尾的的区别

    由于python 中没有java 语言中的private ,public, protected 之类的,就引用了下划线. 单下划线的作用: 以单下划线("_")开头的模块变量或者函 ...

  6. aes 结尾 特殊字符_乔迁庆典主持词开头及结尾

    摘要: 乔迁庆典主持词开头及结尾为你介绍乔迁庆典主持词开头及结尾 [导语]主持词已经成为各种演出活动和集会中不可或缺的重要组成部分.可以说,主持... [导语]主持词已经成为各种演出活动和集会中不可或 ...

  7. 匹配一个字符串的开头和结尾_我如何构建一个应用程序来展示精彩小说的开头和结尾

    匹配一个字符串的开头和结尾 I know sentences. In my decade as a print journalist, I've written hundreds of article ...

  8. java 正则匹配 sql星号,18. 正则表达式:开头、结尾、任意一个字符、星号和加号匹配...

    Re: MySQL 查询与高级查询(多表.嵌套和正则表达式) (查询的能力,亦显示DBA的功力) ============================================= 数据库管理 ...

  9. “操作系统不以 C 开头和结尾,C 不等于整个世界”

    整理 | 张仕影 出品 | CSDN(ID:CSDNnews) 众所周知,C 是一种被广泛使用的语言,从操作系统内核到加密算法的编写,到处都在使用 C,它在多个领域发挥着重要作用.不久前,国外一位 S ...

最新文章

  1. GPT-3等三篇论文获NeurIPS2020最佳论文奖 | AI日报
  2. opsforlist 存在贼覆盖_RedisTemplate常用集合使用说明-opsForList(三)
  3. php 规格,PHP 设计模式系列之 specification规格模式_PHP
  4. hive与依赖环境的交互
  5. attempt to write a readonly database 错误
  6. react 引入html文件_React最快速上手教程
  7. python画羊_羊车门作业 Python版
  8. OpenGL基础53:阴影映射(下)
  9. lora三层服务器协议,lorawan协议(lora无线传输协议与HTTP协议)
  10. 判断素数的方法(java)
  11. GP2Y0E03 红外 测距 传感器 MSP430 G2553 单片机 程序
  12. 潘丽云:魏尔斯特拉斯的复变函数思想分析(2009)(2011-01-14 22:34:30)
  13. GDAL(Geospatial Data Abstraction Library )简介
  14. 搭建容器私有创库Harbor
  15. AFX_PMSG数据结构
  16. 唯有卡拉特拉瓦,才敢让建筑飞起来!
  17. Java中synchronization和Lock对比
  18. inurl:php?title=,查看“岗梅”的源代码
  19. 35 米色系网页设计
  20. adb logcat 命令

热门文章

  1. qt android 对话框,Qt自定义Dialog
  2. SQL语言之DQL语言学习(七)分组查询
  3. Python基础入门:分支及循环
  4. 10行Python代码自动清理电脑内重复文件
  5. Python格式化字符串知多少
  6. delphi 解析json java_Delphi处理JSON格式数据
  7. C语言编译报错:incompatible pointer type [-Wincompatible-pointer-types](传参类型不匹配)
  8. C++内联 inline的用法
  9. IDLE 策略算法 放置奇兵 小破船翻船记录(悬空岛——冒险(航海))
  10. tensorflow tf.is_gpu_available() (判断GPU是否可用)