无论您是管理分类法以将企业中的业务流程集成,管理分配给内容的关键字以进行更智能的检索,还是管理大型基于Web的零售站点的菜单,您都可能会发现分类法管理工具将数据存储在专有的二进制格式,无法很好地迁移到其他工具。 基于标准的表示数据的方法可以帮助您集成来自多个来源的词汇数据,同时减少对专有工具的依赖。

受控词汇表,分类法和叙词表:有什么区别?

受控词汇表是一列术语,这些术语定义了某些事物的潜在价值,例如,一组新闻报道的可能主题或美国各州的官方两个字母缩写。 分类法是按层次结构排列的受控词汇表,用于显示术语之间的关系。 一组新闻报道的可能主题很可能是这种受控词汇,其中“获取”和“行政招聘”是层次结构“商业新闻”节点的子级。

这些关系是元数据,例如,这些数据指示有关被聘用的高管的故事是商业新闻故事的一种,或者动物分类法中的腊肠狗是一种狗。 当具有分类意识的图像搜索引擎将标记为“腊肠犬”的图片返回给搜索“狗”图片的人时,它将利用此元数据来帮助搜索者从图像集中获得更大的价值。

同义词库通常是一个分类法,其中包含有关每个术语的其他元数据,例如替代术语(例如,“狗”的“ mutt”)和可能会或可能不在同一层次结构中的相关术语的指针(例如,“ doghouse”代表“狗”)。 专门从事叙词表的创建和维护的人们通常被称为分类学家,可能是因为“叙词学家”一词听起来太像“叙词表”,或者可能是因为“叙词表”提醒了元数据管理领域之外的人们过多的同义词书籍。用作书写工具的列表,例如Roget的词库 。

简单知识组织系统(SKOS)是W3C标准,建立在W3C的RDF,RDFS和OWL规范的基础上,以提供表示受控词汇表的标准模型。 您可以将SKOS用于平面列表,还可以用于带有其他元数据(例如分类法和词库)的结构化受控词汇表。

由于SKOS是使用RDF模型定义的,因此很容易读取和创建XML格式的数据。 对SKOS越来越多的工具支持意味着使用它不需要了解相关的W3C标准,但是您了解的越多,您就越会利用SKOS的可扩展性在词汇表中包括可能不属于SKOS的自定义元数据标准。

从纽约时报,美国国家航空航天局到联合国粮食及农业组织等组织都可以在SKOS中获得其主题清单,因此该标准还使重用知名词汇变得更加容易,并且可以在您的内容与使用该内容的其他内容之间建立联系相同的词汇。

术语与概念和标签

词汇管理系统始终具有管理术语以及术语与其他元数据之间的关系的结构。 SKOS对您所管理的内容有更高的了解,这使国际化变得更加容易。 例如,一个较旧的系统可能会存储术语“狗”和“哺乳动物”或“达克斯猎犬”或“斗牛犬”。 术语“杂色”将是一个单独的术语,而“狗”将具有分类学家所称的“杂色”使用关系-如果为照片分配关键字的人希望将“杂色”一词分配给Lassie图片,词汇应用程序会指示他改用“狗”一词。 “ perro”一词可能与“ dog”一词具有“西班牙语”关系,而“ chien”可能与该词具有“法语”关系,但是西班牙用户想知道法语中“ perro”一词可能无法在不知道他们与英语术语之间有联系的情况下进行查找。

这种布置的另一个缺点是术语“杂色”和“ perro”与术语“猫”或“加托”(西班牙语)一样与“狗”分开。 即使“杂色”,“狗”和“ perro”指的是同一件事,也必须明确指定它们的关系。 图1在图中显示了这些关系。 实线箭头表示“比...大”的关系(哺乳动物对猫和狗;狗对牛头犬和腊肠),而虚线箭头分别标记为西班牙语(“ perro”)或法语(“ chien”)的“狗”,西班牙语为“ chucho”和英语(“ mutt”)为“狗”的备用术语,西班牙语为“猫”(“ gato”)。

图1. SKOS之前的分类中的示例标签关系

使用SKOS,您可以管理带有不同种类标签的概念,并且每个标签都可能具有与其关联的语言。 最重要的标签是首选标签,SKOS允许每个概念在每种语言中只有一个。 单个概念可以使用英语的“ dog”标签,西班牙的“ perro”标签和法国的“ chien”标签。

常用缩略语
  • OWL:Web本体语言
  • RDF:资源描述框架
  • RDFS:RDF架构
  • SKOS:简单知识组织系统
  • SKOS-XL:标签的SKOS扩展
  • SPARQL:SPARQL协议和RDF查询语言
  • URI:通用资源标识符
  • W3C:万维网联盟
  • XML:可扩展标记语言

另一种标签是替代标签,基于SKOS的软件可能会使用该标签来表示正在跟踪但不建议使用的标签。 例如,带有英语首选标签“ dog”的概念可能具有英语替代标签“ mutt”和西班牙语替代标签“ chucho”。 “ dog”,“ perro”,“ chien”,“ mutt”和“ chucho”不是必须单独输入其关系的单独术语,而是指相同的概念,根据需要提供有关该概念的不同信息。每个应用程序。 图2说明了图1中的信息重新排列为SKOS概念,带有更少的箭头,并且术语之间的关系更清晰。 (与前面的图一样,实线箭头表示“比...大”的关系。)每个概念的实际标识符(可能被词汇管理应用程序隐藏在标题下)是URI。 (查看图2的纯文本版本 。)

图2. SKOS中的示例概念关系

比较两个图表时,您可以在图1中看到“ perro”和“ mutt”只是“ dog”所指向的附加术语“ bulldog”和“腊肠”,但是在图2中您可以看到“ “ perro”和“ mutt”是指同一概念,而“ bulldog”和“ dachshund”是不同的概念。

除了“更广泛”之外,概念在SKOS中还可以具有多种关系。 在不同的分类法中,带有英语首选标签“ dog”的概念可能与“ doghouse”概念具有“相关”关系。 因为SKOS使用唯一的URI作为概念标识符而不是标签本身,所以即使在NASA或《纽约时报》维护的情况下,您也可以在世界上任何可访问的SKOS词汇表中定义给定概念与任何概念之间的关系。

联合国粮食及农业组织针对渔业和农业等与食品相关领域的AGROVOC辞典必须服务于真正的国际受众。 一个AGROVOC概念可以具有十几种语言的首选标签,甚至还有更多替代标签,因为您可以从每种语言为给定概念指定的替代标签数量没有限制。 SKOS使用具有标签属性的概念使术语的多语言跟踪比组织术语表数据的较旧的基于术语的方法要容易得多,这反过来又使来自不同文化背景的人们之间在食品问题上的交流变得更加容易。

更多元数据

除了上述的首选和替代标签以及概念之间的关系之外,SKOS还使您可以存储术语的定义,范围说明,历史记录以及有关每个概念的各种其他属性。 由于使用W3C的OWL标准定义本体来定义SKOS,因此很容易定义和使用词汇表中的概念,这些属性是针对您的行业或企业的特定属性。

这些属性可以来自其他数据和元数据标准,例如Dublin Core词汇表,为金融行业开发的市场数据定义语言或由美国国会图书馆开发的元数据对象描述架构。 它们还可以是特定于您公司系统的属性,并且没有人可以使用,因为它们是您管理信息的附加值的一部分。 例如,一家制药公司可能会在动物分类法中定义新的“需要”关系,以指向另一分类法中有关兽医疫苗的数据中的概念。

基于SKOS的用于编辑和管理词汇的工具应了解,可扩展性是该标准的一部分。 当您使用该数据时,SKOS规范之外的其他属性应成为其界面的一部分,并显示在表单和报告中以及标准化的SKOS属性。

更详细的元数据:SKOS-XL

尽管用于指定SKOS的OWL语言与面向对象的方法在数据建模方面有一些关键的区别,但它有一个重要的共同点:您可以通过声明类,子类和属性来定义数据模型(或者使用以下对象:面向对象的术语,属性)。 SKOS本体定义了Concept类,并且将首选标签,替代标签以及与其他概念的关系建模为该类的属性。

您可以将所需的所有元数据分配给一个给定的概念,但是SKOS没有提供将元数据分配给特定标签的方法。 如果要存储描述标签“ chucho”的来源,上次编辑的时间或编辑者的数据,该怎么办?

为了适应这种情况,W3C发布了SKOS标签扩展(SKOS-XL)规范,其中概念的首选标签,替代标签和其他标签的值不是字符串,而是扩展规范定义的新Label类的成员。 作为类的实例,这些标签可以具有要分配给它们的所有元数据,这为您提供了更大的灵活性。

简化元数据集成

之前我提到过,因为SKOS使用唯一的URI作为概念标识符,所以您可以定义给定概念与您知道URI ID的任何其他基于SKOS的概念之间的关系,无论该ID是与给定概念处于同一分类法还是位于不同分类法中由另一家公司在网络上发布。 对于介于以下两个极端之间的情况,此功能也非常有用:当同一企业中的不同组有自己的词汇表要管理时,将这些词汇表集成到集中管理的单个词汇表中弊大于利,因为词汇表维护变得更多随着数据规模的增长而变得复杂,必须修改数据以在不同组的需求之间达成折衷。 市场部门和维修部门在使用“客户”一词时可能会表示不同的含义,并且这样做有充分的理由; 强迫他们两个使用相同的定义会降低他们两个人的词汇价值。

使用SKOS,您可以定义来自不同词汇表的概念之间的关系。 因此,定义明确的概念关系元数据使您可以将不同部门的词汇一起使用,而不必强迫您修改它们并将它们全部组合成一个不能完全满足任何组需求的整体式单个词汇。 这些关系可以是标准的SKOS关系,例如“相关”或“更广泛”(例如,您可能会说市场部门的“客户”概念比维修部门的概念更广泛),但是同样,您可以定义自己的自定义关系也一样

SKOS和语义网

当对语义技术感兴趣时,许多人担心,在构建第一个应用程序之前,他们必须学习RDF数据模型,表达它的各种语法,SPARQL查询语言以及如何使用RDF模式和OWL对数据建模。 当您使用基于SKOS的词汇管理器时,最有可能填写表格并使用典型的用户界面小部件来管理数据,而无需了解构成SKOS的基本W3C标准,但是,如果您选择了解一些有关它们的信息,您可以从数据中获取更多信息。 例如,您可以使用SPARQL查询语言来提出可能不属于词汇管理包的问题,​​并且如上所述,您可以定义新属性甚至类来跟踪更多自定义元数据。

您也可以将数据连接到各种数据,无论是否使用SKOS本体。 RDF数据模型连接独立创建的数据的能力使语义Web成为Web,而合并数据集的能力则是这种能力的重要回报。 例如,通过在网络上免费提供其基于SKOS的主题标头索引,《纽约时报》允许其他发布者将这些主题标头用于自己的内容,从而使这些发布者可以链接到相关的《纽约时报》文章。 更重要的是,对于《纽约时报》,它为标有这些主题标题的文章吸引了更多访问量。

将一些属性添加到SKOS数据并对其进行一些SPARQL查询后,您可以考虑定义除SKOS之外的新本体(或查找除SKOS之外的其他现有标准本体以进行扩展)并充分利用语义的优势Web技术。

工具类

任何可以编辑特定本体指导的数据的RDF工具都可以加载SKOS OWL本体,并允许您创建SKOS概念并使用适当的元数据填充其属性。 对于没有RDF背景的人员来管理词汇,可以使用以下几种工具:

  • TopQuadrant的企业词汇网(EVN)是基于SKOS数据模型构建的基于Web的商业协作系统,用于管理整个企业中的受控词汇。

  • PoolParty是一个商业词库管理和SKOS编辑器系统,包括文本挖掘和链接数据功能。

  • Protégé本体编辑器的SKOSed插件可让您编辑SKOS中表示的叙词表。 SKOSed和Protégé都是开源的。

  • iQvoc是用于管理可以导入和导出SKOS的词汇表的开源工具。

  • TemaTres是一个开源词汇管理器,可以将词汇数据输出为SKOS文件。

通过词汇管理工具导入和导出SKOS最终应与电子表格程序导入和导出逗号分隔值一样普遍。 如果您使用的分类管理程序不支持该标准,请告知其制造商您希望看到它。

SKOS的RDF基础也意味着您可以利用建立RDF的应用程序开发工具和库来构建自己的SKOS编辑系统,这比构建分类管理系统要快得多,在分类管理系统中,您必须自己定义和实现所有数据结构。

从小处开始并扩大规模

如果您要管理一个或多个大型,复杂的受控词汇表,则将其全部转换为使用新格式可能是一项庞大而昂贵的工作。 将一个子集转换为SKOS的试点项目要容易得多,如果转换几个不同的子集,然后通过定义跨词汇边界的适当概念关系最终将它们连接起来,您将开始看到SKOS在您自己的组织中的优势。 随着免费和商业软件对该标准的日益增长的支持,SKOS绝对值得那些管理词汇并对标准的好处感兴趣的人进一步研究。


翻译自: https://www.ibm.com/developerworks/xml/library/x-skostaxonomy/index.html

使用W3C SKOS标准改善您的分类管理相关推荐

  1. web学习 -- w3c dom标准

    W3C dom标准 W3C DOM 标准 核心 DOM - 针对任何结构化文档的标准模型 Document:文档对象 Element:元素对象 Node:节点对象,其他5个的父对象 XML DOM - ...

  2. 1.7.2 W3C代码标准及规范(完整版)

    W3C代码标准及规范(完整版) 文章目录 W3C代码标准及规范(完整版) 1. 概述 1.1 w3cinteraction domain 交互技术标准领域 1.2 w3cubiquitous web ...

  3. W3C代码标准规范--

    一:什么是W3C? W3C标准 万维网联盟标准.万维网联盟(外语缩写:W3C)标准不是某一个标准,而是一系列标准的集合.网页主要由三部分组成:结构(Structure).表现(Presentation ...

  4. w3c html标准验证,w3c验证

    w3c验证[编辑] 概述 w3c验证:由World Wide Web Consortium(W3C)提供的验证服务可以为互联网用户检查HTML文件是否附合HTML或XHTML标准.这可以向网页设计师提 ...

  5. W3C?什么是W3C相关标准?

    什么是W3C标准? 什是W3C标准: 不是一个标准,而是万维网联盟制定的一系列标准 网页主要由三部分组成:结构(Structure).表现(Presentation)和行为(Behavior). 对应 ...

  6. 阅读类型HTML,W3C HTML5标准阅读笔记 – 元素分类与内容模型(Content Model)

    HTML4中,元素被分成两大类: inline(内联元素)与block(块级元素).但在实际的开发过程中,因为页面表现的需要,前端工程师经常把inline元素的display值设定为block(比如a ...

  7. html samp如何转成块,W3C HTML5标准阅读笔记 - code、var、samp、kbd

    HTML5中,有4个标签与"代码"."程序"有关:code.var.samp.kbd. code 顾名思义,code标签用于标记计算机程序代码,一般仅包含小的代 ...

  8. W3C 代码标准规范

    直接附链接喽 https://www.w3cschool.cn/xuexiw3c/xuexiw3c-standards.html

  9. 深入了解W3C标准及规范

    引言 合格的前端工程师必须深入理解W3C标准和规范,很多前端招聘要求中也常常提到W3C标准和规范.许多新手或项目并不太遵循或忽略掉W3C标准和规范,这就不利于前端工程化和标准化. 概述 万维网联盟(外 ...

最新文章

  1. java中table是什么标签_[Java教程]javascript格式化table标签内容
  2. python语言用途-Python是万能的编程语言吗?这五大用途很重要!
  3. BuckleScript 1.0发布,面向OCaml的开源JavaScript编译器
  4. 非注解和注解的处理器映射器和适配器---SpringMVC学习笔记(三)
  5. linux修改grub权限,linux下肿么修改grub.cfg
  6. 金山笔试题-字符串排序 : 写一个函数,实现对给定的字符串(字符串里面包括:英文字母,数字,符号)的处理...
  7. Wireshark文档阅读笔记-User Datagram Protocol(UDP)
  8. matplotlib Artist 教程
  9. 安卓开发中,什么样的功能适合抽取成 Library?
  10. 《构建之法》阅读笔记二
  11. 应届毕业生的户口、档案、三方协议、报到证、见习期、工龄计算、转正定级等重要知识普及!
  12. esp8266搭建智能家居系统
  13. 基于routeros的ADSL带宽叠加
  14. 小红书小程序x-sign加密算法解析
  15. linux使用线程实现生产者消费者问题,Linux下生产者与消费者的线程实现
  16. 简单理解与实验生成对抗网络GAN
  17. 浙江万里学院期末计算机网络,(浙江万里学院云计算基础课程大作业封面.doc
  18. PMP|一文带你正确认识产品经理和项目经理的区别
  19. mysql中select使用方法,MySQL中select语句介绍及使用示例
  20. 物联网控制原理与技术--基于Matlab/simulink的频域分析奈氏图的应用(超详细/设计/实验/作业/练习)

热门文章

  1. 成长道路上,哪些道理让你懂之恨晚?
  2. MMM(3M)互助平台开发
  3. MySQL 错误记录 请ctrl+f查找
  4. 微软MFC技术运行机制
  5. Ext4.2 使用iframe实现页面四宫格布局
  6. Smallest Sub-Array
  7. 张小龙微信公开课PRO演讲:信息互联的7个思考
  8. 【解决】农行在win7中不能支付解决办法
  9. 最小宽度适配:Smallest-width
  10. 记录一次iOS App Store审核被拒5.1.1的原因