DBpedia Introduction
最近对Freebase和DBpedia有点兴趣,但是不知道他的明确概念,具体用法,所以通过网上信息做一下介绍。
直接将信息框数据存入RDF(Resource Description Framework)数据。
由于单纯的使用自然语言对文档等预料进行提取的时候,得到的结实体、概念或者谓词都是相互独立的,所以从语意角度而言,不给予对得到的结果进一步使用。总结而言,
一个是资源无法关联到相关类别;二是对于一个实体的各种属性,例如汽车的engine,production这样的属性,可能语义并不明确。这也是为什么需要一个基于映射的信息框抽取。
基于映射的信息框抽取
由于信息框的多样性以及上文所讨论的,“生”数据质量有待提高,基于映射的信息框抽取被提出。
它完成了将一个Infobox对应到一个DBpedia的本体(ontology)中。其中Infobox的属性对应了 为此,常常采用另外的结构对其进行抽取和存储,这样就可以更加准确、具有语义的将Infobox的信息映射出来。
DBpedia的基于映射抽取器为了实现映射的准确性和实时性,允许用户新建和编辑,和Wikipedia的开发性相“映射”。 DBpedia同时提供了三个工具,分别是映射检验器、抽取测试器、映射工具,供用户使用。 http://mappings.dbpedia.org
URI模式
对于每一个Wikipedia中的文章,将会有一些URI与之对应。
自然语言处理抽取
DBpedia提供了关于自然语言处理的数据集,目前有四个:话题标签(topic signatures),文法类别(grammatical gender), 词汇(lexicalization),和主题概念(thematic concept)。
a)
Lexicalization:
这是为了给出DBpedia中的别名统计信息而生成的数据集。它的作用是,给定一个词语,可以判断它可能表示的所有概念,包括以这个词为名字或别名的所有概念。同时会给出一个“分数”,这个分数表示了利用这个词表示这个概念的概率。
b)
Topic signatures:
也就是给DBpedia中的每个resource(就是与Wikipedia中的网页对应的资源)制作一个话题标签,以概括这个资源所围绕的话题。这个数据集的产生过程是:
Wikipeida中出现的每个词都是一个维度,每个DBpedia中的resource被表达成一个空间向量(VSM),对应这个多维空间中的一个点。对于每个与某resource
相关的词,计算其的tf-idf的权重,然后选择出与这个resource关联最近的一些词,作为这个resource的话题标签。
c)
Thematic:
这个抽取器旨在对DBpedia中的概念确定其主题,在Wikipedia中,许多类别下都有一篇文章来交待这个类别的主题,DBpedia利用这个,标注了概念或实体的主题。
d)
Grammatical gender:
这个部分可以针对Person这个本体,进行性别分析。在从Wikipedia到DBpedia的映射中,如果出现了Person这种实体,则统计这篇文章中出现的表征性别的形容词、代词等,然后以统计的方法确定这个人的性别。
DBpedia本体
DBpedia本体目前包括了320个类别,类别之间包含层次关系,深度可以达到5,深度控制在5以内是为了便于数据的使用,比如可视化或者导航。同时有1650个不同的属性来描述这些类别。
转载于:https://www.cnblogs.com/Mr-Leen/p/5907002.html
DBpedia Introduction相关推荐
- A Gentle Introduction to Deep Learning for Graphs 图深度学习的温和介绍
文章目录 1.简介 2. 高级概述 2.1.数学符号 2.2.动机 2.3.大图 2.4.局部关系和信息的迭代处理 2.5.语境扩散的三种机制 3.构建块 3.1.邻域(邻居)聚集 3.2.池化 3. ...
- Blender 3.0基础入门学习教程 Introduction to Blender 3.0
成为Blender通才,通过这个基于项目的循序渐进课程学习所有主题的基础知识. 你会学到什么 教程获取:Blender 3.0基础入门学习教程 Introduction to Blender 3.0- ...
- 网络增强现实开发简介 Introduction to Web AR development
搭配webXR.mindAR.three.js和tensorflow.js 你会学到: 获得构建不同类型的网络增强现实应用程序的实践经验,包括图像效果.人脸效果和世界效果 获得关于增强现实如何在网络浏 ...
- ZBrush全面入门学习教程 Schoolism – Introduction to ZBrush
ZBrush全面入门学习教程 Schoolism – Introduction to ZBrush ZBrush全面入门学习教程 Schoolism – Introduction to ZBrush ...
- 视频色彩校正简介 Introduction to Video Color Correction
视频色彩校正简介 Introduction to Video Color Correction 视频色彩校正简介 Introduction to Video Color Correction MP4 ...
- [转]Introduction of iSCSI Target in Windows Server 2012
Introduction of iSCSI Target in Windows Server 2012 源地址:http://blogs.technet.com/b/filecab/archive/2 ...
- MS UI Automation Introduction
MS UI Automation Introduction 2014-09-17 MS UI Automation是什么 UIA架构 UI自动化模型 UI自动化树概述 UI自动化控件模式概述 UI 自 ...
- 音频(3):iPod Library Access Programming Guide:Introduction
Next Introduction 介绍 iPod库访问(iPod Library Access)让应用程序可以播放用户的歌曲.有声书.和播客.这个API设计使得基本播放变得非常简单,同时也支持高级的 ...
- 2018-3-25论文(Whale Optimizer Algorithm)+(Gery Wolf Optimizer)笔记二---Introduction 对比
代码以及文论的来源: Seyedali Mirjalili http://www.alimirjalili.com/Projects.html 感谢作者!!! 2014年GWO Introductio ...
最新文章
- HBase保存的各个字段意义解释
- python类中方法的执行顺序-浅谈Python的方法解析顺序(MRO)
- HDU - 2871 Memory Control(线段树+区间合并)好题!
- MySQL2索引优化
- WIndows10下 MySQL 5.7(社区版)卸载
- [导入]在SYBASE数据库中使用游标(Cursors)将多行查询结果进行逐行处理
- 九校联考-长沙市一中NOIP模拟总结
- Debian系统apt-get build-dep命令
- 龙斗士显示网络和服务器,龙斗士热点问题_百田网帮助中心
- Pinyin 拼音转换工具类
- vb.net 教程 3-8 窗体编程 容器 3 SplitContainer
- exe msdt 无法上网_msdt.exe文件下载
- android蓝牙查看电池容量_Android查看电池电量的方法(基于BroadcastReceiver)
- 基于51单片机的数字时钟(万年历)
- __ffs 源码分析
- 十面阿里,七面头条,六个Offer,春招结束
- 思考总结:REID实践 罗浩郑哲东 bag of tricks for person reid baseline运行记录
- 大模型自己跳过“无用”层,推理速度×3,谷歌MIT这个新方法火啦!
- 云呐数据备份|什么是结构化数据
- 火影T7C笔记本Win11重装Win10系统方法分享
热门文章
- mutual information matlab,Mutual information and Normalized Mutual information 互信息和标准化互信息...
- 过某交友软件frida反调试
- [暑假]简单认识一下常用的字体 <<微软雅黑 黑体 和 宋体>>
- 学习网络安全一头雾水,想找些学习资料都不知道哪里入手?
- 【Linux】3.0Linux进程概念
- 纯js实现减速滚动置顶效果
- mysql数据库表的编辑器,SqliteLobEditor(数据库编辑工具)
- html5微杂志源码,H5制作又一利器:分分钟制作一个H5页面
- 亚马逊运营面试经验分享:避免踩坑,少走弯路
- Allegro中 板框 尺寸标注