Noesis:一款基于本体的大气科学语义搜索工具
Ontology-Based Semantic Search Tool For Atmospheric Science 基于本体的大气科学语义搜索工具 (Rahul Ramachandran, Sunil Movva, Sara Graves and Steve Tanner) (University of Alabama in Huntsville) (Sunnybill推荐介绍,文章版权归作者所有,引用请注明出处) (Origin: http://ams.confex.com/ams/pdfpapers/102272.pdf)
1.简介 Web是一个巨大的资源库,有各种网页、数据文件、元数据目录、出版物等等。按照收集元数据方式的不同,搜索工具大致分为两类:一种是Google、 Alta Vista和Lycos等这类使用网络蜘蛛的工具。网络蜘蛛在网上爬行,收集网页的元数据,并对网页进行评估。这种评估是基于词频的。在标题、副标题、元 数据标签中出现的词给于较高的权重。这种方法能够保证含有查询词汇的网页资源的查全率,对文档查询很有效,但对科学数据查询却不太合适。 另一种方法是通过构建规范统元数据(形式化的元数据)的方式实现跨学科数据的查询。形式化的元数据带有标准规范,提供通用术语集,以及所提供数据值的定义 和信息。这类规范包括都柏林中心原创标准(Dublin Core Initiative)、国际标准组织(ISO)标准、联邦地理数据委员会(FGDC, Federal Geographic Data Committee)等等。政府部门如美国地质调查局(USGS, U.S Geological Survey)、美国航空航天局(NASA, National Aeronautics and Space Administration)的存档地理数据规定使用FGDC规范。除了目录满足存储需要的规范之外,还需要关键词表(控制词汇表)来组成这些目录。这 类词汇表有气候与森林元数据约定(CFMC,Climate and Forest(CF) Medadata Convention),以及全球变化总目录(GCMD, Global Change Master Directory)等。对这些目录的查询结果十分准确。 衡量查询工具有两个指标:查全率和查准率。理想的查询工具是只查询人们真正想找的东西。上述两种方法都不能满足这样的要求。Web搜索工具简单易用,但返 回的信息太多;基于目录的查询更准确,但太复查而且不全面。为了有效查询资源目录,用户必须熟悉规范词表,非专业人士(比如学生)很难构造正确的查询来获 取理想的结果。 这里介绍一款基于本体的语义气象科学查询工具——Noesis,可以有效解决这个问题。Noesis不单单是语义搜索引擎,而且能够通过比较资源的相关信息聚合资源,是一个资源聚合器。随后的章节将介绍Noesis的结构和功能。
2.本体与语义网络 亚里斯多德说,本体是关于存在的科学。从机器学习(Machine Learning)人工智能(AI, Artificial Intelligent)和智能系统(Intelligent System)角度,"本体是共享概念的形式化的明确的定义"(Gruber,1993)。所以,一个本体系统必须包含概念及其使用约束的明确定义。它必 须是形式化的,以便机器理解;必须是共享的,以保证对知识理解的一致性。本体有两个独特的组件:它们包含某一领域重要概念的名称。例如,生物学本体,“大 象”是其中的一个概念,其成员是一种“动物”;“食草动物”也是其中概念,其成员是所有草食性和食草性的动物。同样的,“成年象”也是其中的一个概念,它 的成员是年龄大于20年的大象。除了概念的定义,本体还确定了知识背景和领域约束。因此,生物学本体应该含有“成年象”至少重2000公斤、所有的“大象 ”可以是“非洲象”或是“印度象”、没有成员既是“食草动物”又是“食肉动物”等等这样的关系和约束。所以,本体是领域概念及其相互关系的定义。 本体在实现语义网络中扮演十分重要的角色(Berners-Lee等,2001)。语义网络意味着机器不仅呈现数据,而且能够理解数据。网页中的概念周围 带有XML标记,机器通过检查被标签中命名空间引用的本体内容来识别其含义。这样就使得机器能够在没有人工干预定额情况下更好地进行搜索。这种况下进行的 搜索可以极大地减少错误命中,提高搜索命中率。
3. Noesis工具组件 Noesis 工具的系统结构见图1。工具中有三个组件,分别描述如下:
图1: Noesis系统结构
3.1 LEAD本体 Noesis工具应用的本体是作为“大气发现关联环境”(LEAD, Linked Environment for Atmospheric Discovery)项目的一部分(Droegemeter等,2004;Droegemeter等,2005a; 2005b)被开发的。LEAD本体是基于SWEET(基于语义网络的地球和环境术语,Semantic Web for Earth and Environment Terminology)本体(Raskin and Pan, 2005)开发的(参见http://hi.baidu.com/sunnybill/blog/item/c9ca19f7afebf121730eecc2.html)。 SWEET本体是通过软件对Web资源的语义理解发现和使用地学数据的。SWEET包含一些列以OWL形式表示的本体(Bechhofer 等,2004),既包含正交概念(空间、时间、地球领域、物理量等),又集成了一些科学知识感念(如现象、事件等)。SWEET是基于NASA的全球变化 总目录(GCMD)构建的,GCMD包含大约1000个限定地学词汇,以分类形式表示。SWEET被设计成高级本体,允许创建地球科学的各个领域的具体本 体补充SWEET概念。LEAD本体主要关注大气科学的相关概念。通过使用美洲气象协会(Amercian Meteorology Society)术语表中的概念,并定义它们之间的关系,将美洲气象协会术语表映射到SWEET本体。所以,LEAD本体将是大气科学领域的专门本体,是 对SWEET本体中定义的概念的扩展。 构建LEAD本体有两点原因:首先,它可以作为教学和研究的知识库,LEAD将不仅仅是静态的术语表,它还包含大气现象、参数、数据、服务以及高层概念的 定义和它们之间的关系。LEAD本体的最终目标是创建一个连接这些高级概念的顶层本体。有了这个本体,搜索“中气旋(Mesocyclone)”这个概念 就能够发现这个现象有一个“旋涡状态(Vorticity)”物理量定义,数据挖掘服务就能够应用这个字段来扩展“中气旋(Mesocyclone)”。 第二个原因是LEAD本体支持语义搜索。本体的应用可以使Noesis这样的工具扩展对元数据目录和其他Web资源的搜索能力,而不仅仅是基于关键字的搜索。
3.2 本体推理服务 本体推理服务(OIS, Ontology Inference Severce)是推理引擎的一个SOAP协议Web服务接口。构建在Apache Axis的SOAP引擎之上。后台所用的推理引擎是Pellet(Grau等,2004)。Pellet是一个基于tableaux算法的OWL描述逻辑 推理机。推理机与LEAD本体一起预装,能够对本体进行T-BOX和A-BOX查询。T-BOX查询处理概念的细泛化关系和同义关系;A-BOX查询查找 符合条件的概念的实例,并能基于属性过滤。所有发到OIS的请求都被翻译成一个或多个查询给推理机。本体推理服务(OIS)描述逻辑推理接口(DIG, Discription Logic Resoner Interface)与推理机交互。DIG接口是以HTTP接口方式访问描述逻辑推理机的标准。查询的结果通过该接口返回给OIS。OIS允许使用标准 Web服务协议与其他系统(如LEAD数据库子系统查询服务)松散地连接集成。在Noesis中,OIS主要与智能搜索代理通讯。
3.3 智能搜索代理(Smart Search Broker) 智能搜索代理主要负责管理和协调来自客户端、OIS和其他分布式资源的用户请求。如果用户选择查询的词汇,智能代理就用这个词汇列表在不同的分布式资源上 进行查询。这些资源可以使Google,元数据目录,包括LEAD资源目录、SURA滨海观测项目(SCOOP)目录以及地球系统教育数字图书馆 (DLESE, Digital Library for Earth System Education)目录这类教育资源等,也可以是其它资源。
4. Noesis应用实例 这里列出两个Noesis工具的用户使用实例。
4.1 细化搜索实例 Noesis可以浏览本体中的概念体系。浏览时,用户可以本体中任意移动。如果用户不知道某个物理参数的准确名称,他可以提供高层的概念来查找。用户就可 以从一般化概念开始,找到理想的专门主题的信息。例如,用于输入查询词“压力(Pressure)”,Noesis工具就可以通过本体找到“静水压 Hydrostatic Pressure”、“总压力Total Pressure”等术语词汇,并把这些结果返回给用户选择。Noesis工具就可以根据用户选择的词汇列表,在分布式资源上(包括Google, DLESE等)查找,并把查询结果进行聚合,返回给用户。该实例参见图2a。
4.2 同义搜索实例 Noesis工具好可以搜索同义术语。例如,在元数据目录资源中查询“Precipitation(降水)”,就找不到目录中的“Rainfall(降 水)”字段中的值。Noesis工具可以利用本体可以解决这个问题。在返回细泛化概念的同时,系统也给用户返回同义概念供用户选择。系统可以根据用户的选 择在分布式资源上查询,并将结果进行聚合,返回该用户。
5. 小结及进一步的工作 本文所述Noesis工具代表了下一代利用领域本体技术的专业搜索和资源聚合工具。领域本体可以帮助用户和机器提高查询结果的查全率和查准率。 Noesis工具在地学搜索和教学中也可以发挥重要作用。它不仅利用本体提示用户修正查询词汇,还可以查询对用户有用的不同资源。这些资源完全可以包括网 页、相关教育资源、数据库、相关出版物等等。最初Noesis工具使用的LEAD本体是有限的,随着LEAD本体的不断进化,新的LEAD将会用于 Noesis工具。目前的Noesis工具只能搜索Web网页(通过Google)以及DLESE目录中的教育资源。将LEAD于其他目录资源连接允许用 户查找相关数据库的工作正在进行。 尽管目前版本的Noesis主要关注大气科学,工具本身可以应用于不同的领域,只需要配置不同的领域本体,搜索不同的分布式资源。
6. 致谢 LEAD项目得到了国家科学基金(National Science Foundation)资助,协议号为:ATM-0331594, ATM-0331591, ATM-0331574, ATM-0331480, ATM-0331579, ATM03-31586, ATM-0331587, and ATM-0331578。
7. 参考文献
[1] Bechhofer, S., F. v. Harmelen, J. Hendler, I. Horrocks, D.L. McGuinness, P. F. Patel-Schneider, and L. A.Stein, 2004: OWL Web Ontology Language Reference.
[2] Berners-Lee, T., J. Hendler, and O. Lassila, 2001: The Semantic Web. Scientific American, 284, 34-43.
[3] Droegemeier, K., V. Chandrasekar, R. Clark, D. Gannon, S. Graves, E. Joseph, M. Ramamurthy, R.Wilhelmson, K. Brewster, B. Domenico, T. Leyton, V. Morris, D. Murray, B. Plale,R. Ramachandran, D.Reed, J. Rushing, D. Weber, A. Wilson, M. Xue, and S. Yalda, 2004: Linked Environment for Atmospheric Discovery (LEAD): A Cyberinfrastructure for Mesocyclone Meteorology Research and Education. Interactive Information and Processing Systems (IIPS), <st1:place><st1:city>Seattle</st1:city>, <st1:state>WA</st1:state></st1:place>, American Meteorological Society.
[4] Droegemeier, K., V. Chandrasekar, R. D. Clark, D. Gannon, S. Graves, E. Joseph, M. K. Ramamurthy, B. Wilhelmson, K. Brewster, B. Domenico, T. Leyton, D. V. R. Morris, D. R. Murray, B. Plale, R. Ramachandran, D. Reed, J. Rushing, D. Weber, A. Wilson, M. Xue, and S. Yalda, <st1:chmetcnv tcsc="0" hasspace="False" sourcevalue="2005" numbertype="1" negative="False" unitname="a">2005a</st1:chmetcnv>: Linked Environments for Atmospheric Discovery (LEAD): Architecture, Technology Road Map and Deployment Strategy. Joint Session on Cyberinfrastructure to support atmospheric and Oceanic Education: Examples and strategies, AMS Annual Meeting, <st1:place><st1:city>San Diego</st1:city> <st1:state>CA</st1:state></st1:place>.
[5] Droegemeier, K. K., D. Gannon, D. Reed, B. Plale, J. Alameda, T. Baltzer, K. Brewster, R. Clark, B. Domenico, S. Graves, E. Joseph, V. Morris, D. Murray, R. Ramachandran, M. Ramamurthy, L. Ramakrishnan, J. Rushing, D. Weber, R. Wilhelmson, A. Wilson, M. Xue, and S. Yalda, 2005b: Service-Oriented Environments in Research and Education for Dynamically Interacting with Mesoscale Weather. IEEE Computing in Science & Engineering, 7, 24-32.
[6] Grau, B. C., B. Parsia, and E. Sirin, 2004: Tableau Algorithms for E-Connections of Description Logics.
[7] Gruber, T. R., 1993: A Translation Approach to Portable Ontology Specifications. Knowledge Acquisition,, 5, 199-220.
[8] Raskin, R. G. and M. J. Pan, 2005: Knowledge representation in the semantic web for Earth and environmental terminology (SWEET). Computers & Geosciences, 31, 1119-1125.
图2b: Noesis使用实例
图2c: Noesis使用实例
图2d: Noesis使用实例
图2e: Noesis使用实例
Noesis:一款基于本体的大气科学语义搜索工具相关推荐
- 转帖一篇---Noesis:一款基于本体的大气科学语义搜索工具
Noesis:一款基于本体的大气科学语义搜索工具 2007年10月23日 星期二 10:56 Ontology-Based Semantic Search Tool For Atmospheric S ...
- wafw00f--一款基于python识别网站WAF的工具
渗透时候经常会被waf之类的拦截,这时候需要知道目标站点使用了什么防火墙,然后才能根据对应防火墙寻找绕过的姿势.wafw00f就是一款识别网站防火墙的工具. 文章目录 简介 原理 项目地址 命令参数 ...
- 一款基于VUE的在线绘制流程图工具安装使用node.js
1.安装node.js 下载地址:https://nodejs.org/en/download/ 安装一下三项,并检查是否成功: node -v npm -v vue -V(大写的V) 一款基于VUE ...
- 找论文太难?试试这款「文本生成」论文搜索工具
点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 子豪 发自 凹非寺 量子位 报道 | 公众号 QbitAI NLP工 ...
- 找论文太难?试试这款「文本生成」论文搜索工具丨开源
点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要3分钟 Follow小博主,每天更新前沿干货 转载自:量子位 NLP工作者,尤其是文本生成领域的工作者们,你们福音来了! ArXiv Text ...
- 如虎添翼!一款强大的本地文件全文搜索工具
↑↑↑关注后"星标"简说Python 人人都可以简单入门Python.爬虫.数据分析 简说Python推荐来源:平凡而诗意 作者:JackpopOne old watch, lik ...
- cpanel重启PHP服务_8款基于Web控制面板的服务器管理工具,开源免费,系统管理员利器...
监控使用率,性能和维护系统架构是一项复杂的任务.当企业构建基础结构时,包括服务器,数据库,消息传递,身份验证,负载均衡等多个组件在内的基础结构会带来高复杂性. 当系统管理员管理1-2台服务器时,可能很 ...
- pytorch 语义分割loss_vedaseg:基于pytorch的开源语义分割工具库,更多模型支持,更易拓展...
加入极市专业CV交流群,与6000+来自腾讯,华为,百度,北大,清华,中科院等名企名校视觉开发者互动交流!更有机会与李开复老师等大牛群内互动! 同时提供每月大咖直播分享.真实项目需求对接.干货资讯汇总 ...
- NETPLIER : 一款基于概率的网络协议逆向工具(一)理论
本文系原创,转载请说明出处:信安科研人 关注微信公众号 信安科研人 获取更多网络安全学术技术资讯 今日介绍一篇发表在2021 NDSS会议上的一项有关协议逆向的工作: 文章目录 1 网络协议逆向工程简 ...
最新文章
- 算法总结---最常用的五大算法(算法题思路)
- 五个方面入手 教你如何成为领导型CIO
- Py之tornado:tornado库的简介、安装、使用方法之详细攻略
- JavaScript基础学习第四天
- TypeScript输入参数的默认值一例,以及对应生成的JavaScript代码分析
- java readline最后一行_java – 如何在reader.readLine()中检测第一行和最后一行?
- 将Linux下编译的warning警告信息输出到文件中
- boost 线程 linux,Boost Linux线程第一课
- 20175202 《Java程序设计》第九周学习总结
- 使用swoole作为MQTT客户端并接收实现即时消息推送
- android wheel控件滚动,android 滚动选择插件 android-wheel
- 模板题——位运算,离散化,区间合并
- 【Java】使用ScriptEngine动态执行代码(附Java几种动态执行代码比较)
- 安装win32com
- matlab傅里叶变换处理图像,MATLAB数字图像处理(1)基本操作和傅里叶变换
- 3d max2012安装 破解注册机需要注意的地方
- INCONEL 600该合金因其强度和耐腐蚀性而广泛用于化学工业
- 圆柱体的表面积,三位数反转,交换变量
- 【学习笔记】seckill-秒杀项目--(2)登录功能及完善
- 二阶系统的单位阶跃响应与比例控制器