2007年10月23日 星期二 10:56

Ontology-Based Semantic Search Tool For Atmospheric Science 基于本体的大气科学语义搜索工具 (Rahul Ramachandran, Sunil Movva, Sara Graves and Steve Tanner) (University of Alabama in Huntsville) (Sunnybill推荐介绍,文章版权归作者所有,引用请注明出处) (Origin: http://ams.confex.com/ams/pdfpapers/102272.pdf)

1.简介          Web是一个巨大的资源库,有各种网页、数据文件、元数据目录、出版物等等。按照收集元数据方式的不同,搜索工具大致分为两类:一种是Google、 Alta Vista和Lycos等这类使用网络蜘蛛的工具。网络蜘蛛在网上爬行,收集网页的元数据,并对网页进行评估。这种评估是基于词频的。在标题、副标题、元 数据标签中出现的词给于较高的权重。这种方法能够保证含有查询词汇的网页资源的查全率,对文档查询很有效,但对科学数据查询却不太合适。          另一种方法是通过构建规范统元数据(形式化的元数据)的方式实现跨学科数据的查询。形式化的元数据带有标准规范,提供通用术语集,以及所提供数据值的定义 和信息。这类规范包括都柏林中心原创标准(Dublin Core Initiative)、国际标准组织(ISO)标准、联邦地理数据委员会(FGDC, Federal Geographic Data Committee)等等。政府部门如美国地质调查局(USGS, U.S Geological Survey)、美国航空航天局(NASA, National Aeronautics and Space Administration)的存档地理数据规定使用FGDC规范。除了目录满足存储需要的规范之外,还需要关键词表(控制词汇表)来组成这些目录。这 类词汇表有气候与森林元数据约定(CFMC,Climate and Forest(CF) Medadata Convention),以及全球变化总目录(GCMD, Global Change Master Directory)等。对这些目录的查询结果十分准确。          衡量查询工具有两个指标:查全率和查准率。理想的查询工具是只查询人们真正想找的东西。上述两种方法都不能满足这样的要求。Web搜索工具简单易用,但返 回的信息太多;基于目录的查询更准确,但太复查而且不全面。为了有效查询资源目录,用户必须熟悉规范词表,非专业人士(比如学生)很难构造正确的查询来获 取理想的结果。          这里介绍一款基于本体的语义气象科学查询工具——Noesis,可以有效解决这个问题。Noesis不单单是语义搜索引擎,而且能够通过比较资源的相关信息聚合资源,是一个资源聚合器。随后的章节将介绍Noesis的结构和功能。

2.本体与语义网络          亚里斯多德说,本体是关于存在的科学。从机器学习(Machine Learning)人工智能(AI, Artificial Intelligent)和智能系统(Intelligent System)角度,"本体是共享概念的形式化的明确的定义"(Gruber,1993)。所以,一个本体系统必须包含概念及其使用约束的明确定义。它必 须是形式化的,以便机器理解;必须是共享的,以保证对知识理解的一致性。本体有两个独特的组件:它们包含某一领域重要概念的名称。例如,生物学本体,“大 象”是其中的一个概念,其成员是一种“动物”;“食草动物”也是其中概念,其成员是所有草食性和食草性的动物。同样的,“成年象”也是其中的一个概念,它 的成员是年龄大于20年的大象。除了概念的定义,本体还确定了知识背景和领域约束。因此,生物学本体应该含有“成年象”至少重2000公斤、所有的“大象 ”可以是“非洲象”或是“印度象”、没有成员既是“食草动物”又是“食肉动物”等等这样的关系和约束。所以,本体是领域概念及其相互关系的定义。          本体在实现语义网络中扮演十分重要的角色(Berners-Lee等,2001)。语义网络意味着机器不仅呈现数据,而且能够理解数据。网页中的概念周围 带有XML标记,机器通过检查被标签中命名空间引用的本体内容来识别其含义。这样就使得机器能够在没有人工干预定额情况下更好地进行搜索。这种况下进行的 搜索可以极大地减少错误命中,提高搜索命中率。

3. Noesis工具组件          Noesis 工具的系统结构见图1。工具中有三个组件,分别描述如下:

图1: Noesis系统结构

3.1 LEAD本体          Noesis工具应用的本体是作为“大气发现关联环境”(LEAD, Linked Environment for Atmospheric Discovery)项目的一部分(Droegemeter等,2004;Droegemeter等,2005a; 2005b)被开发的。LEAD本体是基于SWEET(基于语义网络的地球和环境术语,Semantic Web for Earth and Environment Terminology)本体(Raskin and Pan, 2005)开发的(参见http://hi.baidu.com/sunnybill/blog/item/c9ca19f7afebf121730eecc2.html)。 SWEET本体是通过软件对Web资源的语义理解发现和使用地学数据的。SWEET包含一些列以OWL形式表示的本体(Bechhofer 等,2004),既包含正交概念(空间、时间、地球领域、物理量等),又集成了一些科学知识感念(如现象、事件等)。SWEET是基于NASA的全球变化 总目录(GCMD)构建的,GCMD包含大约1000个限定地学词汇,以分类形式表示。SWEET被设计成高级本体,允许创建地球科学的各个领域的具体本 体补充SWEET概念。LEAD本体主要关注大气科学的相关概念。通过使用美洲气象协会(Amercian Meteorology Society)术语表中的概念,并定义它们之间的关系,将美洲气象协会术语表映射到SWEET本体。所以,LEAD本体将是大气科学领域的专门本体,是 对SWEET本体中定义的概念的扩展。          构建LEAD本体有两点原因:首先,它可以作为教学和研究的知识库,LEAD将不仅仅是静态的术语表,它还包含大气现象、参数、数据、服务以及高层概念的 定义和它们之间的关系。LEAD本体的最终目标是创建一个连接这些高级概念的顶层本体。有了这个本体,搜索“中气旋(Mesocyclone)”这个概念 就能够发现这个现象有一个“旋涡状态(Vorticity)”物理量定义,数据挖掘服务就能够应用这个字段来扩展“中气旋(Mesocyclone)”。          第二个原因是LEAD本体支持语义搜索。本体的应用可以使Noesis这样的工具扩展对元数据目录和其他Web资源的搜索能力,而不仅仅是基于关键字的搜索。

3.2 本体推理服务           本体推理服务(OIS, Ontology Inference Severce)是推理引擎的一个SOAP协议Web服务接口。构建在Apache Axis的SOAP引擎之上。后台所用的推理引擎是Pellet(Grau等,2004)。Pellet是一个基于tableaux算法的OWL描述逻辑 推理机。推理机与LEAD本体一起预装,能够对本体进行T-BOX和A-BOX查询。T-BOX查询处理概念的细泛化关系和同义关系;A-BOX查询查找 符合条件的概念的实例,并能基于属性过滤。所有发到OIS的请求都被翻译成一个或多个查询给推理机。本体推理服务(OIS)描述逻辑推理接口(DIG, Discription Logic Resoner Interface)与推理机交互。DIG接口是以HTTP接口方式访问描述逻辑推理机的标准。查询的结果通过该接口返回给OIS。OIS允许使用标准 Web服务协议与其他系统(如LEAD数据库子系统查询服务)松散地连接集成。在Noesis中,OIS主要与智能搜索代理通讯。

3.3 智能搜索代理(Smart Search Broker)             智能搜索代理主要负责管理和协调来自客户端、OIS和其他分布式资源的用户请求。如果用户选择查询的词汇,智能代理就用这个词汇列表在不同的分布式资源上 进行查询。这些资源可以使Google,元数据目录,包括LEAD资源目录、SURA滨海观测项目(SCOOP)目录以及地球系统教育数字图书馆 (DLESE, Digital Library for Earth System Education)目录这类教育资源等,也可以是其它资源。

4. Noesis应用实例          这里列出两个Noesis工具的用户使用实例。

4.1 细化搜索实例           Noesis可以浏览本体中的概念体系。浏览时,用户可以本体中任意移动。如果用户不知道某个物理参数的准确名称,他可以提供高层的概念来查找。用户就可 以从一般化概念开始,找到理想的专门主题的信息。例如,用于输入查询词“压力(Pressure)”,Noesis工具就可以通过本体找到“静水压 Hydrostatic Pressure”、“总压力Total Pressure”等术语词汇,并把这些结果返回给用户选择。Noesis工具就可以根据用户选择的词汇列表,在分布式资源上(包括Google, DLESE等)查找,并把查询结果进行聚合,返回给用户。该实例参见图2a。

图2a: Noesis工具使用实例

4.2 同义搜索实例               Noesis工具好可以搜索同义术语。例如,在元数据目录资源中查询“Precipitation(降水)”,就找不到目录中的“Rainfall(降 水)”字段中的值。Noesis工具可以利用本体可以解决这个问题。在返回细泛化概念的同时,系统也给用户返回同义概念供用户选择。系统可以根据用户的选 择在分布式资源上查询,并将结果进行聚合,返回该用户。

5. 小结及进一步的工作            本文所述Noesis工具代表了下一代利用领域本体技术的专业搜索和资源聚合工具。领域本体可以帮助用户和机器提高查询结果的查全率和查准率。 Noesis工具在地学搜索和教学中也可以发挥重要作用。它不仅利用本体提示用户修正查询词汇,还可以查询对用户有用的不同资源。这些资源完全可以包括网 页、相关教育资源、数据库、相关出版物等等。最初Noesis工具使用的LEAD本体是有限的,随着LEAD本体的不断进化,新的LEAD将会用于 Noesis工具。目前的Noesis工具只能搜索Web网页(通过Google)以及DLESE目录中的教育资源。将LEAD于其他目录资源连接允许用 户查找相关数据库的工作正在进行。            尽管目前版本的Noesis主要关注大气科学,工具本身可以应用于不同的领域,只需要配置不同的领域本体,搜索不同的分布式资源。

6. 致谢            LEAD项目得到了国家科学基金(National Science Foundation)资助,协议号为:ATM-0331594, ATM-0331591, ATM-0331574, ATM-0331480, ATM-0331579, ATM03-31586, ATM-0331587, and ATM-0331578。

7. 参考文献

[1]       Bechhofer, S., F. v. Harmelen, J. Hendler, I. Horrocks, D.L. McGuinness, P. F. Patel-Schneider, and L. A.Stein, 2004: OWL Web Ontology Language Reference.

[2]       Berners-Lee, T., J. Hendler, and O. Lassila, 2001: The Semantic Web. Scientific American, 284, 34-43.

[3]       Droegemeier, K., V. Chandrasekar, R. Clark, D. Gannon, S. Graves, E. Joseph, M. Ramamurthy, R.Wilhelmson, K. Brewster, B. Domenico, T. Leyton, V. Morris, D. Murray, B. Plale,R. Ramachandran, D.Reed, J. Rushing, D. Weber, A. Wilson, M. Xue, and S. Yalda, 2004: Linked Environment for Atmospheric Discovery (LEAD): A Cyberinfrastructure for Mesocyclone Meteorology Research and Education. Interactive Information and Processing Systems (IIPS), <st1:place><st1:city>Seattle</st1:city>, <st1:state>WA</st1:state></st1:place>, American Meteorological Society.

[4]       Droegemeier, K., V. Chandrasekar, R. D. Clark, D. Gannon, S. Graves, E. Joseph, M. K. Ramamurthy, B. Wilhelmson, K. Brewster, B. Domenico, T. Leyton, D. V. R. Morris, D. R. Murray, B. Plale, R. Ramachandran, D. Reed, J. Rushing, D. Weber, A. Wilson, M. Xue, and S. Yalda, <st1:chmetcnv tcsc="0" hasspace="False" sourcevalue="2005" numbertype="1" negative="False" unitname="a">2005a</st1:chmetcnv>: Linked Environments for Atmospheric Discovery (LEAD): Architecture, Technology Road Map and Deployment Strategy. Joint Session on Cyberinfrastructure to support atmospheric and Oceanic Education: Examples and strategies, AMS Annual Meeting, <st1:place><st1:city>San Diego</st1:city> <st1:state>CA</st1:state></st1:place>.

[5]       Droegemeier, K. K., D. Gannon, D. Reed, B. Plale, J. Alameda, T. Baltzer, K. Brewster, R. Clark, B. Domenico, S. Graves, E. Joseph, V. Morris, D. Murray, R. Ramachandran, M. Ramamurthy, L. Ramakrishnan, J. Rushing, D. Weber, R. Wilhelmson, A. Wilson, M. Xue, and S. Yalda, 2005b: Service-Oriented Environments in Research and Education for Dynamically Interacting with Mesoscale Weather. IEEE Computing in Science & Engineering, 7, 24-32.

[6]       Grau, B. C., B. Parsia, and E. Sirin, 2004: Tableau Algorithms for E-Connections of Description Logics.

[7]       Gruber, T. R., 1993: A Translation Approach to Portable Ontology Specifications. Knowledge Acquisition,, 5, 199-220.

[8]      Raskin, R. G. and M. J. Pan, 2005: Knowledge representation in the semantic web for Earth and environmental terminology (SWEET). Computers & Geosciences, 31, 1119-1125.

图2b: Noesis使用实例

图2c: Noesis使用实例

图2d: Noesis使用实例

图2e: Noesis使用实例

后记:
本文译稿未经效审,发现错误请反馈到留言中,谢谢!

Noesis:一款基于本体的大气科学语义搜索工具相关推荐

  1. 转帖一篇---Noesis:一款基于本体的大气科学语义搜索工具

    Noesis:一款基于本体的大气科学语义搜索工具 2007年10月23日 星期二 10:56 Ontology-Based Semantic Search Tool For Atmospheric S ...

  2. wafw00f--一款基于python识别网站WAF的工具

    渗透时候经常会被waf之类的拦截,这时候需要知道目标站点使用了什么防火墙,然后才能根据对应防火墙寻找绕过的姿势.wafw00f就是一款识别网站防火墙的工具. 文章目录 简介 原理 项目地址 命令参数 ...

  3. 一款基于VUE的在线绘制流程图工具安装使用node.js

    1.安装node.js 下载地址:https://nodejs.org/en/download/ 安装一下三项,并检查是否成功: node -v npm -v vue -V(大写的V) 一款基于VUE ...

  4. 找论文太难?试试这款「文本生成」论文搜索工具

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 子豪 发自 凹非寺 量子位 报道 | 公众号 QbitAI NLP工 ...

  5. 找论文太难?试试这款「文本生成」论文搜索工具丨开源

    点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要3分钟 Follow小博主,每天更新前沿干货 转载自:量子位 NLP工作者,尤其是文本生成领域的工作者们,你们福音来了! ArXiv Text ...

  6. 如虎添翼!一款强大的本地文件全文搜索工具

    ↑↑↑关注后"星标"简说Python 人人都可以简单入门Python.爬虫.数据分析 简说Python推荐来源:平凡而诗意 作者:JackpopOne old watch, lik ...

  7. cpanel重启PHP服务_8款基于Web控制面板的服务器管理工具,开源免费,系统管理员利器...

    监控使用率,性能和维护系统架构是一项复杂的任务.当企业构建基础结构时,包括服务器,数据库,消息传递,身份验证,负载均衡等多个组件在内的基础结构会带来高复杂性. 当系统管理员管理1-2台服务器时,可能很 ...

  8. pytorch 语义分割loss_vedaseg:基于pytorch的开源语义分割工具库,更多模型支持,更易拓展...

    加入极市专业CV交流群,与6000+来自腾讯,华为,百度,北大,清华,中科院等名企名校视觉开发者互动交流!更有机会与李开复老师等大牛群内互动! 同时提供每月大咖直播分享.真实项目需求对接.干货资讯汇总 ...

  9. NETPLIER : 一款基于概率的网络协议逆向工具(一)理论

    本文系原创,转载请说明出处:信安科研人 关注微信公众号 信安科研人 获取更多网络安全学术技术资讯 今日介绍一篇发表在2021 NDSS会议上的一项有关协议逆向的工作: 文章目录 1 网络协议逆向工程简 ...

最新文章

  1. 算法总结---最常用的五大算法(算法题思路)
  2. 五个方面入手 教你如何成为领导型CIO
  3. Py之tornado:tornado库的简介、安装、使用方法之详细攻略
  4. JavaScript基础学习第四天
  5. TypeScript输入参数的默认值一例,以及对应生成的JavaScript代码分析
  6. java readline最后一行_java – 如何在reader.readLine()中检测第一行和最后一行?
  7. 将Linux下编译的warning警告信息输出到文件中
  8. boost 线程 linux,Boost Linux线程第一课
  9. 20175202 《Java程序设计》第九周学习总结
  10. 使用swoole作为MQTT客户端并接收实现即时消息推送
  11. android wheel控件滚动,android 滚动选择插件 android-wheel
  12. 模板题——位运算,离散化,区间合并
  13. 【Java】使用ScriptEngine动态执行代码(附Java几种动态执行代码比较)
  14. 安装win32com
  15. matlab傅里叶变换处理图像,MATLAB数字图像处理(1)基本操作和傅里叶变换
  16. 3d max2012安装 破解注册机需要注意的地方
  17. INCONEL 600该合金因其强度和耐腐蚀性而广泛用于化学工业
  18. 圆柱体的表面积,三位数反转,交换变量
  19. 【学习笔记】seckill-秒杀项目--(2)登录功能及完善
  20. 二阶系统的单位阶跃响应与比例控制器

热门文章

  1. 程序在计算机内部是如何运行的
  2. Bootstrap框架之栅格系统
  3. 【Vue粒子动效插件】Vue3之vue-particles实现一个科技粒子动画登录页面,Picker It~
  4. 树莓派 Raspbian Buster Lite版系统键盘布局修改问题
  5. ADS器件无法连接导线的问题
  6. java使用创建Word文件示例
  7. 建设工程工程量清单计价规范2008最新分析报告ppt
  8. 【数字IC】从零开始的Verilog SPI设计
  9. 物联网APP开发特点有哪些?链环科技
  10. 易语言脚本开发入门教程