李健清华计算机专业,计算机DeepWeb数据库的分类研究李健
计算机DeepWeb数据库的分类研究李健
李健
北方民族大学
摘要:元搜索引擎是DeepWeb数据库在检索领域主要的研究内容,另外还包括实现DeepWep在网路爬虫上的设计方案,而在DeepWeb的数据库结构组织上,如何有效对信息资源进行聚类与分类则是主要的研究目的。
关键词:DeepWeb;数据库;分类研究
一、DeepWep数据库一般分类方法
在基于网页上下文的DeepWeb数据库分类研究中,笔者试图将网页的表的标记词和文本信息统一进行网页聚类分析,进而达到准确分类数据库的目的,这种方法也可以称为表聚类分类法,其根本原理就是将网页中的文本内容转化为数据库信息的上下文。虽然有关研究已经进行这种分类方法的实践,但是由于简单的处理网页和表等内容,只用向量来表示HTML的全部词和表的标记词,最后进行K-means计算方法的聚类分析,因此导致网页上会出现一定的噪音信息,比如版权、修饰、导航以及公告等情况,大大降低了聚类处理的效果。并且由于数据库在系统上是依靠不同的用户来实现的,表在属性标记词上不一定会使用一致的标记词,例如“employerfinder”和“Jobsearch”这些情况,虽然这些标记词在语义是同样的意思,但是计算机系统会判断成不相同的,尤其是在数据库表中只有较少数量的标记词时,这样简单的聚类会极度降低网页内容的精确分类。
因此本文为了提高网页分类的精确性,只使用包括数据库表格网页的信息文本,并以此为数据库的上下文对DeepWep数据库实行分类计算分析,主要优势在于以下几个方面:
(1)可以在HTML网页文本中多样统计特性的基础上,给出文本内容模块中的发现算法。并且这种算法可以很好解决单纯使用网页视觉特性无法准确判别的问题,比如在处理DeepWep网页上。
(2)本文基于分类指导的特点,应用分层模糊集合的方法来对应表示有向图的内容,并且在数据属性词上利用元来替代并进行归一计算。
(3)根据数据库表间的距离和文本内容之间的距离,综合计算DeepWep数据之间的距离,并且在K-NN分类计算方法的框架内,得出新的DeepWep数据库的计算分类方法。
二、网页中内容文本信息的获取
目前,网页中提取文本内容信息的方法有很多,并且研究程度也比较深入。比如常见的基于视觉的分块法和利用模板清除噪音获取文本信息的方法,也包括根据网页的布局对页面分块的方法。但是在DeepWep网页设计风格上的巨大差异,以及可视区域的位置不同等情况下,很多提取方法必须借助于描述文本,并且准确的确定文本的位置,但是由于文本位置的不固定等原因,许多提取内容文本的方法实际效果不是太好,所以有了设计新的发现算法来处理文本内容的必要性。
首先,结合有关文献和网页的实际情况,可以应用决策树和统计分析的方法来获得内容文本的特征信息。并在此基础上进一步计算各个特征的属性情况,如果属性值比较连续,还需进行离散化处理。并依据贝叶斯公式计算主体内容块的大致概率。
在MFM算法中,可以根据计算出的概率来判断网页文本的内容。在试验数据处理上,实验指标一般下面的方式来表示。
噪音去除率NRR=(去除噪音的文本长度)/(噪音本文长度的总量)
内容提取率CER=(主题内容提取的文本长度)/(主题内容文本的总长度)
如表1所示,本次实验利用IM、PM、DTM以及MFM这四个算法分别进行内容提取率和噪音去除率的计算,从结果中可以明显看出来,PM算法虽然可以实现较高的噪音去除率,但是内容提取率去不高。所以相对来说,MFM算法在噪音去除率和内容提取率的上效果相对最好。
三、分类计算方法
首先是将HTML网页设为P,并且将P分为FC和PC两个部分,并且取出FC部分中的表格描述内容。在归一化计算后,在新的FC和PC上分别计算它们的权重值,并用向量空间来表示每个部分中的文档。在分类计算方法中,使用K-NN来对DeepWep中数据库表内部的网页进行分类。
根据以上分析探讨,造成数据库分类精确度较低的原因主要在于标记词语义的使用上,也就是同一数据库使用了不同的近义词或者同义词来标记内容。所以文本根据模糊分层集合的对应图,对近义词和同义词实行归一化处理,其中标的向量是根据新的词频算法产生的。在实验分析后,归一化处理方法也取得了较高的查全率和分类准确度,这也为该算法的进一步扩展应用奠定了依据。在此基础上,结合网页分类算法和垂直网络爬虫,完整的DeepWep数据资源检索系统也会在不久的将来得到实现。
参考文献:
[1]赵朋朋,高岭,崔志明.基于查询接口特征的DeepWeb数据源自动分类[J].微电子学与计算机.2012(22).
[2]刘伟,孟小峰,孟卫一.DeepWeb数据集成研究综述[J].计算机学报.2012(13).
[3]周二虎,张水平,胡洋.基于DeepWeb检索的查询结果处理技术的应用[J].计算机工程与设计.2010(01).
李健清华计算机专业,计算机DeepWeb数据库的分类研究李健相关推荐
- 中职计算机专业选修课程,中职学校计算机专业选修课开设的实践与研究
中职学校计算机专业选修课开设的实践与研究 在中职学校开设计算机专业选修课已成为中职学生技能培养和能力提升的迫切需求.计算机专 (本文共1页) 阅读全文>> 机务类专业选修课是民航院校的特色 ...
- 浙大 中科大 计算机专业,计算机专业领域的十大牛校,性价比最高的这所往往不为人们所知!...
原标题:计算机专业领域的十大牛校,性价比最高的这所往往不为人们所知! 重 要 通 知 ☑即日起--10月31日,零点高三还将接受"三无"考生的自招报名. ☑10月31日后,零点高三 ...
- 一流大学计算机专业,计算机专业一流大学太难考,不妨退而求其次,看看这5所大学...
原标题:计算机专业一流大学太难考,不妨退而求其次,看看这5所大学 因为就业率高.薪酬待遇好,又是前沿科技,所以计算机专业近一二十年来一直都很热门,开设计算机专业的院校也如雨后春笋一般冒了出来,工科.综 ...
- 平面设计和计算机专业,计算机专业和平面设计专业是一个专业不?
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼 让鞍山人走出对<艺术设计>专业的认识误区 平面艺术设计.(室内外和园林景观)环境艺术设计.网页设计以及三维动画设计.Potoshop.3DMA ...
- 独立院校中计算机专业,计算机专业最热门的“实力派”十大院校
全国共有116所开设了计算机专业的大学参与了计算机专业大学排名,其中排名第一的是清华大学,下面有途网小编跟大家说说计算机专业最热门的"实力派"十大院校,希望对你有帮助. NO.10 ...
- 自主招生计算机专业,计算机专业自主招生自荐信范文
以下是CN人才网小编准备的一篇计算机专业自主招生自荐信范文,一起来看看吧. 尊敬的领导: 您好!大学四年来,我学习刻苦,成绩优异,曾多次获得奖学金.在师友的严格教益和个人努力下,我具备了扎实的基础知识 ...
- 中法计算机专业,计算机专业中法对照词汇
法语计算机专业词汇,对从事翻译工作和喜爱法语学习的人士是一个有益的补充. respecter les droits de propriété sur ces œuvres尊重作品的著作权 sur In ...
- 职专计算机怎么学,浅析职业中专计算机专业计算机教学
[摘 要] 目前职业中专学校计算机专业存在着学生素质不高.课程结构不合理.考核形式单一等影响自身发展的因素.要想在发展的大趋势中争得自身生存和发展的空间,不断缩短与社会需求的差距,职业中专计算机教学改 ...
- 计算机专业计算机 等级怎样填,计算机水平一般怎么填
很多计算机专业的学生毕业找工作时,不知道自己简历上计算机水平一般怎么填,小编就为大家讲一下计算机水平一般怎么填. 计算机水平一般怎么填 1.如果您参加过全国计算机等级考试,可根据您的考试等级进行填写, ...
- 职业理想规划计算机专业,计算机专业的职业生涯规划书范文
关于计算机专业的大学生职业生涯规划的一篇范文,为计算机专业的学生职业生涯提供一点建议. 职业生涯规划书 一.我今后的十五年规划 (2011年--2025年,21岁至35岁) 总体目标:完成大学阶段本科 ...
最新文章
- 好程序员Web前端教程分享Vue学习心得
- 第七届蓝桥杯大赛个人赛省赛(软件类)B组真题
- 富士通台式电脑_英特尔X86架构霸权终将崩塌,ARM架构才是未来PC电脑市场的王者?...
- react+dva+antd接口调用方式
- DeepLab v2
- 一天搞定CSS:初识css--01
- 路由器启动后如何定位IOS?
- idea新建scala文件_IDEA maven项目中新建.scala文件
- linux运行查依赖,linux运行命令缺少依赖库的查找方法
- [转载] python 调用自己的方法报错,numpy.ndarray object has no attribute brighten
- HTML和CSS代码片段快速编写方式(Emmet Documentation)
- SQL删除重复数据只保留一条
- C语言指针学习(超详细)
- STM32CubeMX配置DCMI+DMA之OV2640
- 小米电视ec、小米电视es、小米电视ea2022款的区别
- 海康威视的视频如何显示在web页面上显示
- 了解Intel IPP
- linux vi 保存退出与不保存退出
- Evernote新搭档Evertracker,掌控自己的时间(视频)
- Eclipse对html和js代码自动提示