基于URL特征的网站结构信息挖掘

王晓飞11

(北京邮电大学模式识别实验室)

摘要:本章首先深入的研究了网站的结构和URL的特征,然后制定了三元组节点的URL层次树的构建规则,利用建立的URL层次树描述网站的层次结构,最后设计了根据URL层次树对URL进行网页分类方法。构建URL层次树,首先要根据网站的首页建立URL层次树的根节点,然后利用网络爬虫,将URL层次树添加枝叶,最后对形成的URL层次树,进行噪声无用信息剪枝,形成最终的网站核心URL层次树。利用URL层次树进行URL分类的过程,首先需要建立URL解析器,用于规范和分解URL;其次,利用URL层次树和URL相似度公式,将待分类URL和已知节点URL相似度匹配,找到所属类别,实现分类。实验证明,该方法有效简单,分类效果准确。

关键词:URL层次树;网站结构;URL相似度;链接结构;URL特征

中图分类号:TM 393  文献标志码: A


 

0   引言

随着互联网的快速发展、网络信息的急剧膨胀,互联网提供的信息越来越多变成大量、广泛、动态、分散、不易管理的信息。URL作为网络资源的唯一地址标识,具有很多有效的特征,例如:时序特征、正交特征、长度特征等。利用URL特征不仅可以重构网站的层次结构关系,优化网站结构,合理组织网站信息关系,而且可以快速鉴别网页的类别,提高搜索引擎、推荐系统的运行效率,有效的更新各类别的网页。

一个网站一般包含三种结构类型的网页:首页式、列表式和正文式。这三种结构的网页功能各自不同,处理的方法也不同,当我们需要对一个网站进行信息挖掘时,往往需要针对不同的类别进行分析。本文通过URL特征构建网站的层次结构树,不仅能够帮助用户分析网站的主题层次,而且能够自动识别URL网页在网站的所属类别。这种方法既能避免人工分类所带来的时间、人力耗费,又能弥补单纯基于向量空间模型分类准确性过低的缺欠。

1  相关工作

根据文献1所说:Web网站表现为一个图,它的页面是图的节点,节点和节点之间的弧,表现为页面之间的一种关联。要做的工作就是从这些关联中去抽取出相应的层次结构,也就是从一个图的关系中抽取出一棵树的层次关系[1]。通过对大量的文献阅读,发现目前网站的层次结构抽取方法都类似文献1总结的过程:对网站的拓扑结构进行分析,提取关键节点和关键链接,形成简约的层次结构分类树[2][3][4]。这样的方法通过逐个扫描具有源代码的Web网站每个页面,虽然最终能够获取到网站的层次结构树,但是最后形成的层次结构树无法用于页面的区分,一些方法单纯的分析URL链接字符串,也无法获取网站的主题信息。

本文采用三元组构建URL层次树,用于映射网站的层次结构。构建的URL层次树不仅能够自动构建网站的链接结构,描述网站的主题层次信息,而且能够用于URL页面的类别识别。

2  网站结构特征研究

2.1         网站的结构研究

网站的结构指的是网站中页面之间存在的层次关系,按性质可以分为物理结构和链接结构,这两种结构具有既有区别又紧密联系。网站结构主要有以下几点关键的作用:

(1)网站结构可以影响网站内部页面的重要性:网站结构在决定网站内部页面的重要性方面,起到非常关键的作用,比如合理的内部链接策略就可以对重要页面进行突出、推荐等操作;

(2)网站结构是衡量网站用户体验好坏的重要指标:清晰的网站结构可以帮助用户快速获取所需的信息;

(3)合理的网站结构可以引导搜索引擎抓取更多有价值的页面;

通过对网站结构的分析,可以获取到网站的层次体系,例如栏目的划分、内容的关系、主题层次的结构等,利用这些信息可以优化网站结构,改善用户体验,提高网站对搜索引擎的友好性。

2.1.1       网站的物理结构

网站物理结构,又称为网站的目录结构,就是指网站的实际目录结构,网站文件服务器上的实际物理存储方式[5]。网站物理结构,一般分为网站扁平结构和网站树形结构。

扁平结构的网站,就是网站所有的网页都存放在网站的根目录这一级别,形成一个扁平的物理结构[5]。多用于建设一些中小型企业网站。优点:有利于搜索引擎抓取。缺点:内容杂乱,用户体验不好。树形结构,就是在根目录下分成多个类别(目录),然后在每个类别下再存放上属于这个类别的网页文件[6]。树形结构的网站一般适合类别多,内容量大的网站,像资讯站,电子商务网站等等。优点:分类详细,用户体验好。缺点:分类越深,不利于搜索引擎抓取内容。

2.1.2       网站的链接结构

网站的链接结构,也可以被称作网站的逻辑结构,指的是由网站内部各页面之间相互链接所形成的链接网络图。一般网站的内部链接分为三种基本方式[7]:

(1)树状链接结构:这种结构一般是一对一的结构,首页链接->二级页面->三级页面。这样的结构优点是条理清晰,但是访问效率低;

(2)星状链接结构:这种结构一般是一对多的结构,每个页面之间都可能存在链接。这样的结构的优点是访问方便快捷,缺点是链接态度奥,条理混乱;

(3)混合型链接结构:实际网站建设中,人们常将上述两种结构结合起来使用,取长避短。

  实际上,网站的链接结构很复杂,网页上大大小小的链接,有指向同级页面的,有指向上级页面的,也有指向下级页面的;不同的页面链接中,也有重复的等等类似的。如何合理的分配自己的链接层级,比设计网站的物理结构更为复杂,更为细致化。

2.1.3       网站链接结构与物理结构

网站链接的拓扑结构,是建立在网站的物理结构基础之上,但跨越物理结构[8],并反映网站的物理结构。比较好的情况就是网站的链接结构与物理结构相吻合。

链接结构和物理结构的区别在于,链接结构由网站页面的相对链接关系决定,而物理结构则有网站页面的物理存放位置决定。在网站的链接结构中,通常采用链接深度来描述页面之间的链接关系。链接深度指从源页面到达目标页面所经过的路径数量。网站的链接结构很复杂,而且时常会更加需求而改变,而物理结构相对稳定。树形的链接结构:是用于分类、描述网站结构的有效形式。网站的链接结构从用户视角去映射网站的结构,而网站的物理结构更多体现的是开发者角度认知的网站结构图。

对于网站的结构,采用链接结构分析,更加的贴近用户的需求,相对物理结构,更具有实际意义。

2.2         网站的全局特征分析

2.2.1       层次特征

传统的网站链接结构研究认为整个网站是一个平面图结构,但是从用户的角度来观察网站,网站呈现的是有层次的树状结构,例如新浪的体育版,层次结构如图2-1所示。网站呈现的这种层次目录结构是网站物理结构所决定的,这种层级结构稳定的表现了网站物理存储的一些结构信息。显然,网站的链接结构并不能直接等价于网站的层次目录结构,但由图,可以看出网站的链接结构,在一定程度上体现出了网站的层次特征。

图2-1 新浪体育版层次部分结构示意图

2.2.2       统计特征

Web的链接挖掘,例如PageRank算法、HITS算法,己经成功地应用于Web搜索和信息挖掘上,但由于网站内的链接结构不同于Web网络,网站内的链接指向代表了网页创建者的一定意愿,网站内的链接具有导航性和推荐性,HITS算法认为站内链接不具备推荐性而去掉了站内链接的原因就是网站内的链接不完成具有随机的推荐性,很大程度上受网页制作者的意愿。

一般来说,在一个网站中,链接指向一般服从以下情况:推荐和导航页面指向子网页;兄弟网页之间相互指向;叶子节点指向推荐和导航页面。站内具有导航性和推荐性的链接,如首页,在站点中,会被大部分页面所引用,在站点的统计信息中,出现的次数会较多,即节点入度大,而不具有导航性和推荐性的链接,如正文页面,可能只会被同级和上级的页面所引用,节点入度小。利用上述的分析,可以利用网站内导航和推荐页面和正文页面存在的统计规律对站点网页进行区分。

2.3         网站内的单个页面结构特征分析

根据文献9,将网页基于页面结构特征分为了首页式、列表式和正文式[9]。这三种结构的网页功能、作用完成不同,在进行信息挖掘时,对这三种结构的网页采用的处理方法也不同。正确的区分网页的类别,针对不同的类别进行网页的分析,才能获取到准确的信息。

2.3.1       首页式

首页式就是网站的首页。首页式在网站中的主要功能是展现网站的主要内容、呈现用户导读和显示网站的最新信息。对于中小型网站,可能只包含一个首页式,但对于大型网站,网页中有多个主题,可能每个主题都包含一个首页式。首页式页面的特点主要有以下几点:链接多、栏目多、展现内容多、源代码行较多、块与块之间大小相近、对应的锚文本短,分布在多个页面上。首页式包含的链接往往跨层引用网站中的其他页面。首页式包含的链接大多属于首页同级的链接和正文式链接,同级链接出现次数少,但是具有中心性,长时间存在;正文式链接出现次数多,但出现时间短,很快被新的页面替代。

2.3.2       列表式

列表式页面指的是网页主要使用列表的形式呈现若干条记录,经常含有分页的功能,因此列表式页面对应的锚文本多是数字,“下页”等关键字。列表页面的结构相对简单,一般采用重复模式结构。列表式页面主要的作用是用简洁概括的语言表述记录条对应的正文页面的内容,作为正文页面的导读。列表式页面是网站正文页面的最直接上级。

2.3.3       正文式

正文式页面指含有正文内容的网页,是网站层次中底层的页面。正文式页面是网站详细信息的呈现,因此一个正文式页面往往拥有一个明确的主题。正文式页面的特点是正文位于网页源文件的中部、以中文字符为主、非链接文字长,链接文字短,而且指向正文页面链接的锚文本通常较长,分布在很少的页面上。正文式页面通常不会单独存在于网站中,多寄托于网站的一个主题;多个正文式页面共同描述网站的某个主题,列表式页面包含了它们的链接集合。

网站的结构往往是由这一系列的首页式、列表式和正文式页面构成,如图2-2所示。对于网站而言,正文式网页很少更新,更新较多是列表式和首页式;网站的大部分页面都是正文式页面,正文式页面包含了某一主题的详细信息。识别出列表式和首页式页面将能够大大的提高更新的效率,而对正文网页的信息抽取可以提高网站的网页的分类、聚类的精度。

图2-2 网站结构示意图

3  URL特征研究

3.1         URL介绍

URL用于唯一标识和描述Web上的网页和其他资源。它可以指向本地的磁盘、局域网上的一个计算机,更多的时候,指向的是Internet上的站点。URL具有统一的基本语法,对应的格式为:Protocol : //[user: password]@host[:port]/path /[?query][#fragment]。其中参数的意思分别为:

Ø  Protocol:表示网络传输协议,最常见的是HTTP协议;

Ø  Host:表示主机名,存放资源的服务器的域名系统DNS主机名或者IP地址,某些时候,在主机名前也可以包含连接到服务器所需的用户名和密码(格式为:user:password);

Ø  Port:端口号,通常为整数,可选择是否有,省略的时候使用方案为默认端口;

Ø  Path :路径,通常由零活多个“/”符号隔开的字符串组成,一般用来表示主机上的一个目录或文件地址;

Ø  Query:查询,通常用于为动态网页传递参数,用“&”隔开,可以由多个参数,每个参数的名字和值用“=”隔开,也是可选择是否有;

Ø  Fragment :信息片段,为字符串,用于指定网络资源当中的片段。比如一个网页中有多个名词解释,就可以使用fragment 直接定位到某一个名词解释;

URL代表的就是Web的地址,人们往往很容易直观的从URL链接理解描述的资源类型和内容。通过URL,我们可以预知网页的很多信息。但是URL长度有限,需要对URL进行适当的解析和扩展,形成多个有意义的独立信息特征项,用这些特征项描述URL,才能完全发挥URL的作用。

3.2         URL特征分析

URL链接作为Internet的唯一标识,具有一些显著的特征。URL特征具体包括:目录特征、链接锚文本、链接环境、当前URL对应页面的的出度入度等。下面重点介绍URL的目录特征和锚文本特征。

3.2.1       目录特征

网站设计者在对网站组织结构的时候,为了便于信息的管理,会根据对知识的理解,将网站的内容分类,相同主题的页面放在同一物理目录下,根据主题层次组织成树形结构目录。这种目录将会映射到URL链接上。静态URL一般真实的反应了页面的物理存放路径,而伪静态多为虚拟指向路径,所以URL存在的目录结构描述网站的层次结构是准确的,但不是完善的[1]

URL的表现形式是一个有特殊意义的字符串。URL的每级目录由一些能够代表网站、区域、主题的字符串构成。根据上述对URL目录的分析,可以将网站的URL目录结构用“/”,“?”,“&”等作为界定符划分为站点、一级目录、二级目录、三级目录、……、尾目录,例如图3-1。一般对于小型网站,URL的目录大多在3层,大型的网站URL目录会达到4-5层,目录层级太深的网站是不适合搜索引擎抓取和用户体验的。

图3-1 链接目录示意图

站点:主要是URL链接的域名,用于区分站内链接、站外链接。一般二级域名相同的链接都可视为站内链接;

N级目录:用于表示网页在网站树形结构中所处的位置,对应的字符串用于描述当前的主题类别、功能;

尾目录:多用于唯一确定当前页面,所以往往具有特殊字符串。例如,对于首页式页面,往往以index,default这样的字符串表示页面是树形结构某一子树的根节点;对于列表式页面,经常是“page=n”这样的字符串表示动态查找当前列表页面;对于正文式页面,多是数字页。

网站的URL目录和网站的物理目录具有一定的等价关系:URL目录的一级或二级目录等价于了网站的物理目录;URL的二级目录以下不一定等价于网站的物理目录,但可以用URL二级以下目录表达网站的页面组织结构。

3.2.2       锚文本

锚文本是指当一个网页具有指向另外一个网页的链接时,与此超链接相对应的描述文字[10]。它是建立了关键词和URL之间的一个桥梁。锚文本最直观的作用就是作为用户浏览网页的向导,提高用户体验,增加网页的点击率。通过对许多门户网站的研究,发现锚文本不仅能够作为网页的向导,精确概要的描述URL指向页面的内容,而且网站内部的锚文本也遵循着一定的原则对URL进行优化,因此利用锚文本对URL指向页面的重要性进行分析具有一定可靠性。总结网站锚文本和URL联系如下:

(1)锚文本基本是简要概括的说明某一事物的词语,尽量贴近用户可能的查询词,因此简短的锚文本一般对应具有推荐性和导航性的首页式页面,而内容较多的锚文本对应正文式页面;

(2)同级URL的锚文本长度是相近的,且格式较为规整;

(3)某些特殊的锚文本只会对应特殊的网页,但特殊的网页不一定对应特殊的锚文本,例如“首页”锚文本只会对应首页式页面,而首页式页面可能对应“体育”;

(4)均匀成块出现的锚文本链接具有相关性;

(5)具有推荐性和导航性的链接锚文字一般很少采用形容词和动词,多使用名称短语,而且在站点出现的频率很高;

链接锚文本能精确的描述所指向URL页面的内容,链接锚文本能对所指向页面做出主题、类别的预测,合理利用链接锚文本,可以很好的获取网站的主题信息。

4  基于URL的网站层次结构挖掘

4.1         URL

文献11,Shih and Karger采用“/”,“?”,“&”等作为界定符,建立URL树描述网站的链接结构。方法用http作为URL树的根节点,每个URL都是从http根节点开始,建立一个从根到叶子的路径。相邻的树枝具有URL相似性,很大可能属于同一个类别。

这个方法存在的优点是可以模拟人在区分URL链接时所采取的思考方式,适合站内URL结构描述,根据URL相似度可以区分链接类别。采用URL树,可以将网站的链接结构分析转变为URL树的层次结构和节点分析,但是单纯用只包含链接字符串的URL树是没有办法满足实际需求的。例如,无法获取网站的主题层次信息;无法判断一个URL属于正文式、列表式,还是首页式链接。网页中存在多个不同的列表式、首页式和正文式链接,这些链接对应于URL树的某个层级上的节点路径,如何通过URL树区分这些链接类别,发现一些节点的重要性。根据上述这些问题,需要对URL树进行进一步的扩展。

4.2         三元组映射URL集

根据上文所说,单用URL字符串构建的URL树是无法详细丰富的描述网站的结构,所以本文提出使用三元组集合映射网站的URL集。URL三元组定义为 的集合,其中x、y、z参数分别表示URL的字符串、URL的锚文本、URL页面的入度,website表示网站。

URL字符串作为URL最直接的表现形式,是无法缺少的,它拥有丰富的网站结构信息。通过对网站URL字符串集的分析,可以获取到网站的链接结构、层次特征;对单个URL字符串的分析,可以获取到当前链接的目录层级,所属类别。

URL锚文本作为用户浏览网页的向导,包含了网站的许多内容信息。通过对URL锚文本的分析,可以获取到网站的主题、页面概要等,同时根据同类别页面锚文本相近的原则,锚文本也可以用于区分页面的类别。

通过上文2.2.2节的分析,可以知道在一个网站中,用URL页面的入度去衡量URL页面的推荐和导航性是可靠的。不同的网站的不同页面的入度是不相同的,但是在同一个网站中,页面推荐和导航性越高,它的入度是越大的,因此页面的入度,可以被用了描述网页的导航和推荐性。

利用三元组,扩展了对URL的描述,丰富了URL所包含的信息,为网站的结构分析提高了丰富的数据集。

4.3         网站URL层次树的构建

4.3.1       URL链接的解析器

URL链接解析器的作用主要是过滤无用链接和分解站内链接。无用链接主要指的是站外链接和站内噪声链接。站外链接对分析网站的结构信息有很大的干扰作用,需要过滤,过滤的原则主要是使用绝对路径的链接中,二级域名和网站起始首页二级域名不相同的链接都被视为站外链接。站内链接去除的原则主要是去除非HTTP协议的URL、去除图片、视频和其他不指向网页的URL和去除多余的导航链接,例如:联系我们,关于。

因为链接的动态性,如果直接将通过“/”,“?”,“&”等作为界定符,分解URL得到的字符串数组按顺序作为当前URL位于URL树的路径,会导致URL树结构的信息重复,所以需要字符串数组重新排序。

例如:http://www.zycg.gov.cn/article/llist?catalog=StockAffiche&page=3

和http://www.zycg.gov.cn/article/llist?page=3&catalog=StockAffiche是相同的链接,但会导致URL树出现llist->catalog=StockAffiche->page=3和llist->page=3->catalog=StockAffiche不同的路径。因此制定以下链接分解过程:

(1)根据“/”进行解析,形成字符串数组,将数组的最后一个元素进行步骤(2),其他元素归入有序数组;

(2)观察字符串数组的最后项是否包含“?”,如果没有则跳转到结束,否则跳转到(3);

(3)根据“?”分隔,形成字符串1和字符串2,字符串1归入有序数组;

(4)字符串2根据“&”分隔,把分隔后的每一项“=”对应的值取出,根据由字母构成的字符串优先其他字符串、长度短的字符串优先其他字符串的原则依次排列,逐个归入有序数组中。

例如:http://www.zycg.gov.cn/article/llist?catalog=StockAffiche&page=3最后形成的有序数为:http://www.zycg.gov.cn/-article/-llist-catalog=StockAffiche-page=3。

4.3.2       网站URL层次树的构建步骤

为了获得网站的树型结构,首先需要结合爬虫程序,用于获取网站的链接。具体步骤如下:

(1)将起始首页作为爬虫程序的起始种子,初始化爬虫,设置一定的深度,完成指定深度的网站爬取;

(2)根据起始页面链接的字符串、锚文本、初始入度设为1,构建URL层次树的根节点;

(3)利用爬虫获取当前链接页面的子链接和子链接对应的锚文本;

(4)将子链接集依次经过URL链接解析器,形成对应的链接字符串数组,数组的每个元素对应于URL层次树的节点。利用字符串数组从URL层次树的根节点开始构建链接路径。如果当前路径已经存在,则对路径的最后节点三元组的入度+1;如果不存在,则构建这条路径;

(5)当前页面的子链接放入到爬虫的带爬队列中,跳转到(3),直到满足制定深度。

由上述可以看出,URL层次树的每个三元组节点对应网站的一个真实链接,图4-1是一个URL层次树构建逻辑图。

图4-1 URL层次树构建逻辑图

4.4         基于URL层次树的网站信息挖掘

4.4.1       URL层次树性质

通过对网站URL的爬取和解析,我们构建了网站的URL层次树,分析网站结构和URL层次树关系,可以得到如下性质:

Ø  相邻的树枝具有URL相似性,而且层次越深,属于同一个类别可能性加大,这是由于网站的物理结构决定的;

Ø  同一层次的节点在网站中具有同等作用,这是由于网站设计者在组织信息时采用层次结构决定的;

Ø  从URL层次树由上到下,三元组节点是首页式的概率逐渐减少,是正文式的概率逐渐增大;

Ø  URL层次树上拥有较多叶子节点的非三元组节点是正文式链接的某个路径上的元素,这是由于网站的页面大多由正文式页面构成;

Ø  将叶子节点的紧近上层节点根据包含的叶子数排序,叶子聚集最多的是正文式节点,其次是列表式节点;

Ø  正文式节点的上级如果仍是一个三元组节点,那么这个三元组节点对应列表式,且正文式节点只会出现在叶子节点上;

Ø  URL树节点入度小、锚文本长度长是正文式节点的显著特征,入度大、锚文本短且具有概括性是列表式节点的显著特点;

Ø  URL层次树同一子树下的三元组节点入度,具有统一类型的页面值相近,正文式页面入度最小,列表式次之,首页式最多的特点;

Ø  “首页”这样的锚文本是特定对应首页式页面,“更多”,“下一页”、数字这样的锚文本是特定对应列表式页面;

Ø  “index”、“default”包含这样字符串的URL不可能对应正文式页面。

4.4.2       基于URL层次树的网页结构分类方法

网站包含三种结构类型的网页,首页式、列表式和正文式。三种结构的网页功能,作用各自不同。要区分一个URL到底是首页式、列表式还是正文式,最简单的办法就是判断URL相似性。

4.4.2.1  URL页面结构相似度计算

链接相似度是由RonW,Bienvenido V等人在1996年提出来的,他们从网页最短路径、网页的共同祖先和包含的共同子孙数目进行链接相似度分析[12]。而在URL层次树中,每一链接都是一个从子叶到根节点的路径,如果两个链接拥有相同的路径,那么相似度达到最大值。

根据上文2.2.2节和3.2.2节分析,可以知道相似结构链接的锚文本、入度也相似,因此上述RonW提出的方法需要进一步改进,定义基于三元组的URL层次树的链接结构相似度:如果A链接和B链接相似,那么它们的锚文本、入度和字符串都相似。

锚文本相似主要通过锚文本的长度进行定义,计算公式如下:

公式4-1

入度相似度计算公式如下:

公式4-2

而链接的字符串相似,如果使用简单的用字符串的编辑距离来定义,将会忽略URL的目录特定,因此我们定义URL字符串的相似度如下:URL路径级数相等,那么A、B叶子到根节点路径相似,叶子节点满足字符串相似规则;如果URL路径级数不相等,则A路径被B路径包含。

可以看出链接1:http://video.sina.com.cn/ent/s/h/2010-01-10/163961994.shtml和链接2:http://video.sina.com.cn/ent/s/h/2010-01-10/163961890.shtml是相似的URL,但是与链接3:http://video.sina.com.cn/ent/m/c/2010-01-10/164661995.shtml,相似度就应该降低了,所以,根据3.2.1节,将URL抽象一维特征,每级目录是特征。如果当前目录相同,则特征值为1,不相同,则取0。由此得链接1与链接2特征值为(1,1,1,1,1,0),相似度为5/6;链接1与链接3(1,1,0,0,1,0),相似度为3/6。

具体公式算法如下:

公式4-3

综合上述所说,URL结构相似度公式为:

, 是可调参数,根据当前已知参数平均。

4.4.2.2  基于URL层次树的网页结构分类步骤

网页结构分类可以提高搜索引擎运行的效率、有效抽取各类别网页信息、高效更新网站。传统的网页分类办法主要是利用网页的文本特征,将网页分类转变为文本分类,通过标记的文本训练,得到分类标准,实现网页分类,不适用网页的结构分类,而且传统网页分类一般是有指定的学习,因此需要人工收集标记样板,费时费力,当网页中包含大量噪声和重复信息,网页的分类也容易产生主题偏移。使用网页的URL进行网页结构分类,快捷简便。本文通过构建的URL层次树,利用URL层次树的性质,有效的实现了URL结构的分类。具体步骤如下:

(1)将4.4.1节URL层次树性质转换为首页式、列表式和正文式三种结构类别的分类标准;

(2)对URL层次树的子树进行类别确定,如图4-2;

(3)将待预测URL解析到URL层次树中,出现以下三种可能:

n  URL和URL层次树中某一节点相同,那么取出URL层次树的节点类别即是待预测URL的类别,如图4-3情况1;

n  URL属于URL层次树的某一子树集合,那么子树的类别即是待预测URL的类别,如图4-3情况2;

n  URL不属于任何子树集合,那么层次树中与子树路径相似度最大的类别即是待预测URL的类别,如图4-3情况3。

图4-2 URL层次子树结构类别判断

图4-3 待预测节点分类图

4.4.3       URL层次树的主题提取

站点主题层次能够为用户站点一个站点的总体主题层次概括,帮助用户了解当前浏览的页面与已经浏览过的页面之间的语意关系[13].主题引擎是为了搜索某一主题而出现的搜索工具,但是目前主题搜索引擎对网站的子主题搜索还不完善,无法准备的获取到网站的子主题。将网站的主题层次应用到搜索引擎,可以为用户提供一个更有效的搜索结果呈现方法。

网站的URL层次树的每个三元组节点包含了链接的锚文本,网页的锚文本在很大程序上描述了网页的基本内容。网站首页式和列表式页面在网站中起到了很大的推荐性和导航性,它们对应的锚文本具有简洁概括的作用。同时,URL层次树描述了网站的层次结构,因此可以根据首页式和列表式提出到网站的主题方法。由于链接的锚文本并非恰好准确概括的描述了当前页面的主题,需要进行以下过滤和修正。方法主要从过滤、修正、层次三方面描述:

(1)过滤规则

l  入度小于一定阈值的页面不能作为主题页面;

l  如果当前页面的锚文本过长不能作为主题页面;

(2)修正规则

l  锚文本是网站保留词的页面,例如“更多”,“下一页”,对于这种页面,我们需要根据4.4.2节将其页面中链接是正文式的找出来,然后将正文式链接的锚文本进行分词和词频统计,获取出现词频最高的词作为其主题。

(3)层次规则

l  从起始首页的锚文本作为主题起始节点,建立主题层次第一层;

l  将URL层次树的每层作为主题层次的一层,建立锚文本路径。例如链接:http://sports.sina.com.cn/tennis/ausopen12/,根据其在URL层次树的节点寻找根节点,主题层次路径为:澳网/网球/新浪体育。

根据上述,得到新浪体育的主题层次如图4-4所示:

图4-4 新浪体育主题层次简单示意图

5  实验结果

5.1         评测方法简述

5.2         实验结果和分析

实验中我们采用文件夹目录存储三元组,每个三元组对应目录下的

6  总结与展望

面对日益膨胀的网络信息,网站的结构信息挖掘变得尤为重要。本章重点研究了网站的结构和URL的特征,利用网站的URL特征,提出了用URL三元组映射URL,构建网站的URL层次树。利用URL层次树,可以实现对网站的链接结构分析、网站的主题层次构建和URL链接的分类。通过实验证明,方法可以正确的构建网站的主题层次结构关系,准确的识别URL在网站的所属类别,为提高搜索引擎、网站管理、推荐系统的运行效率和各类别的网页更新带来了巨大意义。进一步的工作还有很多需要完成,例如,如何利用URL层次树将虚拟路径的正文式页面进一步细致的划分主题类别;如何解决网站多服务器带来的URL层次树过于复杂的问题。

7  参考文献

[1] 冯雁,王申康. Web站点层次结构抽取算法的分析和实现[J].浙江大学学报.2005,39(10)

[2] 谭金波. 基于层次结构的网页自动分类系统的设计与实现[J].情报杂志.2009,28(6)

[3] 朱英,陈谊.信息抽取中网站结构树生成方法的研究[J].北京工商大学学报.2006,24(5)

[4] 邓健爽,郑启伦.基于提取网站层次结构的网页分类方法[J].计算机应用.2006,26(5)

[5] 丁军艳.网站结构对搜索引擎抓取的影响[D].郑州大学.2011

[6] 黄世吉,梁元超,常春英.Dreamweaver网页制作案例教程.第l版[M].北京:航空工业出版社,2010.11

[7]范生万,张磊.网络信息采集与编辑.第1版[M].北京:北京大学出版社,2010.95

[8]王艳芳.Dreamweaver实例教程.第1版[M].北京:电子工业出版社,2004.7

[9] 李蕾,王劲林.基于FFT的网页正文提取算法研究与实现[J].计算机工程和应用.2007,43(30)

[10] 陆一鸣, 胡健, 马范援.一种基于源网页质量的锚文本相似度计算方法.LAAT[J].情报学报, 2005, 24( 5) : 548- 554

[11]Shih, L.K. and Karger, D.R.(2004)“Using  URLs and  table layout  for  web  classification  tasks,”Proceedings of  the  13th International  World Wide Web Conference(WWW2004),May 2004,New  York ,New York ,USA.

[12] Ron W,Bienvenido V,Mark A,etal. HyPursuit: A Hierarchical Network Search Engine that Exploits Content- Link Hypertext Clustering. Proceedings of the Seventh ACM Conference on Hypertext,Washington,1996:180-19

[13] Olston C.and Chi E.H.ScentTrails.Integrating Browsing and Searching on the Web.ACM Transactions on Computer Human Interaction,TOCHI,2003, 10(3):17

基于URL特征的网站结构信息挖掘相关推荐

  1. 基于韦伯特征的非结构化道路检测

    基于韦伯特征的非结构化道路检测 步骤: 1. 取滤波器kernal={1,1,1, 1,-8,1, 1,1,1}: 2. 遍历图像,获取当前点center和当前点八个方向点的像素p1,p2,p3,p4 ...

  2. python lncrna_一种基于序列组成,结构信息及理化特征的lncRNA鉴定方法与流程

    本发明属于生物信息领域,尤其涉及lncRNA的鉴定. 背景技术: : 在人类基因组中,有80%的序列具有生物学功能,而编码蛋白质的序列只占基因组的不到 2%.我们将长度大于200碱基,不能编码蛋白质的 ...

  3. 基于Pubmed数据库的蛋白质修饰后的信息挖掘.完整代码+数据 毕业设计

    完整代码: https://download.csdn.net/download/weixin_55771290/87944120 摘 要 如今Pubmed文献检索系统上发表的医学文献的数量十分庞大, ...

  4. 2018-3-12论文(非结构化网络中有价值信息数据挖掘研究)笔记一总体思路以及三种目前进行价值信息挖掘的研究思想

    文章主要的内容: 提出了基于关联规则的非结构化网路中有价值信息数据挖掘的方法 总体的思想: (1)利用特征提取的方法进行初步的分类与识别,提取出不同文本类型的特征, (2)利用关联规则方法计算各个类型 ...

  5. 基于生物特征信息的身份识别(指纹、面部识别的方式和原理)的使用问题的思考

    1.应用现状及应用案例介绍 近年来,随着互联网的飞速发展,各式各样的应用也不断发展,给我们的生活带来了极大的便捷.生活中,我们日常使用我们个人的指纹以及面部信息来识别个人身份,还有虹膜技术和声纹识别技 ...

  6. 爬取起点网站图书信息(书名、作者、简介、图片url)

    # 爬取qidian网站图书信息(书名.作者.简介.图片url) import requests from lxml import etree import jsonclass BookSpider( ...

  7. 校园兼职网站php设计,基于PHP+MySql的校园兼职信息平台的开发浅谈

    Data Base Technique 0数据库技术基于PHP+MySqI的校园兼职信息平台的开发浅谈文刘晓智1杨雨锋2李万星2 表1:数据库一蹬表 摘要 首光简要介绍了编程语孬和MySql数据库的主 ...

  8. 基于Pubmed数据库的蛋白质修饰后的信息挖掘

    摘 要 如今Pubmed文献检索系统上发表的医学文献的数量十分庞大,且数量逐年增加,研究人员如果想人工地去查看找出Pubmed文献里面的知识是绝对不可能,因此,人们转而利用计算机去获取文献里面的知识. ...

  9. 机器学习在基于 URL 的客户端监控分析中的优化和实践

    本文首发于"Shopee技术团队" 摘要 传统的客户端监控分析场景中,采用按照具体的 URL 进行统计分析的方法,在面对一个应用可能会访问成千上万条 URL 时,结果就差强人意,不 ...

最新文章

  1. usaco Prime Palindromes
  2. React组件通信技巧
  3. Latex算法伪代码使用总结
  4. “挤掉”优衣库的Ubras、蕉内、内外等新内衣品牌们,到底牛在哪?
  5. 办公室琐事--沟通、交流
  6. JAVAWEB技术之七过滤器
  7. Redis分布式锁—SETNX+Lua脚本实现篇
  8. 推荐一个Python的开源小工具大合集!
  9. JSP的MVC模式(JavaBean、Servlet、JSP)
  10. day6 break continue for
  11. 安卓手机小说阅读器_手机阅读的好帮手,安卓小说神奇的扛把子
  12. UltraEdit编辑器中文乱码问题解决
  13. 简单几步去掉百度热搜
  14. jQuery 选择城市,显示对应的即时时区时间
  15. 网店系统SHOP++、V5shop、shopex全程分析
  16. Java 线程池常见误区
  17. img、link、html使用样式
  18. 中山大学软件工程c语言,2017年中山大学085212软件工程考研参考书目推荐
  19. 委外PR的BOM清单导出
  20. Halo——zcash新的零知识证明机制,无需Trusted Setup

热门文章

  1. 为Fragment设置转场动画
  2. 关于洗地机电池容量问题,你怎么看
  3. 【软件测试】盘一盘工作中遇到的 MQ 异常测试
  4. 【论文阅读】Finetuned Language Models Are Zero-Shot Learners
  5. 改变IDEA模板光标停留的位置
  6. 解决Windows安装MySQL时出现msvcr120.dll文件丢失问题(完美解决)
  7. u盘插上计算机未响应,插U盘没反应的一种情况与解决
  8. 英语背单词有用吗_英语背单词真的有用吗?
  9. 漫画 | 打死我也不学编译了!
  10. PL/SQL中存储过程int和out的用法