本文中,我将讨论任何用PHP内建的Expat解析器来处理XML文档。通过范例,我将演示Expat的处理方法。同时,范例可以告诉你如何:

建立你自己的处理函数

将XML文档转换成你自己的PHP数据结构

介绍Expat

:XML的解析器,同样称为XML处理器,可以使程序访问XML文档的结构和内容。Expat是PHP脚本语言的XML解析器。它同时也运用在其它项目中,例如Mozilla、Apache和Perl。

什么是基于事件的解析器?

XML解析器的两种基本类型:

基于树型的解析器:将XML文档转换成树型结构。这类解析器分析整篇文章,同时提供一个API来访问所产生树的每个元素。其通用的标准为DOM(文档对象模式)。

基于事件的解析器:将XML文档视为一系列的事件。当一个特殊事件发生时,解析器将调用开发者提供的函数来处理。

基于事件的解析器有一个XML文档的数据集中视图,也就是说它集中在XML文档的数据部分,而不是其结构。这些解析器从头到尾处理文档,并将类似于-元素的开始、元素的结尾、特征数据的开始等等-事件通过回调(callback)函数报告给应用程序。以下是一个"Hello-World"的XML文档范例:

<greeting>

Hello World

</greeting>

基于事件的解析器将报告为三个事件:

开始元素:greeting

CDATA项的开始,值为:Hello World

结束元素:greeting

不像基于树型的解析器,基于事件的解析器不产生描述文档的结构。在CDATA项中,基于事件的解析器不会让你得到父元素greeting的信息。

然而,它提供一个更底层的访问,这就使得可以更好地利用资源和更快地访问。通过这种方式,就没有必要将整个文档放入内存;而事实上,整个文档甚至可以大于实际内存值。

Expat就是这样的一种基于事件的解析器。当然如果使用Expat,必要时它一样可以在PHP中生成完全的原生树结构。

上面Hello-World的范例包括完整的XML格式。但它是无效的,因为既没有DTD(文档类型定义)与其联系,也没有内嵌DTD。

对于Expat,这并没有区别:Expat是一个不检查有效性的解析器,因此忽略任何与文档联系的DTD。但应注意的是文档仍然需要完整的格式,否则Expat(和其他符合XML标准的解析器一样)将会随着出错信息而停止。

作为不检查有效性的解析器,Exapt的快速性和轻巧性使其十分适合互联网程序。

编译Expat

Expat可以编译进PHP3.0.6版本(或以上)中。从Apache1.3.9开始,Expat已经作为Apache的一部分。在Unix系统中,通过-with-XML选项配置PHP,你可以将其编译入PHP。

如果你将PHP编译为Apache的模块,而Expat将默认作为Apache的一部分。在Windows中,你则必须要加载XML动态连接库。

XML范例:XMLstats

了解Expat的函数的一个办法就是通过范例。我们所要讨论的范例是使用Expat来收集XML文档的统计数据。

对于文档中每个元素,以下信息都将被输出:

该元素在文档中使用的次数

该元素中字符数据的数量

元素的父元素

元素的子元素

注意:为了演示,我们利用PHP来产生一个结构来保存元素的父元素和子元素

准备

用于产生XML解析器实例的函数为XML_parser_create()。该实例将用于以后的所有函数。这个思路非常类似于PHP中MySQL函数的连接标记。在解析文档前,基于事件的解析器通常要求你注册回调函数-用于特定的事件发生时调用。Expat没有例外事件,它定义了如下七个可能事件:

对象 XML解析函数 描述

元素

XML_set_element_handler() 元素的开始和结束

字符数据

XML_set_character_data_handler() 字符数据的开始

外部实体

XML_set_external_entity_ref_handler() 外部实体出现

未解析外部实体

XML_set_unparsed_entity_decl_handler()

未解析的外部实体出现

处理指令

XML_set_processing_instruction_handler() 处理指令的出现

记法声明

XML_set_notation_decl_handler() 记法声明的出现

默认

XML_set_default_handler() 其它没有指定处理函数的事件

所有的回调函数必须将解析器的实例作为其第一个参数(此外还有其它参数)。

对于本文最后的范例脚本。你需要注意的是它既用到了元素处理函数又用到了字符数据处理函数。元素的回调处理函数通过XML_set_element_handler()来注册。

这个函数需要三个参数:

解析器的实例

处理开始元素的回调函数的名称

处理结束元素的回调函数的名称

当开始解析XML文档时,回调函数必须存在。它们必须定义为与PHP手册中所描述的原型一致。

例如,Expat将三个参数传递给开始元素的处理函数。在脚本范例中,其定义如下:

function start_element($parser,

$name, $attrs)

第一个参数是解析器标示,第二个参数是开始元素的名称,第三参数为包含元素所有属性和值的数组。

一旦你开始解析XML文档,Expat在遇到开始元素是都将调用你的start_element()函数并将参数传递过去。

XML的Case Folding选项

用XML_parser_set_option()函数将Case

folding选项关闭。这个选项默认是打开的,使得传递给处理函数的元素名自动转换为大写。但XML对大小写是敏感的(所以大小写对统计XML文档是非常重要的)。对于我们的范例,case

folding选项必须关闭。

解析文档

在完成所有的准备工作后,现在脚本终于可以解析XML文档:

XML_parse_from_file(),一个自定义的函数,打开参数中指定的文件,并以4kb的大小进行解析

XML_parse()和XML_parse_from_file()一样,当发生错误时,即XML文档的格式不完全时,将会返回false。

你可以使用XML_get_error_code()函数来得到最后一个错误的数字代码。将此数字代码传递给XML_error_string()函数即可得到错误的文本信息。

输出XML当前的行数,使得调试更容易。

在解析的过程中,调用回调函数。

描述文档结构

当解析文档时,对于Expat需要强调问题的是:如何保持文档结构的基本描述?

如前所述,基于事件的解析器本身并不产生任何结构信息。

不过标签(tag)结构是XML的重要特性。例如,元素序列<book><title>表示的意思不同于<figure><title>。也就是说,任何作者都会告诉你书名和图名是没有关系的,虽然它们都用到"title"这个术语。因此,为了更有效地使用基于事件的解析器处理XML,你必须使用自己的栈(stacks)或列表(lists)来维护文档的结构信息。

为了产生文档结构的镜像,脚本至少需要知道目前元素的父元素。用Exapt的API是无法实现的,它只报告目前元素的事件,而没有任何前后关系的信息。因此,你需要建立自己的栈结构。

脚本范例使用先进后出(FILO)的栈结构。通过一个数组,栈将保存全部的开始元素。对于开始元素处理函数,目前的元素将被array_push()函数推到栈的顶部。相应的,结束元素处理函数通过array_pop()将最顶的元素移走。

对于序列<book><title></title></book>,栈的填充如下:

开始元素book:将"book"赋给栈的第一个元素($stack[0])。

开始元素title:将"title"赋给栈的顶部($stack[1])。

结束元素title:从栈中将最顶部的元素移去($stack[1])。

结束元素title:从栈中将最顶部的元素移去($stack[0])。

PHP3.0通过一个$depth变量手动控制元素的嵌套来实现范例。这就使脚本看起来比较复杂。PHP4.0通过array_pop()和array_push()两个函数来使脚本看起来更简洁。

收集数据

为了收集每个元素的信息,脚本需要记住每个元素的事件。通过使用一个全局的数组变量$elements来保存文档中所有不同的元素。数组的项目是元素类的实例,有4个属性(类的变量)

$count

-该元素在文档中被发现的次数

$chars -元素中字符事件的字节数

$parents -父元素

$childs - 子元素

正如你所看到的,将类实例保存在数组中是轻而易举的。

注意:PHP的一个特性是你可以通过while(list()

=

each())loop遍历整个类结构,如同你遍历整个相应的数组一样。所有的类变量(当你用PHP3.0时还有方法名)都以字符串的方式输出。

当发现一个元素时,我们需要增加其相应的记数器来跟踪它在文档中出现多少次。在相应的$elements项中的记数元素也要加一。

我们同样要让父元素知道目前的元素是它的子元素。因此,目前元素的名称将会加入到父元素的$childs数组的项目中。最后,目前元素应该记住谁是它的父元素。所以,父元素被加入到目前元素$parents数组的项目中。

显示统计信息

剩下的代码在$elements数组和其子数组中循环显示其统计结果。这就是最简单的嵌套循环,尽管输出正确的结果,但代码既不简洁又没有任何特别的技巧,它仅仅是一个你可能每天用他来完成工作的循环。

脚本范例被设计为通过PHP的CGI方式的命令行来调用。因此,统计结果输出的格式为文本格式。如果你要将脚本运用到互联网上,那么你需要修改输出函数来产生HTML格式。

总结

Exapt是PHP的XML解析器。作为基于事件的解析器,它不产生文档的结构描述。但通过提供底层访问,这就使得可以更好地利用资源和更快地访问。

作为一个不检查有效性的解析器,Expat忽略与XML文档连接的DTD,但如果文档的格式不完整,它将会随着出错信息而停止。

提供事件处理函数来处理文档

建立自己的事件结构例如栈和树来获得XML结构信息标记的优点。

每天都有新的XML程序出现,而PHP对XML的支持也不断加强(例如,增加了支持基于DOM的XML解析器LibXML)。

有了PHP和Expat,你就可以为即将出现的有效、开放和独立于平台的标准作准备。

范例

<?

/*****************************************************************************

* 名称:XML解析范例:XML文档信息统计

* 描述

*

本范例通过PHP的Expat解析器收集和统计XML文档的信息(例如:每个元素出现的次数、父元素和子元素

* XML文件作为一个参数 ./XMLstats_PHP4.PHP3 test.XML

* $Requires: Expat 要求:Expat PHP4.0编译为CGI模式

*****************************************************************************/

//

第一个参数是XML文件

$file = $argv[1];

// 变量的初始化

$elements = $stack = array();

$total_elements = $total_chars = 0;

// 元素的基本类

class element

{

var $count = 0;

var $chars = 0;

var $parents = array();

var $childs = array();

}

//

解析XML文件的函数

function XML_parse_from_file($parser, $file)

{

if(!file_exists($file))

{

die("Can't find file \"$file\".");

}

if(!($fp = @fopen($file,

"r")))

{

die("Can't open file \"$file\".");

}

while($data = fread($fp,

4096))

{

if(!XML_parse($parser, $data, feof($fp)))

{

return(false);

}

}

fclose($fp);

return(true);

}

//

输出结果函数(方框形式)

function print_box($title, $value)

{

printf("\n+%'-60s+\n", "");

printf("|%20s", "$title:");

printf("%14s", $value);

printf("%26s|\n", "");

printf("+%'-60s+\n", "");

}

//

输出结果函数(行形式)

function print_line($title, $value)

{

printf("%20s", "$title:");

printf("%15s\n", $value);

}

// 排序函数

function my_sort($a, $b)

{

return(is_object($a) && is_object($b) ? $b->count -

$a->count: 0);

}

function

start_element($parser, $name, $attrs)

{

global $elements, $stack;

//

元素是否已在全局$elements数组中?

if(!isset($elements[$name]))

{

// 否-增加一个元素的类实例

$element = new element;

$elements[$name] = $element;

}

//

该元素的记数器加一

$elements[$name]->count++;

// 是否有父元素?

if(isset($stack[count($stack)-1]))

{

// 是-将父元素赋给$last_element

$last_element = $stack[count($stack)-1];

//

如果目前元素的父元素数组为空,初始化为0

if(!isset($elements[$name]->parents[$last_element]))

{

$elements[$name]->parents[$last_element] = 0;

}

//

该元素的父元素记数器加一

$elements[$name]->parents[$last_element]++;

//

如果目前元素的父元素的子元素数组为空,初始化为0

if(!isset($elements[$last_element]->childs[$name]))

{

$elements[$last_element]->childs[$name] = 0;

}

//

该元素的父元素的子元素记数器加一

$elements[$last_element]->childs[$name]++;

}

//

将目前的元素加入到栈中

array_push($stack, $name);

}

function

stop_element($parser, $name)

{

global $stack;

//

从栈中将最顶部的元素移去

array_pop($stack);

}

function char_data($parser,

$data)

{

global $elements, $stack, $depth;

//

增加目前元素的字符数目

$elements[$stack[count($stack)-1]]->chars +=

strlen(trim($data));

}

// 产生解析器的实例

$parser = XML_parser_create();

// 设置处理函数

XML_set_element_handler($parser, "start_element",

"stop_element");

XML_set_character_data_handler($parser, "char_data");

XML_parser_set_option($parser, XML_OPTION_CASE_FOLDING,

0);

// 解析文件

$ret = XML_parse_from_file($parser, $file);

if(!$ret)

{

die(sprintf("XML error: %s at line %d",

XML_error_string(XML_get_error_code($parser)),

XML_get_current_line_number($parser)));

}

// 释放解析器

XML_parser_free($parser);

// 释放协助元素

unset($elements["current_element"]);

unset($elements["last_element"]);

//

根据元素的次数排序

uasort($elements, "my_sort");

//

在$elements中循环收集元素信息

while(list($name, $element) = each($elements))

{

print_box("Element name", $name);

print_line("Element count",

$element->count);

print_line("Character count", $element->chars);

printf("\n%20s\n", "* Parent

elements");

//

在该元素的父中循环,输出结果

while(list($key, $value) =

each($element->parents))

{

print_line($key, $value);

}

if(count($element->parents) == 0)

{

printf("%35s\n", "[root element]");

}

//

在该元素的子中循环,输出结果

printf("\n%20s\n", "* Child elements");

while(list($key, $value) = each($element->childs))

{

print_line($key, $value);

}

if(count($element->childs) == 0)

{

printf("%35s\n", "[no childs]");

}

$total_elements +=

$element->count;

$total_chars += $element->chars;

}

// 最终结果

print_box("Total elements", $total_elements);

print_box("Total characters", $total_chars);

?>

(原文为Tobias Ratschiller

所著,发表在http://www.zend.com上)

php xml expat,PHP Expat :XML的解析器相关推荐

  1. java正则表达式去除xml标签之间的空格_HTML解析器——htmlparser2使用详解,换个姿势解析html和xml

    上一篇文章我们介绍了一个html/xml解析器--htmlparser,这篇文章我们介绍另外一个解析模块htmlparser2,后者是对前者的重构,同时对前者的API做了部分兼容. 用法简介 安装 c ...

  2. python解析xml文件elementtree_Python中使用ElementTree解析XML示例

    [XML基本概念介绍] XML 指可扩展标记语言(eXtensible Markup Language). XML 被设计用来传输和存储数据. 概念一: 复制代码 代码如下: # foo元素的起始标签 ...

  3. 15_采用Pull解析器解析和生成XML内容

    java还提供SAX和DOM用于解析XML Android还集成了Pull解析器--推荐 package cn.itcast.service;import java.io.InputStream; i ...

  4. xml语言与html,XML与HTML的分析处理

    一.python处理XML XML指可扩展标记语言(eXtensible Markup Language).XML被设计用来传输和存储数据.XML是一套定义语义标记的规则,这些标记将文档分成许多部件并 ...

  5. linux 编译 expat,关于expat库的编译

    1.expat库简介 refer to wiki: To use the Expat library, programs first register handler functions with E ...

  6. java 解析器_高性能Java解析器实现过程详解

    如果你没有指定数据或语言标准的或开源的Java解析器, 可能经常要用Java实现你自己的数据或语言解析器.或者,可能有很多解析器可选,但是要么太慢,要么太耗内存,或者没有你需要的特定功能.或者开源解析 ...

  7. java stax_Java StAX解析器

    StAX是一个基于JAVA API用于解析XML文档,类似SAX解析器的方式.但两种API之间有两个区别 StAX是PULL API,其中作为SAX是PUSH API.这意味着如果StAX解析器,客户 ...

  8. php中html解析器,PHP Simple HTML DOM解析器

    一直以来使用php解析html文档树都是一个难题.Simple HTML DOM parser 帮我们很好地解决了使用 php html 解析 问题.可以通过这个php类来解析html文档,对其中的h ...

  9. SpringMVC-配置JSP视图解析器

    一.介绍 (1)Tomcat中提供了JSPServlet负责处理JSP文件. (2)SpringMVC默认有请求转发视图(forward:)和重定向视图(redirect:),我们可以利用请求转发视图 ...

最新文章

  1. kafka之四:Kafka集群搭建
  2. poj 1961 Period(KMP)
  3. Ubuntu-Python安装 scipy,numpy,matplotlib
  4. ccBPM典型的树形表单和多表头表单的流程示例
  5. 关于SQL语句中分号的问题
  6. day2_python年会抽奖游戏
  7. Java毕业设计-快递物流管理系统
  8. Kindeditor在线 HTML 编辑器使用
  9. java普通分隔符,懂得java的文件4种分隔符
  10. 在QQ音乐巅峰榜年度榜单中,听懂国人2022年的音乐记忆!
  11. 从新一代华为全屋智能解决方案看智能家居的本质
  12. ASCII 与 UNICODE 字符映射表
  13. 大数据立法 贵阳走在前列
  14. iview input blur事件
  15. ICLR2023推荐系统投稿论文集锦
  16. 搜狐邮箱的Python经验
  17. 起大早赶晚集?出门问问正式入局智能音箱大战,649元怎么样?
  18. c语言eof不起作用,c语言程序设计 怎么以输入EOF结束
  19. ubuntu免费下载----百度网盘
  20. 华为 1+X《网络系统建设与运维(中级)》认证实验模拟上机试题

热门文章

  1. 关于最近实践 Bert 的一些坑
  2. 『PaddlePaddle X Wechaty』有颜又有才的Living_Bot
  3. 互联网1分钟 | 1009
  4. 你真的懂你的用户吗?
  5. 数据结构+算法——错题总结
  6. DTStructure分治法与最大子列和问题
  7. Struts.xml配置解释
  8. ASP.NET MVC 3 常用
  9. 纯CSS打造可折叠树状菜单
  10. MySql隔离级别多线程并发读取数据时的正确性