XML规范化（二）

XML规范化（二）

上一篇文章通过一个例子介绍了如何规范化XML文件，这一篇文章主要讲述XML文件子集规范化遇到的一些问题。
我们从一个XML文件提取其中一部分内容时，一般是将一个子节点从它的父节点分离出来，我们称这个子节点为孤儿节点，提取出来的文件称为文档子集。如果孤儿节点的名字空间上下文在其父节点中声明，文档子集原来的名字空间上下文就可能丢失。下面用一个例子说明这一点。

文件1

 1<soap:envelope xmlns:soap=" http://www.w3.org/2001/12/soap-envelope ">
 2<soap:header>
 3<!--Protocol specific information, such as signature etc.-->
 4</soap:header>
 5<soap:body>
 6<bs:packagebooking id='VacationTours/Packages[@id=435]/booking[(@date="2002-09-23T09:06:00Z")and(@number="786")]' issuedate="2002-09-23T09:06:00Z" xml:lang="en" xmlns:bs=" http://www.FictitiousTourismInterface/BookingService " xmlns:cs=" http://www.FictitiousTourismInterface/CarRentalService " xmlns:hs=" http://www.FictitiousTourismInterface/HotelService ">
 7<bs:booking currency="USD" status="confirmed" unitcharge="50" unitdescription="per night" units="2">
 8<item>
 9<hs:room bookedfrom="2002-10-12T12:00:00Z" bookedto="2002-10-14T12:00:00Z" hotelname="White Palace" type="suite"></hs:room>
10</item>
11</bs:booking>
12<bs:booking currency="USD" status="confirmed" unitcharge="60" unitdescription="per night" units="1">
13<item>
14<hs:room bookedfrom="2002-10-14T12:00:00Z" bookedto="2002-10-15T12:00:00Z" hotelname="Lake View" type="suite"></hs:room>
15</item>
16</bs:booking>
17<bs:booking currency="USD" status="confirmed" unitcharge="200" unitdescription="per day" units="3">
18<item>
19<cs:car bookedfrom="2002-10-12T12:00:00Z" bookedto="2002-10-15T12:00:00Z" make="Toyota" type="Hiace"></cs:car>
20</item>
21</bs:booking>
22</bs:packagebooking>
23</soap:body>
24</soap:envelope>

假设我们只需要规范化UnitChange=50的booking元素。第一步，我们将unitCharge="50"的booking子节点提取出来，文件2是提取出来的文档子集。在文件2中，我们不知道bs和hs前缀是什么，原因是提取的文件丢失了它们的名字空间声明。另外一点，在文件1中，bookingPackage元素的属性xml:lang被应用于所有的子节点，文件2把这个属性也丢失了。

文件2

1<bs:booking currency="USD" status="confirmed" unitcharge="50" unitdescription="per night" units="2">
2<item>
3<hs:room bookedfrom="2002-10-12T12:00:00Z" bookedto="2002-10-14T12:00:00Z" hotelname="White Palace" type="suite"></hs:room>
4</item>
5</bs:booking>

鉴于上面的原因，XML规范化规则中定义了两条规则来处理子文档提取的问题：
1 在文档子集中被忽略的父级名字空间声明要添加到文档子集中。
2 XML名字空间的属性也要添加到文档子集中。
应用这两条规范化规则后，提取出来的文件如文件3所示。

文件3

1<bs:booking currency="USD" status="confirmed" unitcharge="50" unitdescription="per night" units="2" xml:lang="en" xmlns:bs=" http://www.FictitiousTourismInterface/BookingService " xmlns:cs=" http://www.FictitiousTourismInterface/CarRentalService " xmlns:hs=" http://www.FictitiousTourismInterface/HotelService " xmlns:soap=" http://www.w3.org/2001/12/soap-envelope ">
2<item>
3<hs:room bookedfrom="2002-10-12T12:00:00Z" bookedto="2002-10-14T12:00:00Z" hotelname="White Palace" type="suite">
4</hs:room>
5</item>
6</bs:booking>

事情总比人们想象的复杂几乎就是一个定理，这里也不例外。在一些特殊的情况下上述做法会产生一些新问题。为了详细描述这样的特殊情形，我们首先简要介绍一下“封装”的概念。

**封装
** SOAP是一种基于xml的，用于在web上交换结构化和类型信息的简单的协议，它定义了在信封中包装xml数据的格式。我们再回过头来看看文件1，它将PackageBooking元素包装在SOAP:Body元素中。文件1阐述了一个简单的封装机制：传递的信息被包装在SOAP:Body元素中，整个SOAP:Body元素又被包装在SOAP:Envelope元素。
下面我们来看一个会发生问题的情景。
一个游客想通过旅行社提供的Web服务了解旅行的细节，于是，这个游客给旅行社发了一个xml信息，信息中包含了他计划去旅行的地点和时间，所有的信息被放到一个SOAP信封中。当然，这个xml信息由客户端的程序生成，这位游客没有必要去了解xml和soap。
旅行社收到这个SOAP信封后，它的Web服务从信封中提取旅游地点和时间的信息，然后把这些信息重新封装，接着将这些信息发往几个不同的饭店和汽车出租公司。在这里，旅行社的Web服务需要生成一个新的SOAP信封。
按照同样的方式，在旅行社收到饭店和汽车出租公司返回的信息后，它将这些信息重新封装再发回给旅客。
文件4是一个饭店返回给旅行社的SOAP信息样例。

文件4

 1<soap:envelope xmlns:soap=" http://www.w3.org/2001/12/soap-envelope ">
 2<soap:header>
 3<!--Protocol specific information, such as signature etc.-->
 4</soap:header>
 5<soap:body xmlns:bs=" http://www.FictitiousTourismInterface/BookingService " xmlns:hs=" http://www.FictitiousTourismInterface/HotelService ">
 6<bs:booking currency="USD" status="confirmed" unitcharge="50" unitdescription="per night" units="2">
 7<item>
 8<hs:room bookedfrom="2002-10-12T12:00:00Z" bookedto="2002-10-14T12:00:00Z" hotelname="White Palace" type="suite"></hs:room>
 9</item>
10</bs:booking>
11</soap:body>
12</soap:envelope>

旅行社可能还从其他的饭店和汽车出租公司收到SOAP信息，它需要将这些信息需要合并到一个信封中，然后返回给旅客。文件1是旅行社最后发给游客的SOAP信息包，文件1第一个booking元素与文件4中的booking元素是一样的。
现在，我们假设饭店希望对文件4的booking元素进行签名，这样，旅行社和游客可以验证booking是否被非法篡改过。签名的第一步是提取booking元素，然后对提取的文档子集进行规范化处理，得到文件5。

文件5

1<bs:booking currency="USD" status="confirmed" unitcharge="50" unitdescription="per night" units="2" xmlns:bs=" http://www.FictitiousTourismInterface/BookingService " xmlns:hs=" http://www.FictitiousTourismInterface/HotelService " xmlns:soap=" http://www.w3.org/2001/12/soap-envelope ">
2<item>
3<hs:room bookedfrom="2002-10-12T12:00:00Z" bookedto="2002-10-14T12:00:00Z" hotelname="White Palace" type="suite">
4</hs:room>
5</item>
6</bs:booking>

饭店收到文件5后，使用它来生成信息摘要。饭店进行验证通过后，如前所述，将各方面的信息合并，然后返回给顾客。这个过程如图1所示。

如图1示，旅客收到了旅行社的SOAP信封，旅客的Web服务程序将SOAP信封打开，提取并验证信息。首先，按照前面所讲的XML规范化规则从文件1提取booking元素，提取得到的文档子集是文件3；接着，程序对文件3生成一个信息摘要并将其与收到的信息摘要进行比较验证，显然，结果将是验证失败。这时，旅客将认为信息被非法修改过了，可事实上，这些信息并没有被修改。
这样的情景在联合Web服务中是很常见的，为了处理这些问题，W3C专门制定了另外一份规范化规则《专用XML规范化规则》，这份专门的规则只在规范化文档子集时使用。