简介
Microsoft Office Word 2007提供了一种新的默认文件格式,叫做Microsoft Office Word XML格式(Word XML格式)。这种格式基于开放打包约定(Open Packaging Conventions),XML Paper Specification (XPS)也是基于这个约定。Microsoft Office 97到Microsoft Office 2003中使用的二进制文件格式仍然可以作为一种保存格式来使用,但是它不是保存新文档时的默认文档。
在1999年发布的,Microsoft通过Microsoft Office Excel 2002中的SpreadsheetML,将XML引入了Microsoft Office XP当中。SpreadsheetML是一个良好的开始,但是它没有提供完全真实的功能。在下一个版本的Microsoft Office产品中,Microsoft Office Word 2003引入了WordprocessingML。WordprocessingML是非常重要的一步,因为它是Microsoft Office提供的第一个完全真实的XML文件格式。通过Microsoft Office 2003,您可以解析WordprocessingML文件,向其中添加、更新或处理数据。但是,仍然存在着一些限制。例如,您必须将二进制文件(例如图片)编码为XML文件中的文本,如果文件中包含大量图片的话,这必然会增加文件的尺寸。另外,Word 2003直接将所有自定义XML数据嵌入到描述文档的WordprocessingML当中。这样使得自定义XML难于访问和处理所有的外部过程。
Word 2007中新的文件格式将文件分成一些文档部件,其中每个部件定义了文件的部分内容,这样就解决这些问题。当您希望更改文件当中的一些内容的时候,您可以简单的查找您希望更改的文档部件,例如页眉,然后无需影响其它基于XML的文档部件,就可以编辑它。类似的,所有的自定义XML数据都有它自己的部件。现在,处理自定义的XML就更加简单的。这允许您使用很少的代码来生成文档。新的文件格式更加的强大,并且可以更为简单地处理自定义XML,而且它比二进制文件格式要更小。新的文件格式使用开放打包约定,利用ZIP技术。本篇文章将浏览Word 2007文档中这种新文件格式的结构。
Word 2007 文档包
Word 2007中的文件格式由一个压缩的ZIP包组成,称为包。这个包中包含了文档中的所有内容。通过这种包格式,可以减少Office文档文件的容量,因为它是使用ZIP压缩的。新的格式也更加的稳定,而避免了传输或处理中可能出现的错误。它允许您使用工业标准的ZIP工具,来处理文档的内容。最为简单的查看这咱新文件格式的方法是,将一个Word 2007文档保存为这种新的默认格式,然后将这个文件重命名为.zip扩展名。双击文件,打开并查看它的内容。
注意 为了理解基于Microsoft Office Open XML格式(Office XML格式)的组成,您可以将它的所有部件提取出来。要打开这个文件,您需要在您的计算机中安装一个ZIP工具,例如WinZip。您可以通过以下步骤在Word 2007中打开一个Word XML格式:
1.创建一个临时目录来存储文件和它的部件。
2.创建一个Word 2007文档,包括文本,图片,以及其它元素,保存为一个.docx文件。
3.在文件名的末端添加一个.zip扩展名。
4.双击文件。这时将会在ZIP应用程序当中打开该文件。您可以查看组成文件的每个部件。
5.将这些部件提取到刚才创建的临时目录当中。
6.集成的ZIP压缩可以将文件的尺寸减少百分之75。文件最终被分成一些模块化的文件结构,它使得数据的恢复更为可行,并且增强了安全性。新的格式将文件分成了不同的组件,从而可以独立的管理和修复。以新格式创建的文件也根据不同的文件类型,拥有一些特殊的扩展名。
表 1. Word 2007 文件类型的扩展名
JPG" border=1>

