XML解析中数据块划分方法和XML解析方法-Linux大棚

admin 管理员组

文章数量: 1087135

2024年4月19日发(作者：网页设计table border)

(19)中华人民共和国国家知识产权局

(12)发明专利说明书

(21)申请号 CN2.5

(22)申请日 2012.11.28

(71)申请人方跃坚

地址 100871 北京市海淀区北京大学畅春新园2#428

(72)发明人方跃坚

(74)专利代理机构北京集佳知识产权代理有限公司

代理人王宝筠

(51)

G06F17/30

权利要求说明书说明书幅图

(10)申请公布号 CN 103020176 A

(43)申请公布日 2013.04.03

(54)发明名称

XML解析中数据块划分方法和

XML解析方法

(57)摘要

本实施例公开了XML解析中数据

块划分方法和XML解析方法，其中，

XML解析中数据块划分方法，包括将

XML文件划分为XML数据段，并分配给

多个线程并行处理；在XML数据段中确

定候选边界开始符；候选边界开始符的边

界符类型，记录候选边界开始符的边界符

类型和位置；确定有效边界开始符；以所

述有效边界开始字符为界，将所述XML

数据段划分为多个数据块。通过本发明实

施例中的数据块划分方法，可以使每个数

据块中的XML元素保留完整，从而有效

地避免了在后续的XML数据解析过程

中，由于XML元素不完整而造成的，需

要解析程序进行推测的过程，进而也就有

效地提高了XML数据的解析效率。

法律状态

法律状态公告日

法律状态信息

法律状态

权利要求说明书

1.一种XML数据块划分方法，其特征在于，包括：

确定候选边界开始符阶段，包括：

将XML文件划分为多个设定长度的XML数据段，并将多个XML数据段分配给

多个线程并行处理；

在所述XML数据段中顺序查找特定字符或特定字符串以确定候选边界开始符；所

述特定字符包括“<”字符，所述特定字符串包括“</”、“<?”、“<!--”或

“<![CDATA[”；

确定所述候选边界开始符的边界符类型，记录所述候选边界开始符的边界符类型和

位置；

确定有效边界开始符阶段，包括：

从整个XML文件的起始位置开始，根据所述候选边界开始符的位置，顺序查找所

述候选边界开始符；当所述候选边界开始符为“<”或“</”时，确定该“<”或

“</”为有效边界开始符；

当顺序查找的所述候选边界开始符为非“</”的字符串时，确定所述字符串为有效

边界开始符，并根据所述有效边界开始符的边界符类型查找与所述有效边界开始符

对应的有效边界结束符；将所述有效边界开始符和所述有效边界结束符之间的候选

边界开始符设为无效边界开始符；

以所述有效边界开始字符为界，将所述XML数据段划分为多个数据块。

2.根据权利要求1所述的数据块划分方法，其特征在于，所述数据块中包括有多个

所述开始边界字符。

3.一种XML解析方法，包括如权利要求1中所述数据块划分方法，其特征在于，

在将XML数据划分为多个数据块后，包括：

在数据块并行解析阶段：

将多个数据块分配给多个线程并行处理，以解析各个数据块。

4.根据权利要求3所述的解析方法，其特征在于，还包括：

当在所述数据块没有找到匹配的开始元素或结束元素，或者开始元素的命名空间不

能在此数据块解决时，将所述开始元素或结束元素确定为未解决元素，并将该记录

在预设的数据结构中。

5.根据权利要求4所述的解析方法，其特征在于，还包括：

当所述未解决元素为多个时，

在解析所述未解决元素前，将多个未解决元素依次连接为未解决元素链。

6.根据权利要求5所述的数据块划分方法，其特征在于，还包括：

在后处理阶段，对所述各数据块的未解决元素按照数据块在XML文件中的顺序进

行检查和处理；同时将各数据块产生的子结果数据合并成整体的结果数据。

说明书

技术领域

本发明涉及计算机编程领域，尤其涉及XML解析中数据块划分方法和XML解析

方法。

背景技术

可扩展标记语言（Extensible Markup Language,XML）广泛应用在网络服务、数据

库和文件处理等领域。XML具有文档内容和结构完全分离、互操作性强、规范统

一、支持多种编码和可扩展性好等特点。

由于XML文档可包括多层嵌套的数据结构，因此XML解析通常会比较复杂。在

通过多核处理器环境中，采用基于多核结构设计来进行并行XML解析可以提高

XML解析的解析速度。目前，常用的并行XML解析方法中，需要将XML划分为

相同大小的多个数据块，然后通过多核处理器的多个核同时分别对多个数据块进行

并行的解析处理。

但是，发明人经过研究发现，现有技术中，将XML划分为相同大小的多个数据块

的方式会使得一个XML元素的内容可能分布在两个不同的块中，解析程序只能以

推测的方式解析这样的数据。此外，在并行解析多个数据块时，需要检查各个数据

块之间的数据依赖关系，从而导致并行解析线程间的频繁通信。当线程等待通信应

答时，将暂停运行或减缓处理速度，从而使得并行处理的效率受到影响。

发明内容

有鉴于此，本发明实施例的目的在于提供XML解析中数据块划分方法和XML解

析方法，以防止在电机位置传感器异常时，单纯的对电机断电会给电机造成较大的

损坏的问题。

为实现上述目的，本发明实施例提供了如下技术方案：

一种XML数据块划分方法，包括：

确定候选边界开始符阶段，包括：

将XML文件划分为多个设定长度的XML数据段，并将多个XML数据段分配给

多个线程并行处理；

在所述XML数据段中顺序查找特定字符或特定字符串以确定候选边界开始符；所

述特定字符包括“<”字符，所述特定字符串包括“</”、“<?”、“<!--”或

“<![CDATA[”；

确定所述候选边界开始符的边界符类型，记录所述候选边界开始符的边界符类型和

位置；

确定有效边界开始符阶段，包括：

根据所述候选边界开始符的位置，顺序查找所述候选边界开始符；当所述候选边界

开始符为“<”或“</”时，确定该“<”或“</”为有效边界开始符；

当顺序查找的所述候选边界开始符为非“</”的字符串时，确定所述字符串为有效

边界开始符，并根据所述有效边界开始符的边界符类型查找与所述有效边界开始符

对应的有效边界结束符；将所述有效边界开始符和所述有效边界结束符之间的候选

边界开始符设为无效边界开始符；

以所述有效边界开始字符为界，将所述XML数据段划分为多个数据块。

优选的，在本发明实施例中，所述数据块中包括有多个所述开始边界字符。

此外，在本发明实施例中，还提供了一种XML解析方法，

包括：

在确定候选边界开始符阶段，包括：

将XML文件划分为多个设定长度的XML数据段，并将多个XML数据段分配给

多个线程并行处理；

在所述XML数据段中顺序查找特定字符或特定字符串以确定候选边界开始符；所

述特定字符包括“<”字符，所述特定字符串包括“</”、“<?”、“<!--”或

“<![CDATA[”；

确定所述候选边界开始符的边界符类型，记录所述候选边界开始符的边界符类型和

位置；

在确定有效边界开始符阶段，包括：

从整个XML文件的起始位置开始,根据所述候选边界开始符的位置，顺序查找所述

候选边界开始符；当所述候选边界开始符为“<”或“</”时，确定该“<”或

“</”为有效边界开始符；

当顺序查找的所述候选边界开始符为非“</”的字符串时，确定所述字符串为有效

边界开始符，并根据所述有效边界开始符的边界符类型查找与所述有效边界开始符

对应的有效边界结束符；将所述有效边界开始符和所述有效边界结束符之间的候选

边界开始符设为无效边界开始符；

以所述有效边界开始字符为界，将所述XML数据段划分为多个数据块；

在数据块并行解析阶段，包括：

将多个数据块分配给多个线程并行处理，以解析各个数据块。

优选的，在本发明实施例中，还包括：

当在所述数据块没有找到匹配的开始元素或结束元素，或者开始元素的命名空间不

能在此数据块解决时，将所述开始元素或结束元素确定为未解决元素，并将该记录

在预设的数据结构中。

优选的，在本发明实施例中，还包括：

当所述未解决元素为多个时，

在解析所述未解决元素前，将多个未解决元素依次连接为未解决元素链。

优选的，在本发明实施例中，还包括：

在后处理阶段，对所述各数据块的未解决元素按照数据块在XML文件中的顺序进

行检查和处理；同时将各数据块产生的子结果数据合并成整体的结果数据。

综上所述，在本发明实施例中，通过本发明实施例中的数据块划分方法，可以使每

个数据块中的XML元素保留完整，从而有效地避免了在后续的XML数据解析过

程中，由于XML元素不完整而造成的，需要解析程序进行推测的过程，进而也就

有效地提高了XML数据的解析效率。

附图说明

图1为本发明实施例中所述XML数据块的划分方法的流程示意图；

图2为本发明实施例中查找所述候选边界开始符过程的流程示意图；

图3为本发明实施例中查找所述有效边界开始符过程的流程示意图；

图4为本发明实施例中所述XML解析方法的流程示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下参照附图并举实施例，对

本发明作进一步详细说明。

现有技术中，为了对XML数据进行并行处理，将XML数据进行了划分，即，将

XML数据划分为大小相等的多个数据块，从而可以将多个数据块分别通过不同的

处理器进行并行处理，以提高解析速度，由于现有技术中的数据块的划分方法只是

按照数据块的大小来划分，所以使得同一XML元素会分属不同的数据块，这样，

在解析过程中就需要解析程序以推测的方式来解析不完整的XML数据，从而降低

了解析效率。为此，本申请提供了一种XML数据块的划分方法，以提高XML数

据的解析效率，如图1所示，具体步骤如下：

在本发明实施例中，将XML数据块划分方法分为了两个阶段，其中，在确定候选

边界开始符阶段，包括：

S11、将XML文件划分为多个设定长度的XML数据段，并将多个XML数据段分

配给多个线程并行处理；

由于XML文件的长度有可能会很大，所以，为了充分利用计算机的并行运算能力，

本申请中，在解析XML文件时，首先将XML文件划分为多个设定长度的XML

数据段，并将多个XML数据段分配给多个线程并行处理；这样，可以提高后续的

工作效率。

S12、在XML数据段中顺序查找特定字符或特定字符串以确定候选边界开始符；

所述特定字符包括“<”字符，所述特定字符串包括“</”、“<?”、“<!--”或

“<![CDATA[”；

本发明实施例中的核心思想为，在将XML数据段划分为多个数据块时，要以边界

开始符为界，而且还要保证该作为划分界的边界开始符为有效的边界开始符。由于

本发明实施例中划分出的数据块尽量包括了完整的XML元素，所以减少了在并行

解析多个数据块时，并行解析线程间的频繁通信；从而提高了解析效率。

为了能够准确的识别有效的边界开始符，首先将可能为有效边界开始符的边界开始

符确定为候选边界开始符。

顺序识别XML数据段中的字符是否为候选边界开始符的过程，可以如图2所示，

包括：

顺序查找每个XML数据段内的“<”字符；在查找到一个“<”，判断是否其紧跟

“/”或者“?”或者“!”字符；如果紧跟“!”字符，则进一步判断是否紧跟“--”或紧跟

“[CDATA[”。将符合以上规则的所有字符或字符串确定为候选边界开始符。

也就是说，候选边界开始符所包括的字符或字符串具体包括候选开始元素开始符

“<”、候选结束元素开始符“</”、候选处理命令开始符“<?”、候选评论开始

符“<!--”或候选数据段开始符“<![CDATA[”；为此，通过顺序识别XML数据

段中的字符是否为以上的字符或字符串，即可确定XML数据段中的候选边界开始

符。

S13、确定候选边界开始符的边界符类型，记录候选边界开始符的边界符类型和位

置；

在确定了候选边界开始符后，还需要确定候选边界开始符的边界符类型，边界符的

类型一般包括开始元素边界符，结束元素边界符，处理命令边界符，评论边界符，

以及数据段边界符。

边界符包括边界开始符和边界结束符两种，即在表明某个XML元素开始的位置使

用边界开始符，表明某个XML元素结束的位置使用边界结束符；如，处理命令边

界符包括处理命令开始符“<?”和处理命令的结束符“?>”。

在确定了候选边界开始符的边界符类型后，还需要记录候选边界开始符的边界符类

型和位置。

在记录候选边界开始符的边界符类型和位置后，就进入了确定有效边界开始符阶段，

确定有效边界开始符阶段为一个严格顺序的非并行的过程,具体包括：

S14、从整个XML文件的起始位置开始,根据候选边界开始符的位置，顺序查找候

选边界开始符；当候选边界开始符为“<”或“</”时，确定该“<”或“</”为有

效边界开始符；

当顺序查找的所述候选边界开始符为非“</”的字符串时，确定所述字符串为有效

边界开始符，并根据所述有效边界开始符的边界符类型查找与所述有效边界开始符

对应的；将所述有效边界开始符和所述有效边界结束符之间的候选边界开始符设为

无效边界开始符；

由于在上一步骤记录了候选边界开始符的位置，所以通过候选边界开始符的位置，

可以在多个候选边界开始符中确定有效边界开始符。

通过顺序查找候选边界开始符来确定有效边界开始符的过程，如图3所示，包括：

当查找到的字符为“<”，或字符串为“</”，可以直接将其确定为有效边界开始

符，除了这两种情况以外，当查找到其他的候选边界开始符时，在将其确定为有效

边界开始符后，还需要查找与该有效边界开始符对应的有效边界结束符，并将有效

边界开始符对应的有效边界结束符之间的其他候选边界开始符设为无效边界开始符。

从而可以去除无效边界开始符，使保证边界开始符的选定正确性。

具体的，如果识别到一个字符“<”，将其识别为有效的开始元素开始符；如果识

别到一个字符串“</”，将其识别为“</”，将其识别为一个有效的结束元素开始

符；

如果识别到一个“<?”，则将其识别为一个有效的处理命令开始符。并从对应

XML数据流中位置开始，查找第一个出现的“?>”，则此“?>”为处理命令结束

符。根据此处理命令开始和结束位置，顺序检查开始和结束位置之间是否包含其它

候选边界符，如果有，将其标记为无效边界开始符；

这是因为，处理命令的开始符“<?”和结束符“?>”之间不允许出现结束符

“?>”，但允许其它候选边界开始符出现，因此在开始符“<?”和结束符“?>”

之间是有可能出现其他的候选边界开始符的，比如，一段XML数据包括以下字符：

<?....<.....<?........<![CDATA[...]]>.....?>,

该段中只有第一个<?是有效的边界符，而且整段数据只是一个处理命令，其中

包含的“”，“<![CDATA[...]]>”不被识别为评论和数据段，其中，

第2个<?不是处理命令开始符，都只是处理命令的内容而已。

如果识别到一个“<!--”,则将其识别为一个有效的评论开始符。并从对应XML数

据流中位置开始，查找第一个出现的“-->”，则此“-->”为评论的结束符。根据

此评论的开始和结束位置，顺序检查开始和结束位置之间是否包含其它候选边界开

始符，如果有，将其标记为无效边界开始符；

同上类似，评论有严格定义，处理命令的开始符“”之间不允

许出现结束符“-->”，但允许其它候选边界开始符，一段XML数据包括以下字

符：

,

该段中只有第一个“<![CDATA[”是有效的边界符，而且整段数据只是一个评论，

其中包含的“<?...?>”，“<![CDATA[…]]>”将不被识别为处理命令和数据

段，进而也就不会被识别为有效边界开始符，都只是评论的内容而已。

如果识别到一个“<![CDATA[”，则将其识别为一个有效的数据段开始符并从对应

XML数据流中位置开始，查找第一个出现的“]]>”，则此“]]>”为该数据段的

结束符。根据此数据段的开始和结束位置，顺序检查开始和结束位置之间是否包含

其它候选边界符，如果有，将其标记为无效边界开始符。

同上类似，数据段命令有严格定义，数据段的开始符“<![CDATA[”和结束符

“]]>”之间不允许出现结束符“]]>”，但允许其它候选边界开始符，一段XML

数据包括以下字符：

<![CDATA[…<?....<.....<?....?>…<!--.....--

>....<![CDATA[…]]>,

该段中只有第一个“<![CDATA[”是有效的边界符，而且整段数据只是一个数据段，

其中包含的“”，“<?…?>”不被识别为评论和处理命令，第2个

“<![CDATA[”不是数据段开始符，都只是数据段的内容而已。

S15、以所述有效边界开始字符为界，将所述XML数据段划分为多个数据块：

在确定了有效边界开始字符后，即可以有效边界开始字符为界，将XML数据段划

分为多个数据块，从而可以将多个数据块分别通过多个处理器进行并行处理。

由于通过本发明实施例中的数据块划分方法，可以使每个数据块中的XML元素保

留完整，从而有效地避免了在后续的XML数据解析过程中，由于XML元素不完

整而造成的，需要解析程序进行推测的过程，进而也就有效地提高了XML数据的

解析效率。

优选的，在本发明实施例中，为了避免单独XML时间元素构成的数据块过小，从

而造成频繁的为处理器分配数据块，在本发明实施例中，每个数据块中还可以包括

有多个开始边界字符。

在本发明的另一方面，还提供了一种XML解析方法，如图4所示在包括了上述实

施例中所述数据块划分方法之外，还包括步骤：

在数据块并行解析阶段：

S16、将多个数据块分配给多个线程并行处理，以解析各个数据块。

在图1所对应的实施例中，通过实施例中提供的是在XML数据解析时的数据块划

分方法，在将XML数据进行数据块划分完成后，进一步的，还需要将各个数据块

分别通过不同的处理器进行并行的解析处理，由于在本发明实施例中，每个数据块

中的XML元素得以完整的保留，从而有效地避免了在后续的XML数据解析过程

中，由于XML元素不完整而造成的，需要解析程序进行推测的过程，进而也就有

效地提高了XML数据的解析效率。

优选的，在本发明实施例中，还包括当在所述数据块没有找到匹配的开始元素或结

束元素，或者开始元素的命名空间不能在此数据块解决时，将所述开始元素或结束

元素确定为未解决元素，并将该记录在预设的数据结构中，并将多个未解决元素依

次连接为未解决元素链,使得后处理时，可以有效地减少搜索时间，从而进一步的

提高解析效率。

此外，本发明实施例中，还可以包括后处理阶段，具体可以包括步骤：

S17、对各数据块的未解决元素按照数据块在XML文件中的顺序进行检查和处理；

同时将各数据块产生的子结果数据合并成整体的结果数据。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员

来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润

饰也应视为本发明的保护范围。

本文标签：开始边界数据解析候选

版权声明：本文标题：XML解析中数据块划分方法和XML解析方法内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://roclinux.cn/b/1713504060a637946.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

Linux大棚 – 不忘初心的技术博客，浮躁时代的安静角落

XML解析中数据块划分方法和XML解析方法

更多相关文章

主数据如何成就业务？深入剖析与实际应用

【计算机网络-自顶向下】4—Network Layer: Data Plane网络层：数据平面（概述、路由器工作原理、IPv4、DHCP、IPv6）

java如何通过路由器转发数据_技术详解｜IP数据包是如何在网络中转发的？

跟着团子学SAP PS：SAP PS与第三方PMS（P6MS Project）数据交互组件

【大模型】ChatGPT 数据分析与处理使用详解

Chrome浏览器中清除特定网站的Cookie数据

数据透视表右侧字段不见了，怎么办？

R语言导入csv数据后，所有列变成一列怎么办？

数据链路层和网络收尾

DHT磁力链数据爬取和资源搜索站的搭建

巨量千川M-API开端：账户下的短视频计划数据获取（一）

在Windows系统中使用脚本定时备份和恢复MySQL数据库的数据

不影响磁盘数据的前提下，如何扩容电脑C盘

Oracle数据库分别在WindowsLinux环境下普通数据泵方式导入导出示例

数据分析师必看，盘点最常用的四种数据统计分析方法

安卓OKhttp请求接口数据失败,postman也失败,用浏览器却能正常请求数据

探秘格式化：数据危机与恢复之道

Selenium爬取携程景区评论数据（仅供学习）

php 股票数据 sina,腾讯股票接口、和讯网股票接口、新浪股票接口、雪球股票数据、网易股票数据...

优盘备份软件,想要备份电脑U盘数据可以采用哪些方法？

发表评论

推荐文章

javascript - Firebase deploy to another site - Stack Overflow

javascript - Reactjs state initialize an array of values - Stack Overflow

javascript - D3: How can I change data in an existing bar chart - Stack Overflow

web scraping - Power Automate Desktop: &quot;The untyped object argument to the &#39;Text&#39; function has an incor

windows和ubuntu双系统，win系统迁移后，系统启动项损坏修复

热门文章

Kubernetes: RWO PVC bound to two pods on different nodes seems to use two PV? - Stack Overflow

javascript - How to make a input in HTML in JS to integer - Stack Overflow

Docker Spark-Notebook: &#39;rm: missing operand&#39; error when trying to remove RUNNING_PID on container restart - Stac

计算机显示不出来验证码,如何解决网页图片红叉显示不出来验证码图片没显示的电脑故障...

dom - JavaScript setAttribute alternative - Stack Overflow

jsf - Change &lt;p:commandButton&gt; value with JavaScript - Stack Overflow

GitHub app authenticate in a GitHub action - Stack Overflow

Windows 10 修改“输入法非输入法切换”快捷键，对于第三方输入法不生效的问题。（且包含重启重置现象）

浏览器常用快捷键

Windows10 配置多用户远程桌面

最新文章

javascript - How do I toggle the readonly attribute of all child element with jquery - Stack Overflow

javascript - Might it be possible to block an entire US state from accessing my site, using PHP? - Stack Overflow

c++ - Is dereferencing std::span::end always undefined? - Stack Overflow

javascript - Delay function execution if it has been called recently - Stack Overflow

javascript - Google Maps Autocomplete List - Stack Overflow

【教程】Python Flask快速学习

国内可用chatgpt中文版镜像网站最新合集在线网页版-202562

【Windows默认】编码格式修改

系统启动U盘制作

U盘重装win11系统专业版—启动盘制作与安装

Exploring the Finest Accommodations: A Comprehensive Guide to Ruston LA Hotels

The Enchanting Experience of ScaliniTella NYC: A Culinary Gem in the Heart of Manhattan

Exploring the Exquisite Aloft Chicago O'Hare: A Blend of Modern Luxury and Convenience

A Culinary Journey: Discovering the Finest Dining Experiences in Waco, TX

A Culinary Journey: Discovering the Finest Dining Experiences in Athens, GA

web scraping - Power Automate Desktop: "The untyped object argument to the 'Text' function has an incor

Docker Spark-Notebook: 'rm: missing operand' error when trying to remove RUNNING_PID on container restart - Stac

jsf - Change <p:commandButton> value with JavaScript - Stack Overflow