网上表格数据到XML的自动转换-Linux大棚

admin 管理员组

文章数量: 1184232

2024年4月20日发(作者：repeat out)

维普资讯

１９０　２００７．４３（２）　Ｃｏｍｐｕｔｅｒ　Ｅｎｇｉｎｅｅｒｉｎｇ　ａｎｄ　Ａｐｐｌｉｃａｔｉｏｎｓ计算机工程与应用　

网上表格数据到ＸＭＬ的自动转换　

张　瑞　。李石君’　

ＺＨＡＮＧ　Ｒｕｉ１．２，ＬＩ　Ｓｈｉ－ｊｕｎ　

１．武汉大学计算机学院，武汉４３００７２　

２．新汶矿业集团职工大学，山东莱芜２７１１００　

１．Ｓｃｈｏｏｌ　ｏｆ　Ｃｏｍｐｕｔｅｒ，Ｗｕｈａｎ　Ｕｎｉｖｅｒｓｉｔｙ，Ｗｕｈａｎ　４３００７２，Ｃｈｉｎａ　

２．Ｘｉｎｗｅｎ　Ｍｉｎｉｎｇ　Ｉｎｄｕｓｔｒｙ　Ｇｒｏｕｐ　Ｅｍｐｌｏｙｅｅｓ’Ｕｎｉｖｅｒｓｉｔｙ，Ｌａｉｗｕ，Ｓｈａｎｄｏｎｇ　２７　１　１００，Ｃｈｉｎａ　

Ｅ—ｍａｉｌ：ｓｈｊｌｉ＠ｗｈｕ．ｅｄｕ．ｃｎ　

ＺＨＡＮＧ　Ｒｕｉ，ＬＩ　Ｓｈｉ．ｊ咖．Ａｕｔｏｍａｔｉｃ　ｃｏｎｖｅｒｓｉｏｎ　ｏｆ　ＨＴＭＬ　ｔｏｂｉｅｓ　Ｉｎｔｏ　ＸＭＬ．Ｃｏｍｐｕｔｅｒ　Ｅｎｇｉｎｅｅｒｉｎｇ　ａｎｄ　Ａｐｐｌｉｃａｔｉｏｎｓ，　

２００７，４３（２）：１９０—１９２．　

Ａｂｓｔｒａｃｔ：Ａ　ｌａｒｇｅ　ａｍｏｕｎｔ　ｏｆ　ｉｎｆｏｒｍａｔｉｏｎ　ａｖａｉｌａｂｌｅ　ｏｎ　ｔｈｅ　Ｗｅｂ　ｉｓ　ｆｏｒｍａｔｔｅｄ　ｉｎ　ＨＴＭＬ　ｔａｂｌｅｓ，ｗｈｉｃｈ　ａｒｅ　ｎｏｔ　ｃｏｎｔｅｎｔ—ｏｒｉｅｎｔｅｄ，ａｎｄ　

ａｒｅ　ｎｏｔ　ｓｕｉｔａｂｌｅ　ｆｏｒ　ｕｎｄｅｒｓｔａｎｄｉｎｇ　ａｎｄ　ｑｕｅｒｙ　ｂｙ　ｍａｃｈｉｎｅｓ．Ｉｎ　ｔｈｉｓ　ｐａｐｅｒ，ｗｅ　ｎｏｒｍａｌｉｚｅ　ｔｈｅ　ＨＴＭＬ　ｔａｂｌｅｓ　ｂｙ　ｉｎｓｅｒｔｉｎｇ　ｒｅｄｕｎｄａｎｔ　

ｃｅｌｌｓ　ｉｎｔｏ　ｔｈｅｍ　ａｃｃｏｒｄｉｎｇ　ｔｈｅ　ａｔｔｒｉｂｕｔｅｓ　ｏｆ　ＨＴＭＬ　ｔａｂｌｅｓ．Ｆｏｒ　ｓｏｍｅ　ＨＴＭＬ　ｔａｂｌｅｓ　ｗｉｔｈｏｕｔ　ｍａｒｋｅｄ　ｈｅａｄｉｎｇｓ　ｗｅ　ｒｅｃｏｇｎｉｚｅ　ｉｔｓ　ｈｅａｄ—　

ｉｎｇｓ　ｂｙ　ｕｓｉｎｇ　ｔｈｅ　ｍｅａｓｕｒｅ　ｏｆ　ｆｏｒｍａｔｔｉｎｇ　ｉｎｆｏｒｍａｔｉｏｎ．Ｂｙ　ｃａｐｔｕｒｉｎｇ　ｔｈｅ　ａｔｔｒｉｂｕｔｅ－ｖａｌｕｅ　ｐａｉｒｓ　ａｃｃｏｒｄｉｎｇ　ｔｏ　ｔｈｅ　ｈｅａｄｉｎｇｓ　ａｎｄ　ｔｈｅｉｒ　

ｃｏｒｒｅｓｐｏｎｄｉｎｇ　ｄａｔａ　ｃｅｌｌｓ　ｂａｓｅｄ　ｏｎ　ｔｈｅ　ｎｏｒｍａｌｉｚｅｄ　ｔａｂｌｅ，ｗｅ　ｐｒｅｓｅｎｔ　ｔｈｅ　ｎｅｗ　ａｐｐｒｏａｃｈ　ｔｏ　ａｕｔｏｍａｔｉｃａｌｌｙ　ｃｏｎｖｅｒｔ　ＨＴＭＬ　ｔａｂｌｅｓ　ｉｎｔｏ　

ＸＭＬ　ｄｏｃｕｍｅｎｔｓ．　

Ｋｅｙ　ｗｏｒｄｓ：ＨＴＭＬ　ｔａｂｌｅ；ｉｎｆｏｒｍａｔｉｏｎ　ｅｘｔｒａｃｔｉｏｎ；Ｗｅｂ；ＸＭＬ　

摘要：互联网上有大量信息采用ＨＴＭＬ表格表示，由于ＨＴＭＬ不描述数据的内客，机器不能理解和查询。论文利用ＨＴＭＬ表格属　

性．在表格中插入冗余单元。使ＨＴＭＬ表格规范化；对没有标志表　的ＨＴＭＬ表格，采用格式化的信息的量化值识别网上表格的表　

头。在此基础上，提出了通过获取表格属性与值对应的语义层次，自动转换ＨＴＭＬ表格数据为ＸＭＬ文挡的新方法。　

关键词：ＨＴＭＬ表格；信息提取；Ｗｅｂ；ＸＭＬ　

文章编号：１００２—８３３１（２００７）０２—０１９０—０３　文献标识码：Ａ　中图分类号：ＴＰ３１１．１３５　

１　引言　

转换无标志表头的ＨＴＭＬ表格。文献［７，８】研究了深网（ｄｅｅｐ　

互联网上有大量信息采用表格表示．这些表格主要基于　

Ｗｅｂ）中隐藏Ｗｅｂ数据库的表格数据提取和集成的问题。　

ＨＴＭＬ。由于ＨＴＭＬ只描述数据怎样显示，不描述数据的内容。　

网上表格由若干行组成，每一行叉由许多单元组成。表的　

再加上互联网上表格的复杂多样性，使得理解互联网上表格十　

单元一般用　元素表示表头单元．用　元素表示数据单元。单　

分困难。网上表格的自动理斛对网上信息检索、集成、挖掘、信　

元可能跨越多个行和列．头可能包含行头和列头。这种结构比　

息综合概要并向移动设备的发送等有着重要的实际应用意义，　

传统的关系数据库的表结构复杂得多。虽然ＨＴＭＬ表格不表　

近来得到了一些学者和研究机构的关注，发表了一些研究文　

示数据的内容．但却包含了重要的结构信息。叮利用单元格可　

献。主要采用的方法有手工编写代码的方法、机器学习方法和　

能占用多行多列属性，采用通过向表巾插人冗余的单元格，使　

启发式自动化方法。这些方法各有特点，手＿『：编写代码方法表　

表格规范化，即使表格的每一行部具有相同数目的对齐的　元　

达能力强，但需要用户编写复杂的代码．且由于网页经常变化　

格。对没有标志表头的ＨＴＭＬ表．关键在于识刖表头。为了让　

而维护困难　机器学习方法＿Ｉｌ　Ｊ用归纳学习方法产生抽取Ｗｅｂ　

用户容易识别，一般会采用一些格式化的信息如字体（字号．粗　

信息的包装器．对发生变化的网页或归纳学习时没有覆盖的网　

体）等来表示表头。因此可以采用格式化的信息的量化值来识　

页格式，需要重新学习。本体论方法　Ｉ是一种很有前景的方法。　

别网上表格的表头。网上表格的被规范化后。表格的各个数据　

这里主要问题是如何有效地创建本体。目前，在该方面创建本　

单元和其相应的表头属忡被一一确定．凶此可以根据表义和的　

体的Ｔ作大多需部分手丁Ｔ作。半自动的方法利用格式信息半　

单元格数据来理解表格的属性值对。并且通过各个数据单元和　

自动地抽取Ｗｅｂ结构信息，该方法只能抽取部分ＨＴＭＬ表格。　

其相应的表头属性的对应关系，可以将规范化后的ＨＴＭＬ表　

启发式自动化方法＿５．６１提出了一种抽取表格数据的自动方法．它　

中的属性值对映射成相应的ＸＭＬ文档。并采用递归函数形式　

没有给出具有嵌套的表头结构的表格的转换方法．并且它不能　

地表示该映射。递归方法最适合一层一层理解网上嵌套表格内　

基金项目：湖北省自然科学基金资助项目（２ｏ０５ＡＢＡ２３８）；国家自然科学基金资助项目（６ｏ２７３Ｏ７２）。　

作者俺介：张瑞（１９８１一），男，助教，硕士研究生，主要研究领域为Ｗｅｂ与数据库技术；李石君（１９６４一）。男。博士，教授，主要研究领域为Ｗｅｂ与数据　

库技术、信息集成。　

维普资讯

张　瑞，李石君：网上表格数据到ＸＭＬ的自动转换　１９１　

容，而不论表格嵌套多深。　

２　ＨＴＭＬ表的规范化　

在ＨＴＭＬ文档中，表由ｔａｂｌｅ元素表示，一般由一个标题和　

许多行组成，每一行又由许多单元组成。表的单元一般用　元　

素表示头部信息，包括行头和列头；用　元素表示数据。表的　

单元可能占用多行或多列。如果一个　或　元素中包含属性　

ｃｏｌｓｐａｎ＝ｎ，则表示该　或　元素的单元多占了后面的ｎ一１行　

单元的位置；如果一个　或　元素中包含属性ｒｏｗｓｐａｎ＝Ｉｔ．则　

表示该　或　元素的单元多占了后面的ｎ一１列单元的位置。　

例１以下是ＨＴＭＬ表格片断：　

＜ｔａｂｌｅ　ｂｏｒｄｅｒ＝“ｌ＇’＞＜ｃａｐｔｉｏｎ＞＜ｅｒａ＞Ｐｏｐｕｌａｔｉｏｎ　Ｓｔａｔｉｓｔｉｃｓ＜／ｅｒａ＞＜／　

ｅａｐｔｉｏｎ＞＜ｔｒ＞＜ｔｈ　ｒｏｗｓｐａｎ＝…２’＞　

＜ｔｈ　ｃｏｌｓｐａｎ＝…２’＞Ａｖｅｒａｇｅ＜ｔｈ　ｒｏｗｓｐａｎ＝　２’＞Ｒａｔｉｏ　

＜ｔｒ＞＜ｔｈ＞Ｈｅｉｇｈｔ＜ｆｌ￣＞Ｗｅｉｇｈｔ　

＜ｔｒ＞＜ｔｈ＞Ｍａｌｅｓ＜ｔｄ＞１．７８＜ｔｄ＞７５＜ｔｄ＞４０．４６％　

＜ｔｒ＞＜ｔｈ＞Ｆｅｍａｌｅｓ＜ｔｄ　ｃｏｌｓｐａｎ：　２＞Ｎｏｔ　ａｖａｉｌａｂｌｅ＜ｔｄ＞４Ｏ．３４％＜／　

ｔｂａｌｅ＞　

在例１的ＨＴＭＬ表格定义中，第一行第一列的单元格占　

用两行，第一行第二列的单元格占用两列。例１的ＨＴＭＬ表格　

显示如表１所示　

寝１　Ｐｏｐｕｌａｔｉｏｎ　Ｓｔａｔｉｓｔｉｃｓ　

——　

！塑｜ｅ　Ｒａｔｉ。　

Ｈｅｉｇｈｔ　Ｗｅｉｓｈｔ　

Ｍａｌｅ８　１．７８　７５　４０．４６％　

Ｆｅｍ８１ｅ８　Ｎｏｔ　ａｖａｉｌａｂｌｅ　４０．３４％　

表１显示了嵌套的表头和占用多行多列的单元的复杂结　

构。为了获取属性值对．需要对它进行规范化。设一个ＨＴＭＬ　

表格包含ｍ行和ｎ列，它的第一个数据单元（第一个标志用　

元素表示的单元）在第ｋ＋ｌ行和第ｐ＋１列。如果一个　或　

元素没有ｃｏｌｓｐａｎ或ｒｏｗｓｐａｎ属性’，则给该元素添加属性　

ｃｏｌｓｐａｎ＝１或ｒｏｗｓｐａｎ＝ｌ，以方便表的规范化过程。使用ｒｏｗｓｐａｎ　

和ｃｏｌｓｐａｎ属性，向表格中插人冗余单元，使表格的每一行都具　

有相同数目的对齐的单元格的规范化算法描述如下：　

Ｆｏｒ表格每一行　

Ｆｏｒ表格每一列　

ｉｆ该单元的属性ｒｏｗｓｐａｎ－－ｎ　

Ｔｈｅｎ在该行插入ｎ个同样的单元　

Ｉｆ该单元的属性ｃｏｌｓｐａｎ＝ｎ　

Ｔｈｅｎ在该列捕入ｎ个同样的单元　

Ｅｎｄ　ｆｏｒ　

采用以上规范化算法后．任一ＨＴＭＬ表格都可规范化为　

表２形式。　

裹２　ＨＴＭＬ寝格的规范化形式　

＾ｌｌ肿】　…　＾１．Ｈ　

ｉ　；　

叶ｌ　…　

．

＋１…　．１．　

：　：　

ｌ　…　

　．

表２中有ｋ行的列头，Ｐ列的行头，其中０≤｜ｉ｝≤ｍ，０≤Ｐ≤　

Ｉｔ，某些单元可能是空值。如果ｋ≠０和Ｐ≠０。则称之为二维表，　

否则为一维表。当ｋ＝Ｏ时，称之为列式表（ｃｏｌｕｍｎ　ｗｉｓｅ）；当ｐ＝Ｏ　

时，称之为行式表（ｒｏｗ＿ｗｉｓｅ）。例如，例１中定义的表格可以被　

规范化为表３，其中ｋ＝２，ｐ＝ｌ，包含２行列头和１列行头。是二　

维表。　

衰３衰１的规范化衰　

３识别ＨＴＭＬ表的表头　

对于一些ＨＴＭＬ表格，表格作者没有按ＨＴＭＬ语法采用　

加表示表头（行头和列头），而采用　既表示表头又表示数据。　

要转换这些没有标志表头的Ｈ１ＭＬ表，关键在于识别表头。表　

格作者为了让用户容易识别，一般会采用一些格式化的信息来　

表示表头。从最重要到最不重要的格式化信息是：字体（字号。　

粗体），冒号，缩进，字体（ｆａｃｅ，颜色）。可以采用格式化的特征　

值来区分表头和数据。为此。需要计算每行每列的格式化平均　

特征值。因为现实中作者会用不同的格式信息表示表头和表中　

的数据单元。所以可以用每行每列的特征值的不同来识别表　

头。在ＨＴＭＬ表格中。先假设每个单元格的特征值都为０，每个　

单元格的字号是ｋ，在此假设下定义每个单元的特征值Ａ　

如下：　

定义１若单元格的字号是ｎ．则：　

Ａ＝Ａ＋（ｎ—ｋ）＊１０；若单元格是粗体，则：　

Ａ＝Ａ＋１０；若单元格的ｆａｃｅ是斜体的。则：　

Ａ＝Ａ＋Ｉ；每一行或每一列的特征值是在这行或者这列的所　

有单元格的平均特征值。　

计算完每行每列的特征值后，由于表中表头部分和数据部　

分的格式差异最大，即表头部分和数据部分的分界线处特征值　

差异最大，由此ｆ　到识别表头的规则如下：　

假设一ＨＴＭＬ表有ｍ行和ｎ列．且ｍ个行的特征值对应　

的是Ａ　“，Ａ　。设相邻的两行之间的差是Ａ　，　，…，Ａ　其　

中ＡＩ（ｉ＋Ｉ）　Ａ　－ＡⅢ，，ｉ＝１，…，ｍ一１。设Ａ　（Ｉ＋１）＝ｍａｘ（Ａｌ２，　∞，…，Ａ（ｍ—１）　

），并且Ａ　＜Ａ　，其中１≤ｆ≤　。则前ｋ行是列头。　

表的行头的识别和列的识别类似。即计算每列的特征值，　

再求出相邻两列特征值差的最大值。找到列头和数据的分　

界线。　

对于二维表，采用以上方法可识别行头和列头；对于一维　

列式表只需采用识别列头的方法识别列头：对于一维行式表只　

需采用识别行头的方法识别行头。　

４规范化表格转换为ＸＭＬ　

基于ＨＴＭＬ表格的规范化表（表２），表格的各个数据单元　

和其相应的表头属性被一一确定，因此可以根据表头和的单元　

数据来理解表格的属性值对，并采用ＸＭＬ表示理解的ＨＴＭＬ　

表格的属性值语义层次。即将规范化后的ＨＴＭＬ表中的属性　

值对映射成相应的ＸＭＬ元素。以上映射过程可形式化表示为　

如下规则：　

规则１假设ＨＴＭＬ表　的规范化表是表２，它的标题元　

素是ｃ，并且包含数据的行是　＋ｌ’　，…，　，其中０≤｜ｉ｝≤ｍ。则：　

维普资讯

１９２　２００７．４３（２）　Ｃｏｍｐｕｔｅｒ　Ｅｎｇｉｎｅｅｒｉｎｇ　ａｎｄ　Ａｐｐｌｉｃａｔｉｏｎｓ计算机工程与应用　

＜／ｐｏｐｕｌａｔｉｏｎ—ｓｔａｔｉｓｔｉｃｓ＞　

ｑＰ（Ｔ）＝＜ｃ＞　（ｒｈ１）０　（ｒ“。）…０１１＂（ｒｍ）＜／ｃ＞，其中，　

（ｒｆ）＝　ｌ，１＞…＜　；，ｐ＞　

＜ｈｌ　＋１＞…＜ｈｋ　＋ｌ＞　

本文采用Ｊａｖａ实现了文中提出的方法的原形系统，并　

对实际Ｗｅｂ站点ｗｗｗ．ｍｏｔｏｒｚｏｏ．ＣＯＢ，ｗｗｗ．ａｕｔｏｓｃｅｋ．ＣＯ．ｕｋ，ｗｗｗ．　

ｃａｆ８ｅａ坤ｈ．ｃｏｒｎ，ｗｗｗ．ｂｏｂｈｏｗａｒｄｈｏｎｄａ．ＣＯｌｌｑ，ＷＷＷ．ｃａｒｑｕｏｔｅ。ｃｏｍ，　

．叶１）　

＜／ｈｋ　１＞…＜　１

．　

＞　

ｃｌａｓｓｉｉｆｅｄｓ．ａｕｔｏｓ．ｙａｈｏｏ．ｃｏｍ等中Ｗｅｂ表格进行了实验。实验采　

用查全率和查准率两个指标，平均查全率达到９５％以上，查准　

牢达到９Ｏ％以上。实验效果较好。其中查全率采用“被正确转　

换为ＸＭＬ文档的表格属性值对总个数／表格属性值对总个数”　

计算，查准率采用“被正确转换为ＸＭＬ文档的表格属性值对总　

个数／被转换为ＸＭＬ文档的表格属性值对总个数”计算。　

＜＾１

　．

…

＜ｈｋ

ＪＩ＞　

．

ｄ１．　）　

＜／　

．　

…

＜／ｈ１

．　

＜Ｉｖｌ

，　

…

１＞　

＜Ｉｖ　

，

其中“０”是一个把两个字符串连接的操作，　（，，）是一个把　

ｌｔＴＭＬ表格转换成相应的ＸＭＬ文档的函数。若ｄ是非表格的　

单元数据，则　（Ｔ）－－－ｄ。　

由于规范化过程中插入了冗余单元。因此转换后的ＸＭＬ　

５　结论　

本文提出了一种自动转换ＨＴＭＬ表格为ＸＭＬ文档的新方　

法。该方法利用ＨＴＭＩ　表格属性，在表格中插人冗余单元，使　

ＨＴＭＬ表格规范化；对没有标志表头的ＨＴＭＬ表格，采用格式　

文档包含有冗余的元素。为此，提出以下合并机制。来合并相同　

的ＸＭＬ元素的内容，以消除冗余。　

合并规则：　

＜ｔ１＞＜ｔ２＞ｓ２＜／ｔ２＞＜／ｔ１＞＜ｆ１＞＜ｔ３＞ｓ３＜／ｔ３＞＜／ｔｌ＞＝ｑｌ＞　２　２＜　

化的信息的量化值识别网上表格的表头。该方法既利用了　

ＨＴＭＬ表格的格式化信息又利用了其蕴涵的结构信息，自动获　

取ＨＴＭＬ表格的语义层次。适用于没有标出表头信息的ＨＴＭＬ　

表格和复杂的嵌套表格。（收稿日期：２００６年９月）　

／ｔ２＞＜ｔ３＞ｓ３＜／ｔ３＞＜／ｔｌ＞　．　

规则１不仅适用于二维表，而且适用于一维表。在使用规　

则ｌ的时候，如果ｔａｇ的名字是￣（ｎｕｌ１），只需要去掉这个ｔａｇ　

参考文献：　

【１】Ｋｕｓｈｍｅｒｉｃｋ　Ｎ，Ｗｅｌｄ　Ｄ，Ｄｏｏｒｅｎｂｏｓ　Ｒ．Ｗｒａｐｐｅｒ　ｉｎｄｕｃｔｉｏｎ　ｆｏｒ　ｉｎｆｅｒ—　

和对应的结束ｔａｇ（例如，如果　＝　，那么　＞＝　，＜　＞＝妒）。　

例２利用规则ｌ中的转换规则，再利用合并舰则把ａｖｅｒ．　

ａｇｅ元素的内容合并后得到如下ＸＭＬ文档：　

＜ｐｏｐｕｌａｔｌｏｎ－ｓｔａｔｉｓｔｉｃｓ＞　

ｍａｔｉｏｎ　ｅｘｔｒａｃｔｉｏｎ［Ｃ］／／Ｐｒｏｃ　ＩＪＣＡＩ，１　９９７，　

【２】胡东东，需小峰．一种基于树结构的Ｗｅｂ数据自动提取方法【Ｊ１ｌ计算　

机研究与发展，２００４，４１（１０）：１６０７—１６１３．　

【３】３　Ｅｍｂｌｅｙ　Ｄ　Ｗ，Ｔａｏ　Ｃ．Ｌｉｄｄｌｅ　Ｓ　Ｗ．Ａｕｔｏｍａｔｉｃａｌｌｙ　ｅｘｔｒａｃｔｉｎｇ　ｏｎｔｏｌｏｇｉ－　

＜ｍａｌｅｓ＞　

＜ａｖｅｒａｇｅ＞　

ｅａｌｌｙ　ｓｐｅｃｉｉｆｅｄ　ｄａｔａ　ｆｒｏｍ　ＨＴＭＬ　ｔａｂｌｅ　ｏｆ　ｕｎｋｎｏｗｎ　ｓｔｒｕｃｔｕｒｅ［Ｃ］／／　

ＥＲ　２０ｏ２．２０ｏ２：３２２－３３７．　

＜ｈｅｉｇｈｔ＞１．７８＜／ｈｅｉｇｈｔ＞　

＜ｗｅｉｇｈｔ＞７５＜／ｗｅｉｇｈｔ＞　

＜／ａｖｅｍｇｅ＞　

【４】高军．王腾蛟，杨冬青，等．基于Ｏｎｔｏｌｏｇｙ的Ｗｅｂ内容二阶段半自动　

提取方法Ｕ】．计算机学报，２００４，２７（３）：３１０—３１８．　

【５　Ｌｉ５】ｍ　Ｓ　Ｊ．Ｎｇ　Ｙ　Ｋ，Ｙａｎｇ　Ｘ．Ｉｎｔｅｇｒａｔｉｎｇ　ＨＴＭＬ　ｔａｂｌｅｓ　ｕｓｉｎｇ　ｓｅｍａｎｔｉｃ　

ｈｉｅｒａｒｃｈｉｅｓ　ａｎｄ　ｍｅｔａ—ｄａｔａ　ｓｅｔｓ［Ｃ］／／ＩＤＥＡＳ　２０ｏ２．２０ｏ２：１６０一ｌ６９．　

【６】Ｙａｎｇ　Ｙ，Ｌｕｋ　Ｗ　Ｓ．Ａ　ｆｒａｍｅｗｏｒｋ　ｆｏｒ　Ｗｅｂ　ｔａｂｌｅ　ｍｉｎｉｎｇ［Ｃ］／／ＷＩＤＭ’　

０２．２００２：３６—４２．　

＜ｒａｔｉｏ＞４０．４６％＜／ｒａｔｉｏ＞　

＜／ｍａｌｅｓ＞　

＜ｆｅｍａｌｅｓ＞　

＜ａｖｅｒａｇｅ＞　

【７】Ｌｅｒｍａｎ　Ｋ，Ｇｅｔｏｏｒ　Ｌ，Ｍｉｎｔｏｎ　Ｓ，ｅｔ　ａ１．Ｋｎｏｂｌｏｃｋ：ｕｓｉｎｇ　ｔｈｅ　ｓｔｒｕｃｔｕｒｅ　

＜ｈｅｉｇｈｔ＞ｎｏｔ　ａｖａｉｌａｂｌｅ＜／ｈｅｉｇｈｔ＞　

＜ｗｅｉｇｈｔ＞ｎｏｔ　ａｖａｉｌａｂｌｅ＜／ｗｅｉｇｈｔ＞　

＜／ａｖｅｒａｇｅ＞　

ｏｆ　ｅｌ，ｓｉｔｅｓ　ｆｏｒ　ａｕｔｏｍａｔｉｃ　ｓｅｇｍｅｎｔａｔｉｏｎ　ｏｆ　ｔａｂｌｅａ［Ｃ］／／Ｐｒｏｃ　Ｓｉｇ－　

ｍｏｄ，２００４：ｌ１９一ｌ３Ｏ．　

【８】Ｈｅ　Ｈａｊ，Ｍｅｎｇ　Ｗｅｉ－ｙｉ，Ｙｕ　Ｃ　Ｔ，ｅｔ　ａ１．ＷＩＳＥ—ＩｌｌｔＰ＃ｒＨｔ０ｒ：ａ　ｓｙｓｔｅｍ　ｆｏｒ　

ｅｘｔｒａｃｔｉｎｇ　ａｎｔｉ　ｉｎｔｅｇｒａｔｌｎｇ　ｃｏｍｐｌｅｘ　Ｗｅｂ　ｓｅａｒｃｈ　ｉｎｔｅｒｆａｃｅｓ　ｏｆ　ｔｈｅ　

＜ｒａｔｉｏ＞４０．３４％＜／ｒａｔｉｏ＞　

＜／ｆｅｍａｌｅｓ＞　

ｄｅｅｐ　Ｗｅｂ［Ｃ］／／Ｐｍｅ　ＶＬＤＢ，２００５：１３１４－１３１７．　

（上接ｌ５９贝）　

ｌ２ｌ　Ｐｎ￣，ｓ　Ｊ．Ｊｏｉｎｔ　ｓｐａｍｅ　ｆｏｒｍｓ　ａｎｄ　ｇｅｎｅｒａｔｉｎｇ　ｚｅｒｏ　ｃｏｌｕｍｎｓ　ｗｈｅｎ　

ｇｅｒｓ，ＣＯＲＲ　２００１＿４ｌ　．Ｃｅｎｔｒｅ　ｆｏｒ　Ａｐｐｌｉｅｄ　Ｃｒｙｐｔｏｇｒａｐｈｉｃ　Ｒｅｓｅａｒｃｈ．　

２０ｏ１．　

ｃｏｍｂｉｎｇ，ＣＯＲＲ　２００３—２３　ｆＲ】．Ｃｅｎｔｒｅ　ｆｏｒ　Ａｐｐｌｉｅｄ　Ｃｒｙｐｔｏｇｒａｐｈｉｅ　Ｒｅ—　

ｓｅａｒｃｈ．２００３．　

【４Ｊ　ＥｌＧａｍａｌ　Ｔ．Ａ　ｐｕｂｌｉｃ－ｋｅｙ　ｃｒｙｐｔｏｓｙｓｔｅｍ　ａｎｄ　ａ　ｓｉｇｎａｔｕｒｅ　ｓｃｈｅｍｅ　

ｂａｓｅｄ　ｏｎ　ｄｉｓｃｒｅｔｅ　ｌｏｇａｒｉｔｈｍｓ［Ｊ］．ＩＥＥＥ　Ｔｒａｎｓａｃｔｉｏｎｓ　ｏｎ　Ｉｎｆｏｒｍａｔｉｏｎ　

Ｔｈｅｏｒｙ，１９８５，３１：４６９－４７２．　

【３　Ｓｏｌｉ３】ｎａｓ　Ｊ　Ａ．Ｌｏｗ－ｗｅｉｇｈｔ　ｂｉｎａｒｙ　ｒｅｐｒｅｓｅｎｔａｔｉｏｎｓ　ｆｏｒ　ｐａｉｒｓ　ｏｆ　ｉｎｔｅ・　

本文标签：表格方法表头

版权声明：本文标题：网上表格数据到XML的自动转换内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://roclinux.cn/b/1713605056a642954.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

Linux大棚 – 不忘初心的技术博客，浮躁时代的安静角落

网上表格数据到XML的自动转换

更多相关文章

注册表密技：一键锁定IE浏览器的起始页位置

掌握注册表大法，打造专属的IE浏览器主页锁定秘籍

xinput1_3.dll出错让你头疼？简单步骤帮你快速解决

电脑小白也能解决的XINPUT1_3.DLL丢失烦恼？实用技巧分享，立即重启游戏体验。

破解无法启动的游戏难题——找到并修复xinput1_3.dll的方法！

xinput1_3.dll失踪了？四个实用方法帮你快速搞定

告别单调：在Android上让视频播放变得互动与有趣——添加弹幕

Qt开发秘籍：QListWidget的右键菜单功能挖掘

Flash文件读取失败？一文教你轻松搞定内存问题！

d3dcompiler43.dll文件故障？一文告诉你快速恢复的秘诀，提升游戏体验！

Java编程：一步到位生成加密压缩Flash文件的方法

TBB.dll找不到？一文解析DNF报错五大原因，附赠修复指南及免费工具使用教程！

内存优化攻略：轻松释放电脑性能，提升工作效率

文件vcruntime140.dll找不到该怎么办？分析解决vcruntime140.dll

Word怎么删除空白页，4个方法轻松解决！

Winsock LSP导致无法上网(传说中的“浏览器劫持”)

Android中Back键实现Home键功能_android 实现按返回键为home键

办公软件WPS与Office的区别_wps与office有什么区别

镜像文件详解

【2025终极指南】电脑怎么连接打印机：从USB有线、WiFi无线到共享打印机的全方位教程_打印机连接

发表评论

推荐文章

如何打开Android 打包文件 .apk 文件_安卓手机如何打开.locpack文件

电脑点击关机之后一直退回进入登录界面_win10关机跳回登陆

无法识别的USB设备？怎么解决？_刷机 无法识别的usb设备

【内网渗透基础】三、权限提升-Windows内核提权_system 32 漏洞验证

教你如何设置电脑保护色来保护眼睛_荣耀笔记本如何设置电脑保护色

热门文章

Office办公大变身，插件安装秘籍全公开

开启H3C路由器的Telnet功能，开启网络管理新篇章！

一招解决System Volume Information病毒，让你的电脑焕发新生

全面升级你的.NET Framework 2.0，开发环境从此焕然一新！

启动慢如蜗牛？WordWPS安全模式困扰？一文带你彻底解决！

不再受困，快速解除Word安全模式的全面攻略

IP地址、网关、子网掩码_ip地址,子网掩码,默认网关

surface平板电脑Win10系统怎么进行恢复_微软surface pro5怎么恢复出厂设置

删除oralce 垃圾表的方法_oralce清理垃圾数据

系统优化新纪元：Dism++ x64 2025最新版，Windows精简与C盘瘦身的终极攻略

最新文章

一文教会你AIX系统备份：mksysb实用指南

SWF文件备份失败？这些步骤让你轻松搞定

Win10系统备份轻松搞定：掌握captureimage命令的关键技巧

Linux系统安全小贴士：掌握备份与恢复，安心每一天

省时省心！三步完成电脑系统高效备份！

Ubuntu系统维护秘籍：备份步骤详解，保护你的劳动成果！

Linux系统不哭：高效备份与快速恢复方案

Ubuntu系统安全大计，备份技巧大公开

GHOST教程：系统备份和还原，小白也能变成高手！

Linux备份与恢复必修课：SWF文件安全策略从入门到精通

Exploring the Finest Accommodations: A Comprehensive Guide to Ruston LA Hotels

The Enchanting Experience of ScaliniTella NYC: A Culinary Gem in the Heart of Manhattan

Exploring the Exquisite Aloft Chicago O'Hare: A Blend of Modern Luxury and Convenience

A Culinary Journey: Discovering the Finest Dining Experiences in Waco, TX

A Culinary Journey: Discovering the Finest Dining Experiences in Athens, GA

电脑设备管理器在哪里？一次让我抓狂又兴奋的寻找经历

与GWX的持久战：一段关于Windows10升级弹窗的私人记忆

以管理员身份运行：那些年我们追过的权限与踩过的坑

无法识别的USB设备？怎么解决？_刷机无法识别的usb设备