利用JTidy和XML实现Web数据信息的批量提取-Linux大棚

admin 管理员组

文章数量: 1087139

2024年4月20日发(作者：sql安装选择什么功能)

计算机工程与设计ＣｏｍｐｕｔｅｒＥｎｇｉｎｅｅｒｉｎｇａｎｄＤｅｓｉｇｎ　２０１０，３１（６）　１２４３　

・信息化技术・　

利用ＪＴｉｄｙ和ＸＭＬ实现Ｗｅｂ数据信息的批量提取　

刘钊夏，　何明昕　

（暨南大学计算机科学系，广东广州５１０６３２）　

摘　要：为了有效地在Ｗｅｂ上进行数据信息的提取，实现Ｗｅｂ数据的清理与集成，针对发布批量格式化数据的网页类型，提　

出了利用ＸＭＬ和ＪＴｉｄｙ自动从ｗｅｂ页面批量提取数据信息的方法。根据该类网页的特点，基于开发一种通用程序的思想，对　

页面标签结构进行分析与分类，讨论了识别数据元素和对数据元素进行分组等提取过程中的难点，在此基础上建立了总体　

扫描与提取的算法。实验结果表明了批量提取信息方法的可行性与有效性。　

关键词：Ｗｅｂ内容提取；ＸＭＬ；ＪＴｉｄｙ工具包；Ｄｏｍ４ｊ　３－具包；标记路径；频繁路径　

中图法分类号：丁Ｐ３１１；ＴＰ３１９　文献标识码：Ａ　文章编号：１０００．７０２４（２０１０）０６．１２４３—０４　

Ｅｘｔｒａｃｔｉｎｇ　ｆｏｒｍａｔｔｅｄ　ｂａｔｃｈ　ｄａｔａ　ｆｒｏｍ　ｗｅｂ　ｂｙ　ＪＴｉｄｙ　ａｎｄ　ＸＭＬ　

ＬＩＵ　Ｚｈａｏ—ｘｉａ．ＨＥ　Ｍｉｎｇ—ｘｉｎ　

（Ｄｅｐａｒｔｍｅｎｔ　ｏｆ　Ｃｏｍｐｕｔｅｒ　Ｓｃｉｅｎｃｅ，Ｊｉｎａｎ　Ｕｎｉｖｅｒｓｉｔｙ，Ｇｕａｎｇｚｈｏｕ　５　１　０６３２，Ｃｈｉｎａ）　

Ａｂｓｔｒａｃｔ：Ｔｏ　ｅｘｔｒａｃｔ　ｄａｔａ　ｉｎｆｏｒｍａｔｉｏｎ　ｆｒｏｍ　ｗｅｂ　ｅｆｆｅｃｔｉｖｅｌｙ　ａｎｄ　ｉｍｐｌｅｍｅｎｔ　ｗｅｂ　ｄａｔａ　ｐｕｒｉｆｉｃａｔｉｏｎ　ａｎｄ　ｉｎｔｅｇｒａｔｉｏｎ，ｔｈｅ　ａｐｐｒｏａｃｈ　ｔｈａｔ　ａｕｔｏ－　

ｍａｔｉｃａｌｌｙ　ｅｘｔｒａｃｔ　ｉｎｔｅｒｅｓｔｅｄ　ｂａｔｃｈ　ｄａｔａ　ｆｒｏｍ　ｗｅｂ　ｐａｇｅｓ　ｉｓ　ｐｒｅｓｅｎｔｅｄ　ｕｓｉｎｇ　ＸＭＬ　ｎａｄ　ＪＴｉｄｙ　ｔｏｏｌｓ．Ｔａｒｇｅｔｅｄ　ｏｎ　ｔｈｅ　ｓｐｅｃｉｉｆｃ　ｗｅｂ　ａｎｄ　ａ　ｇｅｎｅｒａｌ　

ｐｒｏｃｅｓｓｉｎｇ　ｉｄｅａ，ｐａｇｅ　ｓｔｒｕｃｔｕｒｅ　ｉｓ　ａｎａｌｙｚｅｄ　ａｎｄ　ｃｌａｓｓｉｉｆｅｄ．Ｔｈｅ　ｍａｉｎ　ｄｉｆｉｆｃｕｌｔｉｅｓ　ｉｎ　ｄｅｓｉｇｎ　ｔｈａｔ　ａｒｅ　ｉｄｅｎｔｉｆｙｉｎｇ　ａｎｄ　ｌａｂｅｌｉｎｇ　ｄａｔａ　ｅｌｅｍｅｎｔ，　

ｒａｅ　ｄｉｓｃｕｓｓｅｄ　ａｎｄ　ｔｈｅ　ａｌｇｏｒｉｔｈｍｓ　ｏｆ　ｇｅｎｅｒａｌ　ｓｃａｎｎｉｎｇ　ａｎｄ　ｅｘｔｒａｃｔｉｎｇ　ａｒｅ　ｃｏｎｓｔｒｕｃｔｅｄ．Ｆｉｎａｌｌｙ，ａ　ｃａｓｅ　ｓｔｕｄｙ　ｏｆ　ｅｘｔｒａｃｔｉｎｇ　ａ　ｗｅｂ　ｐａｇｅ　ｉｓ　

ｐｒｅｓｅｎｔｅｄ　ｔｏ　ｖｅｒｉｙｆ　ｔｈｅ　ｆｅａｓｉｂｉｌｉｔｙ　ａｎｄ　ｖａｌｉｄｉｙｔ　ｏｆ　ｔｈｅ　ｍｅｔｈｏｄ．　

Ｋｅｙ　ｗｏｒｄｓ：ｗｅｂ　ｃｏｎｔｅｎｔ　ｅｘｔｒａｃｔｉｏｎ；ＸＭＬ；ＪＴｉｄｙ；Ｄｏｍ４ｊ；ｌａｂｅｌ　ｐａｔｈ；ｆｒｅｑｕｅｎｔ　ｐａｔｈ　

０引　言　１提取ＨＴＭＬ网页内容存在的问题与改进方法　

Ｗｅｂ已逐渐成为重要的信息来源，大量公用信息在其中　如上所述，由于ＨＴＭＬ本身的结构特点，ＨＴＭＬ页面是一　

发布。人们在日常生活和工作中往往有多种现实的需求，需　个难于用程序手段自动处理的对象。ＨＴＭＬ页面的格式编排　

要从网页中自动抽取感兴趣的数据信息。Ｗｅｂ文档以ＨＴＭＬ　

中存在许多与用户所关注数据无关的内容描述，并且，由于要　

格式为主。虽然ＨＴＭＬ能方便地向用户呈现数据信息，但　动态添加标题以及编写其它服务器端脚本，文档结构可能在　

ＨＴＭＬ页面是一个难于用程序手段自动处理的对象，从中自　每次连接到页面时都需要进行更改。此外，很多ＨＴＭＬ页面　

动抽取与数据驱动的服务或应用程序相关的信息并非易事。　的格式结构不良，在对ＨＴＭＬ进行语法分析并不十分严谨的　

文献［１］中作者讨论了在对Ｗｅｂ进行数据抽取时所面临的问　Ｗｅｂ浏览器（如ＩＥ）中，有ＨＴＭＬ语法错误的页面通常也能显　

题并介绍了可用于解决这些问题的软件架构ＡＮＤＥＳ。而对　

示和工作，但从Ｗｅｂ页面提取数据变得更为困难。　

于单个Ｗｅｂ数据信息的提取，文献【２　３］中作者均通过由ＸＰａｔｈ　尽管如此，ＨＴＭＬ在数据抽取方面仍然具有一定优势。由　

函数定位数据所对应的锚节点的方法，自动从公开发布的Ｗｅｂ　

于其数据是半结构化的，用户所感兴趣的数据内容通常可以　

文档中获取他们所感兴趣的数据内容，然后反复执行抽取过　用ＨＴＭＬ树中深度嵌套的某个标签隔开，这使得抽取过程可　

程，把结果合并到单个ＸＭＬ数据文件中或存入后台数据库。　以专门在文档的特定部分内执行。利用ＪＴｉｄｙ工具可以把　

ＸＰａｔｈ路径虽然可以准确地定位锚，但它是根据具体文档的内　ＨＴＭＬ转换成良构的ＸＭＬ文档来改正ＨＴＭＬ页面设计的薄　

容格式而指定的，文档改变路径也会随着改变；而且如果用户　

弱之处。ＪＴｉｄｙ是可以免费获得的开源产品，用于改正ＨＴＭＬ　

感兴趣的是多个数据，也要为每个数据定位锚节点。本文尝　

文档中的常见错误并生成格式编排良好的等价ＸＭＬ文档。作　

试寻找一种新的方法，忽略文档格式来批量提取出感兴趣的　

为新一代互联网数据组织和交换标准的ＸＭＬ，其数据是结构　

数据信息，然后就可以从中抽取单个数据内容。　

化的，在描述数据内容的同时能突出对结构的描述，极大地方　

收稿日期：２００９．０３．３０；修订日期：２００９—０５—３０。　

基金项目：广东省自然科学基金项目（５００６０６１）。　

作者简介：刘钊夏（１９８４一），女，广西梧州人，硕士研究生，研究方向为软件工程；　何明听（１９６３一），男，副教授，研究方向为软件工程、并　

行分布式网络计算。Ｅ・ｍａｉｌ．１ｉｕｚｈａｏｘｉａ１２３＠ｙｅａｈ．ｎｅｔ　

１２４４　２０１０，３　１（６）　计算机工程与设计Ｃｏｍｐｕｔｅｒ　Ｅｎｇｉｎｅｅｒｉｎｇ　ａｎｄ　Ｄｅｓｉｇｎ　

便计算机从Ｗｅｂ文件中提取数据，同时ＸＭＬ被普遍使用的　

Ｗｅｂ浏览器所支持，从而降低了数据转换的成本。　

２基于ＸＭＬ和ＪＴｉｄｙ的ｗｅｂ信息的批量提取　

对于一些主要以数据信息反馈为主类型的网页（即在页　

面中所需要的数据内容部分比其它部分要多得多），感兴趣的　

信息通常在ＨＴＭＬ树中由一些ＨＴＭＬ标签隔开。根据ＨＴＭＬ　

文档结构的特点，这些数据部分所在叶子结点的标签及其在　

文档中的层次结构均基本相同，从而使得所对应的标记路径　

也基本相同（标记路径指从树的根结点到元素结点之间的有　

次序的结点的集合）；数据部分的标记路径出现次数最多，构　

成频繁路径（出现次数最多的标记路径）。因此只要找到叶子　

结点的频繁路径，就可以批量提取出所需数据信息。　

本文基于如上的自动抽取思想，文献【４］中提出的算法，用　

Ｊａｖａ语言编程实现，尝试将以数据信息反馈为主导的网页中　

的数据部分提取出来，以实现对数据初步的清理与集成，便于　

对其进行更进一步的数据抽取。　

本项数据提取技术的关键是把现有的Ｗｅｂ页面转换成　

ＸＭＬ，并使用适当的ＸＭＬ处理工具来处理ＸＭＬ结构的数据。　

我们利用ＪＴｉｄｙ完成ＨＴＭＬ到ＸＭＬ的转换，并选择Ｄｏｍ４ｉ包　

处理ｘＭＬ结构数据。　

３方法概述与示例简介　

３．１实现途径　

本文实现的技术途径如下：　

（１）获取指定Ｗｅｂ地址的ＨＴＭＬ文档对象；　

（２）使用ＪＴｉｄｙ直接把ＨＴＭＬ文档转换成ＸＭＬ文档（文献　

［２．３］中使用的是Ｔｉｄｙ）；　

（３）用Ｄｏｍ４ｉ解析ＸＭＬ文档，利用文献［４】中搜索标记路　

径的算法遍历ＸＭＬ文档找出叶子结点的频繁路径；　

（４）输出这些频繁路径的结点值（这些结点值就是我们所　

需要的数据信息，这里只是作了简单的输出）。此处有一个难　

点是如何对各个数据进行分组，即判断各个子结点是否属于　

同一个父结点。　

３．２主要算法思路　

本文参见文献［４］中提出的算法，用于寻找ＸＭＬ文档的频　

繁路径。该算法首先对单个ＸＭＬ文档进行解析，形成文档　

树；然后，对每个叶子节点的标记路径进行收集。　

本文基于此算法，首先设置一个字符串数组用来保存路　

径和该路径出现的次数，然后逐个扫描ＸＭＬ的标签，判断它　

是不是叶子结点，若是则得到该叶子结点的标记路径，再判断　

此路径是否在字符串数组中出现，若没有出现就存到数组中，　

并设次数为１；若已出现过则把对应的次数加１。这样一次扫　

描ＸＭＬ文档后就可以得到各个叶子结点的标记路径以及它　

们所出现的次数，从而找出频繁路径。算法流程如图１所示。　

下面以一个简单的例子介绍此算法是如何工作的。图２　

为一个简短的ＸＭＬ文档，其叶子结点对应的标记路径如图　

３所示。　

从图２、图３可以看出，路径／Ｐｅｏｐｌｅ／Ｐｅｒｓｏｎ／ＩＤ和／Ｐｅｏｐｌｅ／Ｐｅｒ—　

ｓｏｎ／ａｇｅ各出现了３次，／Ｐｅｏｐｌｅ／Ｐｅｒｓｏｎ／ｉｎｃｏｍｅ出现了２次，其余　

从ＸＭＬ文档中搜索叶子结点　

把叶子结点的标记路径存入　

数组，并统计其出现次数　

０　

从数组中提取频繁路径　

图１算法流程　

图２　ＸＭＬ文档示例　

图３　ＸＭＬ文档（图２）相对应的标记路径与出现次数　

路径出现了１次。出现３次的那条标记路径即为频繁路径。　

用此算法找出频繁路径后，再根据它对ＸＭＬ文档作二次扫　

描，得到此频繁路径的叶子结点的数据信息，即我们所需要的　

信息。本文只对这些数据作了简单的输出。由于在判断各个　

叶子结点是否属于同一个父结点时会有多种情况，本文仅考　

虑了出现较多的若干情况。　

３．３相关技术简介　

３－３．１　ＪＴｉｄｙ　

ＪＴｉｄｙ足用Ｊａｖａ实现的ＨＴＭＬＴｉｄｙ移植版本，提供了一个　

对ＨＴＭＬ的语法检查器和很好的打印功能。它将ＨＴＭＬ文档　

直接转换成ＸＭＬ文档，其实也是调用了Ｔｉｄｙ包（Ｔｉｄｙ包对　

ＨＴＭＬ字符串进行修正，并做标准化的处理）。类似它的￣Ｊａｖａ　

产品，ＪＴｉｄｙ可以用来清除格式不良或存在错误的ＨＴＭＬ。ＪＴｉｄｙ　

是ｓｏｕｒｃｅｆｏｒｇｅ的开源项目，ＪＴｉｄｙ的主要工作是整理ＨＴＭＬ文　

件，关注更多的是ＨＴＭＬ的规范，加上它有很多参数可以设　

置，可以定制出符合用户要求的规范的ＸＭＬ文档格式。　

ＪＴｉｄｙ主要完成以下两步工作：①为不成对的标签加上结　

束符”／”，例如＜ｂｒ＞转换为＜ｂｒ／＞，＜ｉｍｇ＞转换为＜ｉｍｇ／＞；②给所有　

属性值加引号，例￣１３＜ａ　ｈｒｅｆ＝ｈｔｔｐ：／／ｊｔｉｄ　ｓｏｕｒｃｅｆｏｒｇｅ．ｎｅｔ／＞转换　

为＜ａ　ｈｒｅｆ＝”ｈｔｔｐ：／／ｊｔｉｄｙ．ｓｏｕｒｃｅｆｏｒｇｅ．ｎｅｔ／”＞。更多关于Ｊｎｄｙ的信　

息可参见文献［５］。　

我们尝试用ＪＴｉｄｙ处理众多的ＨＴＭＬ网页，成功转换的比　

例并不是很高。主要原因是目前网上的ＨＴＭＬ代码格式大多　

刘钊夏，何明昕：利用ＪＴｉｄｙ和ＸＭＬ实现Ｗｅｂ数据信息的批量提取　

都不很规范，而ＪＴｉｄｙ要求ＨＴＭＬ文档中的标签至少是循环嵌　

套的；否则就会报错，转换不成功。以ｈｔｔｐ：／／ｗｗｗ．ｓｋｙｃｎ．ｃｏｒｎ／为　

例，用ＪＴｉｄｙ将其转换成对应的ＸＭＬ文档，会提示错误信息：　

Ｅｒｒｏｒ：ｄｉｓｃａｒｄｉｎ２　ｕｎｅｘｐｅｃｔｅｄ＜／ｆｏｒｍ＞，这说明虽然网页中有　

２０１０，３　１（６）　１２４５　

＜／ｆｏｒｍ＞标签，但其所处的位置并不符合循环嵌套的原则，转换　

中止。这无疑就增加了对Ｗｅｂ页面进行数据提取的难度，解　

决办法是要么开发出一个可以处理（自动提取）不规范文档的　

智能工具软件，要么对ＨＴＭＬ文档进行规范化。所幸的是，　

Ｗｅｂ网页ＨＴＭＬ格式规范化的程度正逐渐提高，而发布批量　

格式化数据的网页较普通网页通常有更规范的格式。　

３＿３．２　Ｄｏｍ４ｊ　

Ｄｏｍ４ｊ也是ｓｏｕｒｃｅｆｏｒｇｅ的开源项目，类似ＪＤＯＭ，主要用　

于对ＸＭＬ文档的解析。它应用于Ｊａｖａ平台，采用了Ｊａｖａ集合　

框架并完全支持ＤＯＭ，ＳＡＸ和ＪＡＸＰ。它的主要接口都在　

ｏｒｇ．ｄｏｍ４ｊ这个包里定义。本文利用Ｄｏｍ４ｊ包对转换后的ＸＭＬ　

文档进行解析，由于Ｄｏｍ４ｊ提供了各种接口和函数便于用户　

创建、读写、遍历ＸＭＬ文档，且对ＸＰａｔｈ有良好的支持，我们　

可以利用它方便地搜索出每个叶子结点的标记路径及其出现　

次数，进而找到频繁路径。更多关于Ｄｏｍ４ｊ的信息可参见　

文献［６］。　

３．４示例：地震数据　

下面我们用示例介绍数据抽取的过程。假设我们有兴趣　

跟踪几个月来中国各地的地震信息数据，且没有现成的软件　

用于报告此类信息以满足我们的需求，于是我们需要从众多　

公共网站收集此类信息。例如，我们可以对中国地震台网中　

心（网址ｈｔｔｐ：／／ｗｗｗ．ｃｓｎｄｍｃ．ａｃ．ｃｎ／ｎｅｗｗｅｂ／ｍｏｒｅ　ｑｕｉｃｋｄａｔａ．ｊｓｐ）列　

出的地震数据加以提取。　

从图４的网页界面可看出此ＨＴＭＬ页面主要显示的就是　

数据信息，符合本文的要求。把该文档转成ＸＭＬ格式，部分　

内容如图５所示。从图５可以看出，经ＪＴｉｄｙ清洗与格式化后　

的文档中相当多的信息仍然与我们所需要的数据信息无关；　

但由于其所列出的地震数据内容远比其它无关的内容多，从　

而前者所对应的叶子结点的标记路径出现次数也会比后者的　

多，因此并不影响频繁路径的定位。遍历此ＸＭＬ文件，找出　

频繁路径即为我们所需数据所对应的路径，从图６知频繁路　

径为出现次数最多（４ｏｏ次）的那条标记路径：ｈｔｍｌ／ｂｏｄｙ／ｄｉｖ／ｔａｂ—　

ｌｅ／ｔｒ／ｔｄ／ｔａｂｌｅ／ｔｒ／ｔｄ／ｔａｂｌｅ／ｔｒ／ｔｄ／。图７输出所需数据信息（每组数据　

以“一”隔开，方便阅读及处理）。　

３．５实验结果分析　

从图７输出的结果可以看出此算法正确提取出了网页中　

的各条地震数据信息并对其进行了准确的分组输出。每条地　

震数据信息相当于一组数据，每组数据都包含日期、经度、纬　

度、震级等数据元素。如何对这些数据元素进行分组归类正　

是此算法的难点之一。从转换后的ＸＭＬ文档的标签结构可　

知同～组的数据元素都属于相同的父结点，以图７的第一组　

数据为例，它们都是叶子结点，其结点标记路径都为频繁路径　

ｈｔｍｌ／ｂｏｄｙ／ｄｉｖ／ｔａｂｌｅ／ｔｒ／ｔｄ／ｔａｂｌｅ／ｔｒ／ｔｄ／ｔａｂｌｅ／ｔｒ／ｔｄ／，它们的父结点的标　

记路径为ｈｔｍｌ／ｂｏｄｙ／ｄｉｖ／ｔａｂｌｅ／ｔｒ／ｔｄ／ｔａｂｌｅ／ｔｒ／ｔｄｄｔａｂｌｅ／ｔｒ／。调用Ｄｏｍ４ｊ　

包中处理结点元素的ｇｅｔＵｎｉｑｕｅＰａｔｈ方法后得到父结点的路径　

实际为ｈｔｍｌ／ｂｏｄｙ／ｄｉｖ／ｔａｂｌｅ［４］／ｔｒ／ｔｄ／ｔａｂｌｅ［２］／ｔｒ／ｔｄ［２］／ｔａｂｌｅ／ｔｒ［１］／。对　

图４　２００８年１２月５日ＣＥＮＣ发布的中国范围地震事件网页　

图５转换后的ＸＭＬ文档（局部）　

／ｈｔｍｌ／ｈｅａｄ／ｍｅｔａ：２　

／ｈｔｍｌ／ｈｅａｄ／ｔｉｔｌｅ：ｌ　

／ｈｔｍｌ／ｈｅａｄ／ｌｉｎｋ：ｌ　

／ｈｔｍｌ／ｂｏｄｙ／ｄｉｖ／ｔａｂｌｅ／ｔｒ／ｔｄ／ｉｍｇ：４　

／ｈｔｍｌ／ｂｏｄｙ／ｄｉｖ／ｔａｂｌｅ／ｔｒ／ｔｄ：２　

／ｈｔｍｌ／ｂｏｄｙ／ｄｉｖ／ｔａｂ！ｅ／ｔｒ／ｔｄ／ｂｒ：２　

／ｈｔｍｌ／ｂｏｄｙ／ｄｉｖ／ｔａｂｌｅ／ｔｒ／ｔｄ／ｔａｂｌｅ／ｔｒ／ｔｄ／ｉｍｇ：２　

／ｈｔｍｌ／ｂｏｄｙ／ｄｉｖ／ｔａｂｌｅ／ｔｒ／ｔｄ／ｔａｂｌｅ／ｔｒ／ｔｄ：２　

／ｈｔｍｌ／ｂｏｄｙ／ｄｉｖ／ｔａｂｌｅ／ｔｒ／ｔｄ／ｔａｂｌｅ／ｔｒ／ｔｄ／ｂｒ：２　

／ｈｔｍｌ／ｂｏｄｙ／ｄｉｖ／ｔａｂｌｅ／ｔｒ／ｔｄ／ｔａｂｌｅ／ｔｒ／　

ｔｄ／ｔａｂｌｅ／ｔｒ／ｔｄ／ｉｍｇ：ｌ０１　

／ｈｔｍｌ／ｂｏｄｙ／ｄｉｖ／ｔａｂｌｅ／ｔｒ／ｔｄ／ｔａｂｌｅ／ｔｒ／　

ｌｄ／ｔａｂｌｅ／ｔｒ／ｔｄ／ｂ／ｆｏｎｔ：１　

／ｈｔｍｌ／ｂｏｄｙ／ｄｉｖ／ｔａｂｌｅ／ｔｒ／ｔｄ／ｔａｂｌｅ／ｔｒ／　

ｔｄ／ｔａｂｌｅ／ｔｒ／ｔｄ／ａ：２００　

／ｈｔｍｌ／ｂｏｄｙ／ｄｉｖ／ｔａｂｌｅ／ｔｒ／ｔｄ／ｔａｂｌｅ／ｔｒ／　

ｔｄ／ｔａｂｌｅ／ｔｒ／ｔｄ：４００　

／ｈｔｍｌ／ｂｏｄｙ／ｄｉｖ／ｔａｂｌｅ／ｔｒ／ｔｄ／ａ：１　

／ｈｔｍｌ／ｂｏｄｙ／ｍａｐ／ａｒｅａ：１　

图６各叶子结点的标记路径与出现次数　

于不同的结点该方法会返回惟一的标记路径名，这样就可以　

有效地识别出不同的父类结点，从而正确地对数据元素进　

行分组。　

１２４６　２０１０，３１（６）　计算机工程与设计Ｃｏｍｐｕｔｅｒ　Ｅｎｇｉｎｅｅｒｉｎｇ　ａｎｄ　Ｄｅｓｉｇｎ　

工作将是不断完善文中的方法和解决动态提取问题。　

本文所举的地震数据的提取只是沧海一粟。因特网上还　

可获得很多诸如旅游信息、食品价格、班次查询等与人们日常　

生活与工作息息相关的数据，若可对其进行自动提取，进而进　

行深层的数据挖掘，将会为人们的生活提供极大的指导作用。　

由此可见本文探索的现实意义。　

为了更高效地从网上查找信息和知识，研究基于ＸＭＬ的　

Ｗｅｂ数据内容的提取还可以推动对非结构化数据如图形数据、　

图像数据、多媒体数据的提取的发展。可以预期，Ｗｅｂ数据提　

取和ＸＭＬ的研究和应用在今后的若干年内会得到更广泛　

的重视。　

参考文献　

图７输出结果（部分）　

Ｊｕｓｓｉ　Ｍｙｌｌｙｍａｋｉ．Ｅｆｆｅｃｔｉｖｅ　ｗｅｂ　ｄａｔａ　ｅｘｔｒａｃｔｉｏｎ　ｗｉｔｈ　ｓｔａｎｄａｒｄ　

正确分组后对于每个叶子结点值也会出现各种较为复杂　

的情况需要处理，比如利用ＪＴｉｄｙ转换成ＸＭＬ文档会对某些　

ＸＭＬ　ｔｅｃｈｎｏｌｏｇｉｅｓ【ＥＢ／ＯＬ］．ｈｔｔｐ：／／ｗｗｗ１０．ｏｒｇ／ｃｄｒｏｍ／ｐａｐｅｒｓ／１０２／　

ｉｎｄｅｘ．ｈｔｍ１．　

叶子结点值自动换行显示，提取数据时就要去掉数值前面的　

若干空格符；又如结点值中可能会包含对外部ＤＴＤ的引用符　

…　

Ｊｕｓｓｉ　Ｍｙｌｌｙｍａｋｉ，Ｊａｒｅｄ　Ｊａｃｋｓｏｎ．Ａｕｔｏｍａｔｉｃａｌｌｙ　ｅｘｔｒａｃｔ　ｉｎｆｏｒｍａ－　

号＆＃１６０等，需要找￣ｌＪ＆＃１６０所代表的值并进行替换。本文只　

ｔｉｏｎ　ｗｉｔｈ　ＨＴＭＬ，ＸＭＬ，ａｎｄ　Ｊａｖａ【ＥＢ／ｏＬ】．ｈｔｔｐ：／／ｗｗｗ．ｉｂｍ．ｃｏｍ／　

是初步的提取出结点中的数据信息，尚未像ＩＥ那样考虑结点　

ｄｅｖｅｌｏｐｅｒｗｏｒｋｓ／ｌｉｂｒａｒｙ／ｗａ—ｗｂｄｍ／．　

值中各种更为复杂的情况。　

盖磊，王海军，刘俊民．一种基于ＸＭＬ的Ｗｅｂ地震信息提取的　

实现［Ｊ］．计算机应用与软件，２００７，２４（８）：１０３—１０５．　

４结束语　

梅东霞，张晓明．基于单个ＸＭＬ文档结构的数据挖掘［Ｊ］．石油　

本文基于ＸＭＬ方法和ＪＴｉｄｙ工具包，不同于文献［２－３］中　

化工高等学校学报，２００７，２０（１）：９４—９８．　

对单个Ｗｅｂ数据的抽取，而是探索Ｗｅｂ数据信息的批量提取，　

ＪＴｉｄｙ网站［ＥＢ／ＯＬ］．ｈｔｔｐ：／／ｊｔｉｄｙ．ｓｏｌｌｒｃｅｆ０ｒｇｅ．ｎｅｔ／．　

对以数据信息反馈为主的Ｗｅｂ页面进行了初步的数据抽取。　

Ｄｏｍ４ｊ网站［ＥＢ／ＯＬ］．ｈｔｔｐ：／／ｗｗｗ．ｄｏｍ４ｊ．ｏｒｇ／．　

对于抽取出来的数据组，可将其存放入数据库以供进一步的　

唐红光，周铁军．基于ＸＭＬ的Ｗｅｂ数据挖掘技术［Ｊ］．信息科学，　

数据分析与挖掘。目前程序只是实现了对指定地址ｗｅｂ文档　

２００７（１）：１４．　

中内容的提取，一些Ｗｅｂ网站采用动态查询技术发布信息，而　杨彬．利用ＸＭＬ技术进行Ｗｅｂ内容挖掘［Ｊ】．计算机与现代化，　

当前程序还没有解决对动态地址信息的提取问题。进一步的　

２００５（１　１）：４８—５０．　

（上接第１２４２页）　

［２】　Ｊａｓｏｎ　Ｗｏｏｄ，Ｋｅｎ　Ｂｒｏｄｌｉｅ，Ｊｕｎｇｗｏｏｋ　Ｓｅｏ，ｅｔ　ａ１．Ａ　ｗｅｂ　ｓｅｒｖｉｃｅｓ　

ｔｉｃａｌ　Ｃｏｍｐｕｔｅｒ　Ｓｃｉｅｎｃｅ，２００６，１４６：３３－４１．　

ａｒｃｈｉｔｅｃｔｕｒｅ　ｆｏｒ　ｖｉｓｕａｌｉｚａｔｉｏｎ［Ｃ］．４ｔｈ　ＩＥＥＥ　Ｉｎｔｅｒｎａｔｉｏｎａ１　Ｃｏｎｆｅ—　

［７］　倪晚成，刘连臣，吴澄．Ｗｅｂ服务组合方法综述［Ｊ】＿计算机工程，　

ｒｅｎｃｅ　ｏｎ　ｅＳｃｉｅｎｃｅ，２００８．　

２００８，３４（４）：７９—８　１．　

［３］３　Ｈｕ　ＣＨ，Ｗｕ　Ｍ，Ｌｉｕ　ＧＰ，ｅｔ　ａ１．Ｒｅｓｅａｒｃｈ　ｏｎ　ｓｃｈｅｄｕｌｅ　ｍｏｄｅｌ　ａｎｄ　ａｌ・　

［８】Ｈａｒａｌｄ　Ｍｅｙｅｒ，Ｄｏｍｉｎｉｋ　Ｋｕｒｏｐｋａ．Ｒｅｑｕｉｒｅｍｅｎｔｓ　ｆｏｒ　ａｕｔｏｍａｔｅｄ　

ｇｏｒｉｔｈｍ　ｏｒｉｅｎｔｅｄ　ｃｌｉｅｎｔ　ｄｅｍａｎｄ　ｆｏｒ　ｓｅｒｖｉｃｅ　ｗｏｒｋｆｌｏｗ［Ｊ］．Ｊｏｕｒｎａｌ　ｓｅｒｖｉｃｅ　ｃｏｍｐｏｓｉｔｉｏｎ［Ｃ］．Ｓｐｒｉｎｇｅｒ－Ｖｅｒｌａｇ　Ｂｅｒｌｉｎ　Ｈｅｉｄｅｌｂｅｒｇ，　

ｏｆＣｈｉｎｅｓｅ　Ｃｏｍｐｕｔｅｒ　Ｓｙｓｔｅｍｓ，２００７，２８（６）：１００８—１０１４．　

２００６：４４７—４５８．　

【４］　Ｗａｎｇ　Ｈ，Ｂｒｏｄｌｉｅ　Ｋ，Ｈａｎｄｌｅｙ　Ｊ，ｅｔ　ａ１．Ｓｅｒｖｉｃｅ－ｏｒｉｅｎｔｅｄ　ａｐｐｒｏａｃｈ　ｔｏ　

［９］　Ａｋｋｉｒａｊｕ　Ｒ，Ｓｒｉｖａｓｔａｖａ　Ｂ，Ｉｖａｎ　ＡＡ，ｅｔ　ａ１．ＳＥＭＡＰＬＡＮ：Ｃｏｍｂｉ－　

ｃｏｌｌａｂｏｒａｔｉｖｅ　ｖｉｓｕａｌｉｚａｔｉｏｎ【Ｊ】．Ｃｏｎｃｕｒｒｅｎｃｙ　ａｎｄ　Ｃｏｍｐｕｔａｔｉｏｎ：　

ｎｉｎｇ　ｐｌａｎｎｉｎｇ　ｗｉｔｈ　ｓｅｍａｎｔｉｃ　ｍａｔｃｈｉｎｇ　ｔｏ　ａｃｈｉｅｖｅ　ｗｅｂ　ｓｅｒｖｉｃｅ　

Ｐｒａｃｔｉｃｅ　ａｎｄ　Ｅｘｐｅｒｉｅｎｃｅ，２００８，２０：１２８９－１３０１．　

ｃｏｍｐｏｓｉｔｉｏｎ［Ｃ］．Ｐｒｏｃ　ｏｆｔｈｅ　Ｉｎｔ’１　Ｃｏｎｆｏｎ　Ｗｅｂ　Ｓｅｒｖｉｃｅｓ．Ｃｈｉｃａｇｏ：　

［５】　Ｓｉｌｖａ　Ｃ　ＬＦｒｅｉｒｅ　Ｊ，Ｃａｌｌａｈａｎ　Ｓ　Ｔ．Ｐｒｏｖｅｎａｎｃｅ　ｆｏｒ　ｖｉｓｕａｌｉｚａｔｉｏｎｓ　

ＩＥＥＥ　Ｃｏｍｐｕｔｅｒ　Ｓｏｃｉｅｔｙ，２００６：３７—４４．　

［Ｊ］．ＩＥＥＥ　Ｃｏｍｐｕｔｉｎｇ　ｉｎ　Ｓｃｉｅｎｃｅ　ａｎｄ　Ｅｎｇｉｎｅｅｒｉｎｇ，２００７，９（５）：　

［１０］Ｒａｏ　Ｊ，Ｓｕ　Ｘ．Ａ　Ｓｕｒｖｅｙ　ｏｆａｕｔｏｍａｔｅｄ　ｗｅｂ　ｓｅｒｖｉｃｅ　ｃｏｍｐｏｓｉｔｉｏｎ　ｍｅ—　

一

８２—８９．　

ｔｈｏｄｓ［Ｃ］．Ｓａｎ　Ｄｉｅｇｏ，Ｃａｌｉｆｏｒｎｉａ，ＵＳＡ：Ｐｒ０ｃｅｅｄｉｎｇｓ　ｏｆｔｈｅ　Ｆｉｒｓｔ　Ｉｎ－　

［６］　Ｙａｓｍｉｎｅ　Ｃｈａｒｉｆ，Ｎｉｃｏｌａｓ　Ｓ曲ｏｕｒｅｔ．Ａｎ　ｏｖｅｒｖｉｅｗ　ｏｆ　ｓｅｍａｎｔｉｃ　ｗｅｂ　

ｔｅｒｎａｔｉｏｎａｌ　Ｗｏｒｋｓｈｏｐ　ｏｎ　Ｓｅｍａｎｔｉｃ　Ｗｅｂ　Ｓｅｒｖｉｃｅｓ　ａｎｄ　Ｗｅｂ　Ｐｒｏ—　

ｓｅｒｖｉｃｅｓ　ｃｏｍｐｏｓｉｔｉｏｎ　ａｐｐｒｏａｃｈｅｓ［Ｊ］．Ｅｌｅｃｔｒｏｎｉｃ　Ｎｏｔｅｓ　ｉｎ　Ｔｈｅｏｒｅ・　

ｃｅｓｓ　Ｃｏｍｐｏｓｉｔｉｏｎ，２００４：４３—５４．　

本文标签：数据信息提取路径

版权声明：本文标题：利用JTidy和XML实现Web数据信息的批量提取内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://roclinux.cn/b/1713586969a642072.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

Linux大棚 – 不忘初心的技术博客，浮躁时代的安静角落

利用JTidy和XML实现Web数据信息的批量提取

更多相关文章

windows无法访问指定设备路径或文件怎么回事（系统找不到指定路径解决方法）

2021-02-06 如何批量下载风云卫星数据

获取Windows系统版本信息

windows下python的下载、安装、路径设置、pip设置

windows系统卸载VMware Workstation 并删除注册表残留信息

u盘文件出现乱码怎么办？数据怎么找回

使用Windows系统自带工具查看内存条信息

CDO（气象数据处理软件）安装的坑总结

wgrib,wgrib2下载与ECWMF数据读取

使用Charles抓包Android App数据

数据分析师必看，盘点最常用的四种数据统计分析方法

渗透测试--信息收集

Java获取浏览器头，浏览器信息、版本

《CWAP-404》，第4章：802.11 MAC 帧（4.4，数据帧与QoS数据帧）

探秘格式化：数据危机与恢复之道

Windows系统查询激活信息

一键Wipe工具：数据清理与隐私保护指南

Selenium爬取携程景区评论数据（仅供学习）

php 股票数据 sina,腾讯股票接口、和讯网股票接口、新浪股票接口、雪球股票数据、网易股票数据...

优盘备份软件,想要备份电脑U盘数据可以采用哪些方法？

发表评论

推荐文章

python - Pytorch Histogram- but only one dimension in 3D tensor - Stack Overflow

javascript - How to Clear the cache token in MSAL SPA? - Stack Overflow

javascript - Cross-domain error with Chrome in local dev only. How to resolve? - Stack Overflow

Python 包管理器 UV 全面介绍

windows安装linux 子系统

热门文章

How do I set a Visual Studio 2008 Remote Breakpoint Sound? - Stack Overflow

javascript - Is ≤ a legit less than equals char? - Stack Overflow

javascript - Setting an array to null and then updating it in useEffect React - Stack Overflow

javascript - accessing resource property file in *.js file - Stack Overflow

javascript - Focus nextprev input on maxlength reached or backspace keypress - Stack Overflow

javascript - HTML5 Canvas How to draw squircle with gradient border? - Stack Overflow

javascript - CORS error when jquery ajax request on api - Stack Overflow

Electron兼容win7版本的打包流程

Xshell及Xftp v8.0安装与使用-生信工具050

cmd打开计算机D盘,Win7利用cmd命令进入d盘文件夹的操作方法

最新文章

javascript - How do I toggle the readonly attribute of all child element with jquery - Stack Overflow

javascript - Might it be possible to block an entire US state from accessing my site, using PHP? - Stack Overflow

c++ - Is dereferencing std::span::end always undefined? - Stack Overflow

javascript - Delay function execution if it has been called recently - Stack Overflow

javascript - Google Maps Autocomplete List - Stack Overflow

Windows 安装和连接使用 PgSql数据库

cmd打开计算机D盘,Win7利用cmd命令进入d盘文件夹的操作方法

如何在VMare中制作Windows Embedded Standard 7 (WES 7)

开机、注销后自动登录Windows

【教程】Python Flask快速学习

Exploring the Finest Accommodations: A Comprehensive Guide to Ruston LA Hotels

The Enchanting Experience of ScaliniTella NYC: A Culinary Gem in the Heart of Manhattan

Exploring the Exquisite Aloft Chicago O'Hare: A Blend of Modern Luxury and Convenience

A Culinary Journey: Discovering the Finest Dining Experiences in Waco, TX

A Culinary Journey: Discovering the Finest Dining Experiences in Athens, GA