基于XML的WEB数据抽取模型研究-Linux大棚

admin 管理员组

文章数量: 1086019

2024年4月20日发(作者：java程序设计期末考试题库)

第３３卷第２期　

２０１２年２月　

通化师范学院学报　

ＪＯＵＲＮＡＬ　ＯＦ　ＴＯＮＧＨＵＡ　ＮＯＲＭＡＬ　ＵＮＩＶＥＲＳ兀Ｙ　

Ｖｏ１．３３№２　

Ｆｅｂ．２０１２　

基于ＸＭＬ的ＷＥＢ数据抽取模型研究　

黄淑芹　

（安徽财经大学管理科学与工程学院，安徽蚌埠２３３０３０）　

摘要：介绍了基于ＸＭＬ技术的ＷＥＢ信息抽取方法．搭建了ＷＥＢ信息抽取的三层数据模型，重点在于数据抽取层，在该层　

先借助于Ｔｉｄｙ工具将ＨＴＭＬ转换成ＸＨＴＭＬ，通过Ｐａｔｈ路径定位与抽取内容相关的锚，再利用ＸＳＬ将抽取结果映射成ＸＭＬ文件．　

该ＸＭＬ文件可以直接作为辅助决策的信息源，也可以直接存入数据库为其他所用．这是由非结构化数据向结构化数据转换的一　

种方法，为应用程序利用ＷＥＢ中的数据提供了可能．并实现了有关天气预报信息抽取的系统实例，抽取规则简单、健壮，代码移植　

性好．　

关键词：可扩展标记语言；ＷＥＢ信息抽取；可扩展样式表语言；非结构化数据；结构化数据　

中图分类号：ＴＰ３９１文献标志码：Ａ文章编号：１００８—７９７４（２０１２）０２—００３１—０３　

基金项目：安徽高校优秀青年人才基金资助项目（２０１１ＳＱＲＬ０６９），安徽高校自然科学基金资助项目（ＫＪ２０１１Ｚ００７），安徽财经　

大学青年科研项目（ＡＣＫＹＱ１１２９）　

收稿日期：２０１１—０８—１０　

作者简介：黄淑芹（１９７６一），女，安徽砀山人，安徽财经大学讲师．　

当前互联网已经成为最流行的信息发布媒体和最具潜　

①给定ＵＲＬ地址，获取ＨＴＭＬ文档对象．　

力的资源，但目前Ｗｅｂ上的数据大都以ＨＴＭＬ形式出现，　②使用ＨＴＭＬ解析器解析获得的ＨＴＭＬ文档对象，获得　

ＨＴＭＬ通常是一个很难用程序手段处理的媒体．由于Ｗｅｂ页　

ＸＨＴＭＬ文档．　

面中的很多内容的格式编排不合理，使得现在的Ｗｅｂ浏览　

③根据用户需求，分析ＸＨＴＭＬ文档，构造ＸＳＬ文件．　

器在进行ＨＴＭＬ语法分析时非常不严谨，另外，现有的ＷＥＢ　

④根据ＸＳＬ文件将ＸＨＴＭＬ文档映射成ＸＭＬ文件．　

数据主要目的是为了显示，用于浏览器浏览，缺乏对数据本　⑤将ＸＭＬ数据写入数据库．　

身的描述，不含清晰的语义信息，模式也不太明确，这使得应　

在Ｈ　ｍＬ向ＸＩ－ＩＴＭＬ的转化过程中，借助于Ｔｉｄｙ工具实　

用程序无法直接解析并利用Ｗｅｂ上海量的信息，造成资源　现．Ｔｉｄｙ　是一个免费使用的产品，可用于改正ＨＴＭＬ文档　

极大的浪费　，如何充分应用ｗｅｂ数据成为数据库技术研究　中的常见错误并生成格式编排良好的ＸＨＴＭＬ文档．Ｔｉｄｙ对　

的热点．　

文档进行数据清洗　后，采用基于树路径的抽取规则，用　

本文针对Ｗｅｂ上半结构化的数据，构建一个半结构化　

ＸＳＬ确定数据内的引用点，并处理清洗过的ＸＨＴＭＬ文档，根　

的数据模型；然后研究一种半结构化模型抽取技术，它能自　

据用户需求，抽取出信息，形成ＸＭＬ结构化文档．　

动地从现有数据中抽取半结构化模型的数据．　

３基于ＸＭＬ的ＷＥＢ数据抽取模型　

１　ＸＭＬ技术的优点　

３．１基于ＸＭＬ的ＷＥＢ数据抽取模型　

Ｗ３Ｃ开发的ＸＭＬ＿２　是一种半结构化的数据模型，能使　

基于ＸＭＬ的ＷＥＢ数据抽取模型分成三个层次：用户接　

不同结构的数据很容易结合在一起　］Ｊ，其数据内容和显示数　

口层，数据抽取层，数据存储层．如图１所示．用户接口层负　

据的格式是分离的，并且容易将ＸＭＬ的文档描述与关系数　

责将用户提交的查询命令提交给数据抽取层，并返回查询结　

据库中的属性一一对应起来，实施精确地查询与模型抽　

果．数据抽取层完成数据的清洗、转换和抽取，将ＨＴＭＬ文档　

取　Ｊ．ＸＭＬ提供了一个直接处理Ｗｅｂ数据的通用方法，从根　

进行规范化处理；把规范化后的ＨＴＭＬ文档转化为ＸＭＬ文　

本上解决了Ｗｅｂ文档和其他资源描述所面临的问题．基于　

档，得到结构良好的数据．并将抽取结果返回用户界面或存　

ＸＭＬ从Ｗｅｂ文档中抽取有用信息，以更为结构化的方式显　

人数据库．数据存储层保存上一层抽取的结构化数据，以结　

示出来，为应用程序利用Ｗｅｂ中的数据提供了可能．　

构化数据库形式进行存储．由于ＸＭＬ强调数据语义与元素　

２基于ＸＭＬ的ＷＥＢ数据抽取原理　

之间的关系，因此可以很容易将ＸＭＬ的文档描述与关系数　

从ＸＭＬ文档中提取信息的技术已经比较成熟，这里将　

据库中的属性对应起来．在数据存储层建立多层次Ｗｅｂ数　

信息接口和组织形式各不相同的非结构化的Ｗｅｂ数据进行　

据库，提供Ｗｅｂ的多维分析与层次化视图　．　

结构化处理．先将ＨＴＭＬ转化成ＸＨＴＭＬ，然后根据抽取规则　

３．２基于ＸＭＬ的数据抽取的系统实现　

对ＸＨＴＭＬ文档进行处理，根据用户需求抽取有用信息形成　

用户界面用Ｊａｖａ类来实现，因为Ｊａｖａ的基本类提供了　

ＸＭＬ文档．具体实现步骤如下：　

一

套全面的图形用户界面类库．　

．

３ｌ・　

情阡Ｈ　Ｊ＝ＥⅨ，　ＪｎＶｎ日　Ｊｌ，ｕ　；　无，Ｊ工，　疋一１’ｒ用Ｊ　

执行ＳＱＬ语句的Ｊａｖａ　ＡＰＩ，可以为多种关系数据库提供统一　

访问，它由一组用Ｊａｖａ语言编写的类和接口组成．　

ＸＭＬ文档写入数据库时，先是建立与ＸＭＬ文档相对应　

的表结构，然后把数据写入ＤａｔａＴａｂｌｅ，通过ｓｑｌｄａｔａａｄａｐｔｅｒ直　

接把ＤａｔａＴａｂｌｅ中的数据Ｕｐｄａｔｅ到数据库　

图１基于ＸＭＬ的ＷＥＢ数据抽取模型　

４基于ＸＭＬ的ＷＥＢ数据抽取的实例　

４．１获取Ｗｅｂ页并映射成ＸＨＴＭＬ　

这里以天气预报信息抽取为例．天气的变化使每天的预　

报信息都有所更新，及时分析和抽取各网页的天气预报信　

息，对做好恶劣天气防范工作、减少经济损失有重要意义．由　

于各个网站页面风格不同，这给用户获取信息造成不便．图２　

显示了２０１１年６月５　１３　ｙａｈｏｏ网站发布的蚌埠天气预报信　

息的屏幕快照．现在想抽取天气的温度、气压、湿度、可见度、　

露点、风力等信息．　

图２　Ｙａｈｏｏ发布的蚌埠天气预报信息网页　

信息的抽取通过一个Ｊａｖａ类Ｐａｒｓｅ瑚　Ｌ１１０ｘＭＬ实现．抽　

取的第一步首先将ＨＴＭＬ数据转换成ＸＨＴＭＬ．通过Ｔｉｄｙ库　

提供的函数在ＰａｒｓｅＨｒ】［＇ＭＬ１ｌｏＸＭＬ．ｔｉｄｙＨＴＭＬ（）方法中转换．　

ｔｉｄｙＨＴＭＬ（）方法接收一个由ＵＲＬ指定的Ｗｅｂ地址作为参　

数，并将其转化为输入流（ＩｎｐｕｔＳｔｒｅａｍ）对象，然后利用ｔｉｄｙ　

的Ｐａｒｓｅ方法清洗输入流，格式化后生成ＸＨＴＭＬ文档流　

（ＯｕｔｐｕｔＳｔｒｅａｍ）对象．ｏｕｔｐｕｔＸＭＬＴｏＦｉｌｅ（）方法用于将ＸＨＴＭＬ　

文档流对象输出到一个指定路径的文件中．实现ＨＴＭＬ转换　

成ＸＨＴＭＬ（ＸＭＬ的子集）的代码如下．　

ｐｕｂｌｉｃ　ｓｔａｔｉｃ　ｖｏｉｄ　ｍａｉｎ（Ｓｔｒｉｎｇ　ａｒｇｓ［］）｛　

ｔｒｙ｛　

Ｄｏｃｕｍｅｎｔ　ｄｏｃ＝ＰａｒｓｅＸＨＴＭＬＴｏＸＭＬ．ｔｉｄｙＨＴＭＬ（“ｈｔｔｐ：／／ｗｅａｔｈ—　

ｅｌ＂．ｙａｈｏｏ．ｅｏｍ／ｅｈｉｎａ／ａｎｈｕｉ／ｂｅｎｇｂｕ一２１２７８６９／”）；　

ＰａｒｓｅＸＨＴＭＬＴｏＸＭＬ．ＯＵｔｐｕｔＸＭＬＴｏＦｉｌｅ（ｄｏｃ。“ＸＭＬ”＋Ｆｉｌｅ．ｓｅｐａ．　

ｒａｔｏｒ＋“ＦＯＲＥＣＡＳＴＳ．ｘｍｌ”）；　

｝ｃａｔｃｈ（ＰａｒｓｅＸＨＴＭＬＴｏＸＭＬＥｘｃｅｐｔｉｏｎ　ｘｍｌｅ）｛　

．．．

｝　

ｊ　

转化成ＸＨＴＭＬ文档的界面如图３所示．　

・

３２・　

翌　ｉ　蜷磐攀鏊鬣　鍪翟越　篷　蕊　２釜鏊美　伫　＝＝：

．

：：：：’　，　：　…　

｝

；

　Ｔ

ｒ—　罢嚣　ｒ一

　＝＝＝意　

—：：＝＝：＝　——　Ｅ　

：　

圆圈　

Ｌ—＝　茹：　

…………　

ｉ　一…　

图３文档清洗后形成ＸＨＴＭＬ的部分关键区域　

４．２查找数据内的引用点　

Ｔｉｄｙ清洗与格式化后文档中大多数信息依然与最终数　

据表现形式无关，因此需要在ＸＭＬ文档中找出特定区域，从　

该区域中抽取数据，而无需过多关心其他冗余数据…．根据　

ＸＨＴＭＬ文档可以知道要抽取的信息在一个＜ｄｉｖ＞标记内．　

设置该＜ｄｉｖ＞为锚点，然后用ｘｐ砒ｈ　ｃ　路径表达式确定锚．　

ＸＰａｔｈ是一种专门用来在ＸＭＬ文档中查找信息的语言，我们　

用ＸＰａｔｈ路径来确定表达式．锚点ｔａｂｌｅ在全文档中的绝对路　

径表示为：　

／ｈｔｍｌ／ｂｏｄｙ／ｄｉｖ／ｄｉｖ／ｄｉｖ／ｄｉｖ／ｄｉｖ／ｄｉｖ　

这个表达式指定了从根＜ｈｔｍｌ＞元素到锚ｄｉｖ的路径．　

绝对路径表达式的方法会导致页面布局发生改变时查找失　

效．所以采用仅与内容相关而与格式无关的相对路径指定　

锚．这时ＸＰａｔｈ表达式改为：　

／／ｄｉｖ［ｓｔａｒｔｓ—ｗｉｔｈ（ｎｏｒｍａｌｉｚｅ—ｓｐａｃｅ（．），Ｆｅｅｌｓ　Ｌｉｋｅ＇）］　

４．３将数据映射成ＸＭＬ　

ＸＳＬ是由ＸＭＬ派生的语言，使用ＸＳＬＴ通过模式与模板　

相结合来转换ＸＭＬ文档　”］，主要用于设置数据的格式，实　

现了信息内容和显示格式分离．这里建立一个ＸＳＬ文件，用　

来标识锚，指定如何从锚获取查找的数据，以我们所需的格　

式构造一个ＸＭＬ输出文件显示查找的数据．　

ＸＳＬ文件部分代码如下：　

＜ｘｓｌ：ｔｅｍｐｌａｔｅ　ｍａｔｃｈ＝‘‘／ｈｔｍｌ”＞　

＜ＲＥＳＵＬＴ＞　

＜ＦＯＲＥＣＡＳＴＳ＞　

＜ｘｓｌ：ａｐｐｌｙ—ｔｅｍｐｌａｔｅｓ／＞　

＜／ＦＯＲＥＣＡＳＴＳ＞　

＜／ＲＥＳＵＬＴ＞　

＜／ｘｓｌ：ｔｅｍｐｌａｔｅ＞　

＜ｘａｌ：ｔｅｍｐｌａｔｅ　ｍａｔｃｈ＝“ｔｅｘｔ（）”＞＜／ｘｓｌ：ｔｅｍｐｌａｔｅ＞　

＜ｘｓｌ￣ｔｅｍｐｌａｔｅｍａｔｃｈ＝“ｄｉｖ［ｓｔａｒｔｓ—ｗｉｔｈ（ｎｏｒｍａｌｉｚｅ—ｓｌｍｃｅ（．），　

ＦＥＥＬＳ　Ｌｉｋｅ＇）］”＞　

＜ＦＥＥＬＳＬ１ＫＥ＞　

＜ＸＳＬ：ＶＡＬＵＥ—ＯＦ　ＳＥＬＥＣＴ＝“ｄｌ／ｄｄ［１］／”＞　

＜／ＦＥＥＬＳＬＩＫＥ＞　

＜ＢＡＲＯＭＥＴＥＲ＞　

＜ｘｓｌ：ｖａｌｕｅ—ｏｆ　ｓｅｌｅｃｔ＝“ｄｌ／ｄｄ［２］’，／＞　

＜／ＢＡＲＯＭ更　ＥＲ＞　

＜ＨＵＭＩＤｎ　＞　

＜ｘｓｌ：Ｖｌａｕｅ—ｏｆ　ｓｅｌｅｃｔ＝“ｄｌ／ｄｄ［３］’’／＞　

＜／ＨＵＭＩＤＩＴＹ＞　

＜ＶＩＳＩＢＩＩＪ】ＴＹ＞　

＜ｘｓｌ：ｖａｌｕｅ—ｏｆ　ｓｅｌｃｅｔ＝“ｄｌ／ｄｄ［４］”／＞　

＜／ＶＩＳＩＢＩＵｒｒＹ＞　

＜Ｄｅｗｐｏｉｎｔ＞　

＜ｘｓｌ：ｖａｌｕｅ—ｏｆ　ｓｅｌｅｃｔ＝“ａｔ／ｄａｉｓ］”／＞　

调用ｏｕｔｐｕｔＸＭＬＴｏＦｉｌｅ（）方法将其输出到—个ｘｍｌ文件中．　

＜／Ｄｅｗｐｏｉｎｔ＞　

４．４合并结果并处理数据　

＜ｗｉｎｄ＞　

如果仅抽取一次，建立一个ＸＭＬ输出文件就完成了．如　

＜ｘｓｌ：ｖａｌｕｅ—ｏｆ　ｓｅｌｅｃｔ：“ｄｌ／ｄｄ［６］，，／＞　

果执行多次抽取，则可以通过建立的ＭｅｒｇｅＸＭＬ方法，把当　

＜／ｗｉｎｄ＞　

前抽取中获得的数据合并到以前抽取数据的ＸＭＬ文件中，　

＜／ｘｓｌ：ｔｅｍｐｌａｔｅ＞　

并可以通过该文件观察数据抽取的正确性．　

应用ＸＳＬ文件把前面得到的ＸＨＴＭＬ文档转化为ＸＭＬ　

文档，实现该转化的代码如下：　

４．５抽取结果入库保存　

ｐｕｂｌｉｃ　ｓｔａｔｉｃ　ｖｏｉｄ　ｍａｉｎ（Ｓｔｒｉｎｇ　ａｒｇｓ［］）｛　

抽取的数据可以直接作为结果辅助决策，也可以存入数　

ｔｒｙ｛　

据库直接保存．直接存人数据库的代码如下：　

Ｄｏｃｕｍｅｎｔ　ｘｈｔｒａｌ＝ＰａｍｅＨＴＭＬＴｏＸＭＬ．ｐａｒｓｅＸＭＬＦｒｏｍＵＲＬＳｔｒｉｎｇ　

ＤｒｉｖｅｒＭａｎａｇｅｒ．ｒｅｇｉｓｔｅｒＤｒｉｖｅｒ（ｎｅｗ　ｏｒａｃｌｅ　ｊｄｂｃ　ｄｒｉｖｅｒ　ＯｍｅｌｅＤｒｉｖｅｒ　

（“ｆｉｌｅ：／／ＦＯＲＥＣＡＳＴＳ．ｘｍｌ”）；　

（））；　

Ｄｏｃｕｍｅｎｔ　ｘｓｌ＝ＰａｒｓｅＨＴＭＬＴｏＸＭＬ．ｐａｒｓｅＸＭＬＦｒｏｍＵＲＬＳｔｒｉｎｇ　

Ｃｏｎｎｅｃｔｉｏｎ　ｃｏｎｎ＝ＤｒｉｖｅｒＭａｎａｇｅｒ．ｇｅｔＣｏｎｎｅｃｔｉｏｎ（‘‘ｊｄｂｃ　ｏｒａｃｌｅ　ｏｃｉ８　

（“ｆｉｌｅ：／／ＸＳＬ／ＦＯＲＥＣＡＳＴＳ．ｘｓｌ”）；　

＠”，“Ｕ￣ｌＴｌａｍｅ”，“ｐａｓｓｗｏｒｄ”）；　

Ｄｏｃｕｍｅｎｔ　ｘｍｌ＝Ｐａｒ￣ＨＴＭＬＴｏＸＭＬ．ｔｒａｎｓｆｏｒｍＸＭＬ（ｘｈｔｍｌ，ｘｓ１）；　

Ｏｒａｃｌｅ．ｘｍ１．ｓｑ１．ｄｍ１．ＯｒａｃｌｅＸＭＬＳａｖｅ　Ｓａｙ＝Ｄｅｗ　ＯｒａｃｌｅＸＭＬＳａｖｅ　

ＰａｍｅＸＨＴＭＬＴｏＸＭＬ．ｏｕｔｐｕｔＸＭＬＴｏＦｉｌｅ　ｆ“ＸＭＬ”＋Ｆｉｌｅ．ｓｅｐａｒａｔｏｒ　

（ｃｏｎｎ，“ｔｂｌｎａｍｅ”）；　

＋“ｒｅｓｕｌｔ．ｘｍｌ”）；　

Ｓａｖ．ｉｎｓｅｒｔＸＭＬ（ｘｍｌＯｕｔ）；　

｝ｃａｔｃｈ（ＰａｒｓｅＸＨＴＭＬＴｏＸＭＬＥｘｃｅｐｔｉｏｎⅪｌｌｌｅ）｛　

Ｓａｖ．ｃｌｏｓｅ（）；　

，／…Ｄｏ　Ｓｏｍｅｔｈｉｎｇ．．．　

５结束语　

ｆ　

随着网络的迅猛发展，ＷＥＢ信息抽取会变得越来越重　

｝　

要．本系统移植性较好，大部分代码可以重复使用，通过选择　

其中ｐａｒｓｅＸＭＬＦｒｏｍＵＲＬＳｔｒｉｎｇ（）和ｔｒａｎｓｆｏｒｍＸＭＬ（）方法实　

与内容相关但与格式无关的锚，可以方便、快捷地抽取所需　

现对抽取的ＸＨＴＭＬ文档在指定的ＸＳＬ的映射下进行变换，并　

的信息．　

参考文献：　

［１］陈佳，胡燕，轩艳艳．一种基于ＸＭＬ的Ｗｅｂ信息抽取方法［Ｊ］．计算机数字与工程，２００７，３８（６）：１０１～１０３．　

［２】范立峰．ＸＭＬ实用教程［Ｍ】．北京：人民邮电出版社，２００９：１—１３．　

［３］周晓梅，王潜平，苏琳．基于ＸＭＬ的Ｗｅｂ数据挖掘模型的设计［Ｊ］．计算机工程与设计，２００７，２８（２）：２７２～２７４，２７７．　

［４］李姗，黄水源．基于ＸＭＬ的ＷＥＢ信息抽取模型设计［Ｊ］．微计算机信息，２００９，２５（３—３）：２０７—２０８，２１１．　

［５］ＨＴＭＬＴｉｄｙ［ＥＢ／ＯＬ］．ｈｔｔｐ：／／ｗｗｗ．ｗ３．ｏｒｇ／ＭａｒｋＵｐ／　

［６］毛国君，段立娟，等．数据挖掘原理与算法［Ｍ］．北京：清华大学出版社，２００７：３９－４３．　

［７］周翔．基于ＸＭＩ　的ｗｅｂ内容挖掘研究［Ｄ］．重庆：重庆大学，２００７．　

［８］盖磊，王海军，刘俊民．一种基于ＸＭＬ的ｗｅｂ地震信息抽取的实现［Ｊ］．计算机应用与软件，２００７，２４（８）：１０３～１０５．　

［９］陈佳．基于ＸＭＬ的Ｗｅｂ信息抽取技术的应用研究［Ｄ］．湖北：武汉理工大学，２００７．　

［１Ｏ］陈景霞，张鹏伟．基于ＸＭＬ的Ｗｅｂ数据挖掘模型的研究［Ｊ］．情报杂志，２ｏｏ６（１１）：１００～１０２．　（责任编辑：王前）　

Ｓｔｕｄｙ　ｏｎ　ＷＥＢ　Ｄａｔａ　Ｅｘｔｒａｃｔｉｏｎ　Ｍｏｄｅｌ　Ｂａｓｅｄ　ｏｎ　ＸＭＬ　

ＨＵＡＮＧ　Ｓｈｕ——ｑｉｎ　

（Ｓｃｈｏｏｌ　ｏｆ　Ｍａｎａｇｅｍｅｎｔ　Ｓｃｉｅｎｃｅ　ａｎｄ　Ｅｎｇｉｎｅｅｒｉｎｇ，Ａｎｈｕｉ　Ｕｎｉｖｅｒｓｉｔｙ　ｆｏ　Ｆｉｎａｎｃｅ　ａｎｄ　Ｅｃｏｎｏｍｗｓ，　

Ｂｅｎｇｂｕ，Ａｎｈｕｉ　２３３０３０，Ｃｈｉｎａ）　

Ａｂｓｔｒａｃｔ：Ｔｈｅ　ｐａｐｅｒ　ｉｎｔｒｏｄｕｃｅｄ　ａ　ｍｅｔｈｏｄ　ｏｆ　ＷＥＢ　ｉｎｆｏｒｍａｔｉｏｎ　ｅｘｔｒａｃｔｉｏｎ　ｂａｓｅｄ　ｏｎ　ＸＭＬ　ｔｅｃｈｎｏｌｏｇｙ　ａｎｄ　ｃｏｎｓｔｒｕｃｔｅｄ　

ａ　ｔｈｒｅｅ　ｌａｙｅｒ　ｄａｔａ　ｍｏｄｅｌ　ｏｆ　ＷＥＢ　ｉｎｆｏｒｍａｔｉｏｎ　ｅｘｔｒａｃｔｉｏｎ．Ｄａｔａ　ｅｘｔｒａｃｔｉｏｎ　ｌａｙｅｒ　ｉＳ　ｈｔｅ　ｍｏｓｔ　ｉｍｐｏｒｔａｎｔ　ａｍｏｎｇ　

ｈｔｅ　ｔｈｒｅｅ　ｌａｙｅｒｓ．Ｆｉｒｓｔ　ｉｔ　ｅｏｎｖｅ￣ｅｄ　ｔｈｅ　ｄａｔａ　ｆｒｏｍ　ＨＴＭＬ　ｔ０　ＸＨＴＭＬ　ｗｉｔｈ　Ｔｉｄｙ　ｔｏｏｌｓ．ａｎｄ　ｔｈｅｎ　ｂｙ　ｐａｔｈ　ｏｒｉ—　

ｅｎｔａｔｉｏｎ　ａｎｄ　ｅｘｔｒａｃｔｉｎｇ　ｔｈｅ　ｃｏｎｔｅｎｔ—ｒｅｌａｔｅｄ　ａｎｃｈｏｒ，ｍａｐｐｅｄ　ｔｈｅ　ｅｘｔｒａｃｔｉｏｎ　ｒｅｓｕｌｔ　ｔｏ　ＸＭＬ　ｉｆｌｅ　ｗｉｔｈ　ＸＳＬ．　

Ａ　ｓｙｓｔｅｍ　ｅｘａｍｐｌｅ　ｗａｓ　ｒｅａｌｉｚｅｄ　ａｂｏｕｔ　ｗｅａｔｈｅｒ　ｆｏｒｅｃａｓｔｓ　ｉｆｎｏｒｍａｔｉｏｎ　ｅｘ￣ａｃｆｉｏｎ．Ｔｈｅ　ｅｘｔｒａｃｔｉｏｎ　ｒｕｌｅｓ　ａｒｅ　

ｓｉｍｐｌｅ。ｒｏｂｕｓｔ　ａｎｄ　ｔｈｅ　ｃｏｄｅｓ　ｃａｎ　ｂｅ　ｗｉｄｅｌｙ　ａｄｏｐｔｅｄ．　

Ｋｅｙ　ｗｏｒｄｓ：ＸＭＬ；ＷＥＢ　ｉｎｆｏｒｍａｔｉｏｎ　ｅｘｔｒａｃｔｉｏｎ：ＸＳＬＴ；ｕｎｓｔｒｕｃｔｕｒｅｄ　ｄａｔａ；ｓｔｒｕｃｔｕｒｅｄ　ｄａｔａ　

・

３３・　

本文标签：数据抽取信息

版权声明：本文标题：基于XML的WEB数据抽取模型研究内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://roclinux.cn/p/1713587097a642079.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

Linux大棚 – 不忘初心的技术博客，浮躁时代的安静角落

基于XML的WEB数据抽取模型研究

更多相关文章

手机 &amp; 电脑数据，这样删除才彻底！

查阅所连接过的WiFi所有信息（含密码）（访问历史所有WiFi连接）

python windows系统下导入数据集的绝对路径问题

【大模型】ChatGPT 数据分析与处理使用详解

MQ几百万数据没有消费怎么办---实战教你解决

数据透视表右侧字段不见了，怎么办？

一文详解路由器配置信息

大数据技术15：大数据常见术语汇总

使用 ReclaiMe Pro 恢复群晖 Synology NAS 设备数据

获取Windows系统版本信息

影刀---实现我的第一个抓取数据的机器人

u盘文件出现乱码怎么办？数据怎么找回

从Windows系统服务获取活动用户的注册表信息

CDO（气象数据处理软件）安装的坑总结

备份Windows10的激活信息

30个高质量的数据集网站，你必须要试试！

卷王指南，大学计算机专业，面临分专业，计科，软工，大数据，物联网，网络工程，该选什么？

Unity学习辅助篇之Unity打包成安卓Android应用后，如何查看对应的版本信息（api版本，包名等，无需AndroidSutdio版），方便上架应用时的查看

《CWAP-404》，第4章：802.11 MAC 帧（4.4，数据帧与QoS数据帧）

excel出现为了防止数据流失，无法移走非空单元格怎么办

发表评论

推荐文章

python - Conical Slicing 3D printing seems to change angle with movement of gecode - Stack Overflow

reactjs - why javascript notification not showing? - Stack Overflow

.net - Syntax error using DefaultView.RowFilter on DataTable - Stack Overflow

javascript - Nodejs rest api delete function - Stack Overflow

Javascript sort array of variables and return a variable - Stack Overflow

热门文章

javascript - Browser freezing after selecting file in input field - Stack Overflow

html - Same header on all page files - Stack Overflow

javascript - Chrome: Debug who changes document.location.hash - Stack Overflow

java - handle unterminated string constant in javascript - Stack Overflow

javascript - Listener in front end to listen on back end listener - Stack Overflow

kubernetes - Forwarding CF-IPCountry Header to Backend with NGINX Ingress and Cloudflare - Stack Overflow

Rails development not showing error trace - Stack Overflow

javascript - How to fix &#39;Access has been blocked by CORS policy&#39; in ReactNode.js application - Stack Overflow

react native - How to fix crash ios production from expo go - Stack Overflow

java - WildFly Fails to Start with SkyWalking Agent: &quot;WFLYLOG0078: The logging subsystem requires the log manager to be

最新文章

javascript - How do I toggle the readonly attribute of all child element with jquery - Stack Overflow

javascript - Might it be possible to block an entire US state from accessing my site, using PHP? - Stack Overflow

c++ - Is dereferencing std::span::end always undefined? - Stack Overflow

javascript - Delay function execution if it has been called recently - Stack Overflow

javascript - Google Maps Autocomplete List - Stack Overflow

windows设置断电重启开机后自动输入锁屏密码登录

Windows系统设置开机默认开启数字小键盘

Windows11 开机自动同步时间（开机时间不更新问题）

windows配置开机自启动软件或脚本

【Redis】Windows设置Redis为开机自启动

Exploring the Finest Accommodations: A Comprehensive Guide to Ruston LA Hotels

The Enchanting Experience of ScaliniTella NYC: A Culinary Gem in the Heart of Manhattan

Exploring the Exquisite Aloft Chicago O'Hare: A Blend of Modern Luxury and Convenience

A Culinary Journey: Discovering the Finest Dining Experiences in Waco, TX

A Culinary Journey: Discovering the Finest Dining Experiences in Athens, GA

手机 & 电脑数据，这样删除才彻底！

javascript - How to fix 'Access has been blocked by CORS policy' in ReactNode.js application - Stack Overflow

java - WildFly Fails to Start with SkyWalking Agent: "WFLYLOG0078: The logging subsystem requires the log manager to be