admin 管理员组

文章数量: 1087135


2024年4月20日发(作者:昆明静态管理)

维普资讯

技l术l与l应l用 

基于X M L的W e b数据 

挖掘系统的研究与设计 

■文/浙江大学计算机科学与技术学院 

浙江大学管理学院 

邹玉金 

张红 

■匪日 

本文主要研究7 XML(EXtensible Markup Language)和数据挖掘两项技术的结合点 

提出7基5=XML的数据挖掘系统模型。在该模型中对数据挖掘的各个环节提出7"; ̄NXML 

技术的解决途径 研究T XML用于异构数据集成 数据预处理和XML数据集上的数据挖 

掘等问题:提出一个面向电子商务站点的Web挖掘啜型系统o 

2 O 

事实标准。Internet上的数据也越来越 

多地采用XML文档格式进行存储、交 

换和表现。除了已有的信息抽取、web 

搜索等信息处理方法之外,人们越来越 

需要获取更进一步的、深层次的知识, 

即对其进行数据挖掘。 

但由于XML是一类半结构化的文 

本数据,与生具有文本文档和半结构 

掘系统成为数据挖掘领域和XML技术 

内容,解决数据应用的质量问题。显 

领域的一项重要课题。 

然,面向Web的数据挖掘比面向单个 

数据仓库的数据挖掘要复杂得多。一 

般说来,面向Web的数据挖掘具有以 

下三个方面的特点。 

基于XML的Web数据挖 

掘技术研究 

1.Web数据挖掘及其特点 

(1)Web数据挖掘 

从网络文档与服务中发现和提取信息。 

特点一:异构数据库环境。从数据 

库研究的角度出发,web网站上的信息 

也可以看作一个数据库,每一个站点就 

Web数据挖掘是利用数据挖掘技术 

是一个数据源。每个数据源都是异构 

的,因而每一站点之间的信息和组织都 

化数据的诸多弱点。如解析文档时必 

Web上各种形式的文档和用户访问信息 

不一样,这就构成了一个巨大的异构数 

须采用顺序读取的方式,访问效率不 

高;对信息的组织不规则,或者其结构 

可能经常变化,甚至可能不完整等。而 

就构成了Web数据挖掘的对象。根据挖 

据库环境。如果想要利用这些数据进行 

掘对象的不同我们将Web数据挖掘分 

数据挖掘,首先必须研究站点之间异构 

为内容挖掘、结构挖掘和访问信息挖掘 

数据的集成问题,只有将这些站点的数 

据都集成起来,提供给用户一个统一的 

视图,才有可能从巨大的数据资源中获 

传统的数据挖掘技术主要面对以结构 

三大类。 

化数据为主的关系数据库、事务数据 

库和数据仓库。我们不能直接将传统 

(2)Web数据挖掘的特点 

Web上有海量的数据信息,怎样 取所需的信息。其次要解决Web上的数 

的基于关系数据库的挖掘方法(如 对这些数据进行复杂的应用成了现今 

据查询问题,如果不能有效地得到所需 

Apriori)应用到半结构化数据挖掘中。 数据库技术的研究热点。数据挖掘就 数据,则对数据进行分析、集成、处理 

因此,开发出有效针对XML的数据挖 

是从大量的数据中发现隐含的规律性 

就无从谈起。 

维普资讯

ech nology&Appl ication 

匮 蔓圄 

特点二:半结构化的数据结构。 

的格式,即异构性,但由于XML所具 

则这种转换是极为有用的。 

Web上的数据与传统数据库中的数据不 

有的自解释性,可以统一表示这些数 

同。传统的数据库都有一定的数据模 

据。Web挖掘可以在Web服务器上对 

型,可以根据模型来具体描述特定的数 

来自多个不同应用点和数据库服务器的 

二、基于XML的Web数据挖 

掘系统结构研究 

1.基于XML的Web数据挖掘系 

统的体系结构 

据。而Web上的数据非常复杂,没有特 

数据方便地进行集成。 

定的模型描述,每一站点的数据都各自 

(2)XML数据与数据库之间的转换 

在数据挖掘领域,首先要进行的是 

独立设计,并且数据本身具有自述性和 

动态可变性。半结构化是web上数据的 

最大特点。 

特点三:解决半结构化的数据源问 

题。Web数据挖掘技术首要解决半结 

构化数据源模型和半结构化数据模型 

的查询与集成问题。要解决Web上的 

异构数据的集成与查询问题,就必须 

有一个模型来清晰地描述Web上的数 

据。除了定义一个半结构化数据模型 

外,还需要一种半结构化模型抽取技 

术,即自动地从现有数据中抽取半结 

构化模型的技术。面向Web的数据挖 

掘必须以半结构化模型和半结构化数 

据模型抽取技术为前提。 

2 XML在数据挖掘中的应用 

(1)数据挖掘中基于XML的异构数 

据集成 

使用XML能够将不同来源的半结 

构化的数据很容易地结合在一起,使搜 

索多样的异构数据库成为可能,为解决 

Web数据挖掘的难题带来了希望。将 

XML应用到Web挖掘中的主要目的是 

解决以下两个方面的问题。 

方面将W eb文档转换成结构 

化数据的表示形式,即XML文档。由 

于XML的自定义性及可扩展性,它足 

以表达各种类型的数据。以DTD中定 

义的结构方式来组织Web页面的内 

容,很容易将其转换成结构化的XML 

文档。 

另一方面以统一的结构将来自不同 

数据源的异构数据集成到一个XML文 

档中。当Web挖掘的数据来自不同的数 

据库服务器时,这些数据一般都有自己 

数据的收集和集成的过程。因此,经常 

结合前面的分析,将基于XML的 

使用XML文档作为一种中间格式从此 

Web数据挖掘系统在总体上分为三层。 

数据库模型转换到其他的模型。XML 

底层是XML数据集成层,用XML作 

可以定义很多数据交换的标准,它为 

为工具将相关数据进行集成、整合、抽 

Web数据管理提供了新的数据模型,并 

取,形成一个有一定结构信息的原始 

通过一定的映射机制转换为关系数据库 

XML数据集,作为中间层数据预处理 

数据。XML中的若干 

标记依据其相邻的层次 

关系,分别映射为关系 

个性化主动服务 数据挖掘应用层 

数据库中的关系表(对 

匡 圃 一 

象)、字段(属性),从而 厂i 页i ] 

XML敏据预处理层 

将数据库技术应用于 

\ 哩遵竖 \~ 

XML数据处理领域, 

实现批量数据的精确查 

I 呈三 塑塑塑墨堕 —____ 

找和模型抽取。这种映 

射主要通过模型驱动方 

-一@XML 'i 一 

法实现。 

XML文档中的数 

据根据预定义的模型,隐式地映射到 层的数据来源。在中间层中对XML数 

数据库中。对于大型的XML文档,这 

据集进行数据选择,清理和规范化,产 

种模型使用对象一关系的映射,因此也 

生结构化程度更高的具有丰富语义的 

称为对象模型驱动。在这个模型中,将 XML数据集,作为顶层即数据挖掘应 

XML文档中的数据库作为一个对象 

用层的数据源。在数据挖掘应用层中 

树,把具有相同属性的元素类型,内容 

有一些具体的数据挖掘应用需要将结 

作为类进行建模,然后使用对象一关系 果通过报表,即席查询,统计图等形式 

映射技术将这个模型映射到数据库中。 向决策人员展示。 

其中,类被映射成表,其内部的多个层 由图l中层次最低的数据集成层可 

次属性映射为表中字段列,若干个同 以看出,基于XML的数据挖掘首先要 

类中的子元素值转换为一个表中的多 解决异构数据的集成问题。基于XML 

个记录。 

的数据挖掘不能仅仅从XML文档中直 

从XML文档到数据库的映射经常 接获取数据,还必须对大量的关系数 

会丢失一些有关文档的元信息,比如文 

据库记录,XML文档,文本文档和 

档名,实体的定义,甚至是文档的内在 

EXCEL文档等进行数据挖掘。必须利 

逻辑结构。如果在应用中只强调文档中 用XML建立一个模型来描述各种各样 

的数据而不考虑数据之间的出现次序, 

的数据,提供给上层应用一个统一的 

维普资讯

技l术l与l应l用 

而同时电子商务网 

站每天都可能有上 

百万次的在线交 

易,生成大量的记 

录文件和登记表。 

Web上有效地发现有用的知识和辅助 

电子商务站点的开发,致力于提供一 

个数据挖掘的综合处理环境,如图3 

所示。 

在挖掘系统功能的设计上,各种数 

这些数据都是与客 

据的预处理方法和挖掘函数的设计是其 

户行为有关,对商 

家来说非常重要。 

但数据并不是信 

息。因此,在分析 

基于XML的Web 

中的两个重要部分。在图3中,黑色粗 

线表示控制流,即用户对流程的控制信 

息,如定制挖掘任务,选取应用领域的 

阈值、选取算法等;细线表示各种形式 

的数据流,如原始Web数据,处理后的 

数据挖掘系统的体 

数据以及最终的模式知识等。系统各个 

视图,从而有可能从庞大的数据资源 

中获取所需信息。 

系结构基础上,以电子商务网站为例进 模块内部功能相对独立,但彼此之间相 

步设计面向电子商务的Web挖掘系 

互联系并协同工作。 

经过数据集成得到XML格式的原 

始数据结构化程度非常低。由于现有的 

结构数据挖掘的理论和技术并不适用于 

半结构数据挖掘。因此必须对经过数据 

集成得到的半结构化信息文档进行预处 

统原型结构。 

系统主要分为三个部分。数据流, 

构成从电子商务站点数据到最终知识的 

完整数据挖掘流程;控制实现模块,直 

接控制数据流,它们是一些挖掘处理和 

2.面向电子商务的Web挖掘系 

统原型结构设计 

为提高数据挖掘系统的整体性 

知识处理函数库;用户控制部件,控制 

理,使它们具有更多的结构信息,然后 能,面向电子商务的Web挖掘系统原 

挖掘流程各阶段的工作,反复挖掘直到 

将已有的结构化数据挖掘方法移植来对 型着重从电子商务站点的效率和“成 

筛选出用户感兴趣的知识。 

其进行挖掘。对经过数据集成得到的半 

功”角度出发进行分析,帮助人们从 

结构化信息文档进行预处理模型如 

图2所示。 

经过预处理后的XML数据具 

————————■===== 注册用户 

三、小结 

Web固有的复杂性决定了Web 

壁 

有较高的结构化程度,但是它既不 

同于关系数据库、数据仓库里的结 

, 

.-_苎塑 

挖掘不能使用传统的数据挖掘模式。 

数据挖掘技术已经成功地应用于数 

构化数据,也不同于完全无结构的 

文本数据。因此对这些数据的挖掘 

w。。   内窖.

uL r 

习 

! 查 

\.用p信息 .胪德 

据库中的知识发现,面对不断增长 

的Web文档和Web活动,需要研究 

有效的挖掘算法和挖掘系统框架的 

设计,并将其应用于电子商务站点 

的建设。另外,行业商务平台是一个 

虚拟网络系统,在发展中可以形成 

要综合和改建现有的结构化数据挖 

掘方法和无结构文本数据挖掘方法 

来进行。 

电子商务正是为了适应全球的 

网络化趋势,把事物活动和贸易活 

动中发生关系的各方有机地联系起 

来,使得信息流、资金流、实物流能 

够迅速地流动,极大地方便了各种 

事务活动和贸易活动。 

建立一个电子商务网站并不困 

难,困难的是如何让电子商务网站 

有效益。要想有效益就必须吸引客 

I 模式精 

为总站点协调管理的全国各地的分 

国国同国 国 

二二][二 

站点。这时的数据挖掘就不仅仅是 

本地商务数据库,而是涉及一个分 

布式数据抽取的概念。以后的发展 

方向是在已有的数据挖掘领域理论 

知识基础之上,进一步研究数据挖 

二二王二二 

晒 —_.—塾 I

掘系统在一种分布式计算平台下的 

构建技术,以及基于组件技术的数 

据挖掘系统设计。囵 

户,增加能带来效益的客户兴趣度。 


本文标签: 数据 数据挖掘 挖掘 模型 集成