admin 管理员组

文章数量: 1184232


2024年4月16日发(作者:简短洋气的英文名女)

数据离散化方法综述

摘要:

数据离散化是一个训练集预处理的方法,用于将连续的数值属性转化为离

散的数值属性。离散数值属性在数据挖掘的过程中具有重要的作用。本文首先介

绍了离散化方法的分类,同时还按照分类介绍几种具有代表性的离散化方法。然

后比较各种离散化方法在特定应用环境下的优势和不足,提出需根据具体应用特

征选取离散化方法。

关键字:

连续属性; 离散属性; 数据离散化

1.概述

数据的特征按照其取值可以分为连续型和离散型。连续型数据也叫定量特征,

通常用间隔的尺度和比例尺度来衡量,其值取自于某个连续的区间,通常具有较

多或者无穷多个可能的取值,例如气温、身高、价格等等。离散型数据也叫定性

特征,一般以名义尺度或者有序尺度定义,其值取自于某个有限的集合当中,如

人的性别只能在{男、女}中取值。此类特征的值域只限定于较少的取值。数据离

散化作为训练集的预处理过程,其输出直接被用作随后进行的数据挖掘算法,如

分类和预测算法的输入。这些算法大多数是针对离散型数据的,对于连续型数据

不适用;有些算法即使能够处理连续型数据,效果也不如处理离散型数据好。在

数据库系统中连续型受占多数,要更好地分析处理这些数据就有必要对这些数据

进行离散化。

离散化的方法有很多,本文第2节介绍离散化方法的分类以及离散化的一般

过程第3节按类别具体介绍几种代表性的离散化方法。第4节提出要根据具体应

用环境选择合适的离散化方法。

2.离散化过程及分类

2.1数值离散化的一般过程

对连续特征进行离散化处理,一般经过以下步骤:(1)对此特征进行排序。

特别是对于大数据集,排序算法的选择要有助于节省时间,提高效率,减少离散

化的整个过程的时间开支及复杂度。(2)选择某个点作为候选点,用所选取的具

体的离散化方法的尺度来衡量候选选点是否满足要求。(3)若候选点满足离散化

的衡量尺度,则对数据集进行分裂或合并,再选择下一个候选点,重复步骤(2)

(3)。(4)当离散算法存在停止准则时,如果满足停止准则,则不再进行离散化

过程,从而得到最终的离散结果。

其中“候选点”指的是一个数值属性取值范围内的值,这个值将属性的取值

范围分为两个部分,其中一个范围中的值小于等于“候选点”的值,另一个范围

中的值大于“分割点”的值。例如,一个连续的区间[a,b]被分割成[a,c]和(c,b],

其中c是分割点。不同的算法根据不同的标准来衡量候选点的优劣,其中一种衡

量候选点优劣程度的标准是根据一个分割或合并与类别标号的关联,如基于熵的

衡量标准和基于统计的衡量标准。“停止准则”指出何时停止离散化过程,它实

质上是一个精确性与易理解性的折中。离散化程度越高,数据的精确性越差,丢

失信息量越大,但是使得离散分类跟容易归纳和理解。离散化程度越低,数据保

有的信息量越大,但是不容归纳出数据与分类的关系和对数据的理解。此外,停

止准则还需要考虑数据不一致性的问题,即两个数据对象所有属性的值都相同,

但是所属类别不同。离散化过程导致的数据不一致性不应该比离散化之前原有数

据的不一致性高。

2.2离散化方法的分类及特点

离散化方法依据不同的需求沿着不同的主线发展至今,目前已存在很多不同

离散化方法的分类体系。不同的分类体系强调离散化方法间的区别的不同方面。

主要的分类体系有有监督的和无监督的、动态的和静态的、全局的和局部的、分

裂式的(从上至下)和合并式的(从下至上)、单变量的和多变量的以及直接的

和增量式的。

根据离散化方法是否在离散化过程当中使用数据集的类别标注信息,离散化

方法可以分为有监督的离散化方法和无监督的离散化方法。其中无监督的离散化

方法在离散化过程当中无需使用类别信息,这类方法的典型代表是分箱方法,包

括等宽度分箱和等频率分箱。分箱方法使用箱均值或箱中位数替换箱中的每一个

值来将数据离散化。实际应用中,分箱方法效果不佳,特别是当数值数据分布不

均匀的时候。有监督的离散化方法在离散化过程当中需要使用类别信息。以前的

研究表明,有监督的方法比无监督的方法效果要好。

离散化方法也常以动态或静态的分类方法来区分。动态的离散化方法就是在

建立分类模型的同时对连续特征进行离散化,如分类算法C4.5。静态的离散化

方法就是在进行分类之前完成离散化处理。

根据离散化过程是否是针对整个训练数据空间的,离散化方法又可分为全局

的和局部的。全局的离散化方法使用所有的实例,而局部的离散化方法只是用一

部分的实例。

离散化方法还可分为从上至下的和从下至上的,也可称为分裂式的和合并式

的。分裂的离散化方法起始的分裂点列表是空的,通过离散化过程逐渐往列表中

加入分裂点,而合并的离散化方法则是将所有的连续值都看作可能的分裂点,再

逐渐合并相邻区域的值形成区间。

单变量的离散化方法是指一次只对数据集的一个特征进行离散化,而多变量

的离散化是同时考虑数据集的多个特征及其相互关联关系进行离散化,需要考虑

更多的因素,算法更加复杂。

另外一种离散化方法的分类是直接式的和增量式的。直接式的离散化方法就

是根据额外给定的参数(离散化所需得到的区间数等)一次性形成所有的分裂点,

而增量式的离散化方法是根据某个准则逐渐的将离散化结果进行改进,直到满足

准则的停止条件为止。

2.3离散化结果的评价

不同的离散化方法会产生不同的离散化结果。优良的离散化,应使划分尽可

能简约,又尽可能多的保留由样本数据代表的对象的固有特性。

离散化结果的好坏可以从以下几方面来考虑:(1)区间的个数。这也是对模型

简洁性的要求。理论上来说,离散得到的区间数越少越好,便于理解,但区间数

的减少另一方面也会导致数据的可理解性变差; (2) 离散化所导致的不一致性。

离散化之后数据的不一致性不能比离散化之前更高。这一点是对模型一致性的要

求。(3)预测准确性。即对模型准确性的要求。这一点通常通过交叉检验模式

建立分类树来衡量。

3.常用的离散化方法

3.1 基于熵的离散化方法

3.1.1基于熵的一般化方法

熵(Entropy)是最常用的离散化度量之一。基于熵的离散化是一种监督的、自

顶向下的分裂技术。它在计算和确定分裂点时利用分布信息。例如,为了离散化

属性A,该方法选择A的具有最小熵的值作为分裂点,并递归地划分结果区间,

得到分层离散化。这种离散化形成A的概念分层。

设D由属性集和类标号属性定义的数据元组组成。类标号属性提供每个元组

的类信息。该集合中属性A的基于熵的离散化基本方法如下:A的每个值都可

以看作一个划分A的值域的潜在的区间边界或分裂点(记作split_point)。也就

是说,A的分裂点可以将D中的元组划分成分别满足条件A≦split_point和A≥

split_point的两个子集,这样就创建了一个二元离散化。选择分裂点对数据集进

行划分的目的是为了将数据更清晰地分类。理想的状态下,我们希望每一个分类

中的元组所属类别尽可能地少,即分类后各类中的元组的类别尽可能地一致,也

就是说在属性A上按照split_point划分D后为了得到完全的分类所需要的信息

越少。为了度量某一划分之后得到完全的分类还需要信息,引入期望信息需求的

概念,期望信息需求由下式给出:

|

本文标签: 离散 方法 数据 属性 区间

更多相关文章

Java编程:一步到位生成加密压缩Flash文件的方法

1月前

一:引入jar包 <dependency><groupId>net.lingala.zip4j<groupId><artifa

优化网络环境:掌握Adobe Flash Player的带宽限制方法

1月前

注:以下内容转自不同的电脑教程第一章:WINXP全攻略一、优化启动设置(适用于家用版及专业版)1."我的电脑"->"属性"->"高级"

SayRecy数据恢复,轻松解救你的电脑数据危机!

1月前

在我们日常清理电脑时,有时会意外删除一些有用的文件,比如重要文件、照片等。这时就需要使用数据恢复软件尝试恢复数据。 EasyRecovery是一款强大有效实现数据恢复的软件,软件占用空间小,就算你是XP系统也能轻松驾驭。界面简

IE主页被SWF破坏?恢复教程,快来看看!

1月前

假如你的首页被修改后是1.打开internet属性,把首页改回。2.右键点击快速启动栏上的IE图标,选择 属性,将"C:Program FilesInternet Exploreriexplore.e

从基础到进阶:VLOOKUP在Excel中的运用与优化策略

1月前

说明我下面简单说明匹配数据,详细使用方式也可以参考下面文库哈EXCEL表中如何利用VLOOKUP将2张工作表的数据匹配? countif 方式1 A列数据在B列中出现的次

厂区热门聚焦:即时解读SWF、Flash中心、Adobe Flash Player的热点事件

1月前

1 今日内容 1.1 定时计算与实时计算 1.2 今日内容 kafkaStream 什么是流式计算 kafkaStream概述 kafkaStream入门案例

Windows 11安装全攻略:从下载到激活一步到位

1月前

紧接上篇内容,本文详细介绍了从准备工作到具体安装步骤的完整流程,帮助用户顺利完成Windows 11系统的安装。内容涵盖了ISO镜像文件的下载与校验、启动U盘的制作、硬件兼容性检查,以及BIOSUEFI设置和系统安装过程中的关键步骤

Mac轻松卸载,告别那些让你头疼的应用

1月前

Mac电脑如果有太多无用的应用程序,很有可能会拖垮Mac系统的运行速度。因此,卸载电脑中无用的软件是优化Mac系统运行速度的最佳方式之一。Mac删除应用程序特别简单,长点击应用点击x,或是直接将应用拖进废纸篓。但是有一些应用长按没有x

掌握SWF文件,驾驭Adobe Flash Player的无限可能

1月前

一、Application Data简介Applicaion Data相当于桌面应用的注册表,存储一些用户配置信息,如运行时状态,用户喜好等,需要注意的时, 当卸载应用时,这些数据会被删除,所以不要存储重要数

掌握IMX6U启动过程:内部Boot ROM、IVT、Boot data、DCD与led.bin文件详解

1月前

参考:Linux之ARM(IMX6U)裸机之I.MX6ULL镜像烧写以及启动头文件的详解作者:一只青木呀发布时间: 2020-08-09 17:10:00网址:BOOT R

深入I.MX6U:Linux启动方式的实战指南

1月前

第九章I.MX6U启动方式详解 I.MX6U支持多种启动方式以及启动设备,比如可以从SDEMMC、NAND Flash、QSPI Flash等启动。用户可以根据实际情况,选择合适的启动设备。不同的启动方式其启动方式和启动要求

启动之路:深入ARM I.MX6ULL的内部机制 - 内部BOOT ROM、IVT、Boot Data、DCD与led.bin揭秘

1月前

参考:Linux之ARM(IMX6U)裸机之I.MX6ULL镜像烧写以及启动头文件的详解作者:一只青木呀发布时间: 2020-08-09 17:10:00网址:BOOT R

内存优化攻略:轻松释放电脑性能,提升工作效率

1月前

电脑内存(RAM)的清理对于维持系统的流畅运行至关重要。随着使用时间的增加,系统内存会被各种应用程序和后台进程占用,导致系统响应变慢,甚至出现卡顿现象。通过有效地清理内存,可以提升电脑的性能,延长其使用寿命。本文将详细介绍如何清理电脑

ES6符号类型详解

1月前

引 在 JS 已有的基本类型(字符串、数值、布尔类型、 null 与 undefined )之外, ES6 引入了一种新的基本类型:符号(Symbol)。符号起初被设计用于创建对象私有成员,而这也是 JS 开发者期待已久的特性

Win7怎么设置工作组?Win7电脑设置工作组的方法_win10工作组设置

1月前

为了方便电脑之间的管理,需要使用到Win7系统下的工作组,通过工作组能够将大量的电脑按功能分组。当我们在局域网中处于同一个工作组时就可以方便的完成文件共享等操作,在管理上会方便很多,不同系统加入工作组的方法不同。下面小编就给大家带来W

无法识别USB设备解决办法_usb无法识别设备怎么办

1月前

无法识别USB设备 有时候当我们将USB移动硬盘或者U盘插到电脑上时,会遇到“无法识别USB设备”问题,反复重试也无济于事,但是同一个USB设备在其他电脑中是可以正常显示的。 方法1:卸载驱动,然后重新连接外置硬盘

基于Matlab的MDF文件导入与处理研究_matlabmdf格式数据处理

1月前

摘要 本文围绕MDF文件格式展开全面研究,系统阐述了MDF文件的基本结构与数据块概念,深入探讨了在Matlab环境下导入和处理这些文件的理论与实践方法。首先,介绍了MDF文件在现代工业和汽车电子领域的应用背景及重要意义。接着,

镜像文件详解

1月前

一、概念 镜像(Mirroring)是一种文件存储形式,是冗余的一种类型,一个磁盘上的数据在另一个磁盘上存在一个完全相同的副本即为镜像。可以把许多文件做成一个镜像文件,常见的镜像有ISO(官方系统一般用此安装)、BIN、

英雄联盟战斗力与隐藏分查询系统源码实战项目

1月前

简介:本项目是一个针对《英雄联盟》(LOL)的游戏数据分析工具,涵盖战斗力评估、隐藏分查询、皮肤信息展示及自动化数据获取功能。通过API接口或网络爬虫技术,系统可获取玩家表现数据并进行深度分析,帮助玩家了解自身真实水平与匹配机制。源码

如何利用192.168.1.1优化你的家庭网络体验

1月前

虽然前面小编也发布过关于的相关信息,但是都是解释相关的问题的,没有好好介绍关于的信息,今天小编星期八就给大家介绍一下的详细信息! 是什么? 192.168.0.1属于IP地址的

发表评论

全部评论 0
暂无评论