admin 管理员组

文章数量: 1184232


2024年4月16日发(作者:简短洋气的英文名女)

数据离散化方法综述

摘要:

数据离散化是一个训练集预处理的方法,用于将连续的数值属性转化为离

散的数值属性。离散数值属性在数据挖掘的过程中具有重要的作用。本文首先介

绍了离散化方法的分类,同时还按照分类介绍几种具有代表性的离散化方法。然

后比较各种离散化方法在特定应用环境下的优势和不足,提出需根据具体应用特

征选取离散化方法。

关键字:

连续属性; 离散属性; 数据离散化

1.概述

数据的特征按照其取值可以分为连续型和离散型。连续型数据也叫定量特征,

通常用间隔的尺度和比例尺度来衡量,其值取自于某个连续的区间,通常具有较

多或者无穷多个可能的取值,例如气温、身高、价格等等。离散型数据也叫定性

特征,一般以名义尺度或者有序尺度定义,其值取自于某个有限的集合当中,如

人的性别只能在{男、女}中取值。此类特征的值域只限定于较少的取值。数据离

散化作为训练集的预处理过程,其输出直接被用作随后进行的数据挖掘算法,如

分类和预测算法的输入。这些算法大多数是针对离散型数据的,对于连续型数据

不适用;有些算法即使能够处理连续型数据,效果也不如处理离散型数据好。在

数据库系统中连续型受占多数,要更好地分析处理这些数据就有必要对这些数据

进行离散化。

离散化的方法有很多,本文第2节介绍离散化方法的分类以及离散化的一般

过程第3节按类别具体介绍几种代表性的离散化方法。第4节提出要根据具体应

用环境选择合适的离散化方法。

2.离散化过程及分类

2.1数值离散化的一般过程

对连续特征进行离散化处理,一般经过以下步骤:(1)对此特征进行排序。

特别是对于大数据集,排序算法的选择要有助于节省时间,提高效率,减少离散

化的整个过程的时间开支及复杂度。(2)选择某个点作为候选点,用所选取的具

体的离散化方法的尺度来衡量候选选点是否满足要求。(3)若候选点满足离散化

的衡量尺度,则对数据集进行分裂或合并,再选择下一个候选点,重复步骤(2)

(3)。(4)当离散算法存在停止准则时,如果满足停止准则,则不再进行离散化

过程,从而得到最终的离散结果。

其中“候选点”指的是一个数值属性取值范围内的值,这个值将属性的取值

范围分为两个部分,其中一个范围中的值小于等于“候选点”的值,另一个范围

中的值大于“分割点”的值。例如,一个连续的区间[a,b]被分割成[a,c]和(c,b],

其中c是分割点。不同的算法根据不同的标准来衡量候选点的优劣,其中一种衡

量候选点优劣程度的标准是根据一个分割或合并与类别标号的关联,如基于熵的

衡量标准和基于统计的衡量标准。“停止准则”指出何时停止离散化过程,它实

质上是一个精确性与易理解性的折中。离散化程度越高,数据的精确性越差,丢

失信息量越大,但是使得离散分类跟容易归纳和理解。离散化程度越低,数据保

有的信息量越大,但是不容归纳出数据与分类的关系和对数据的理解。此外,停

止准则还需要考虑数据不一致性的问题,即两个数据对象所有属性的值都相同,

但是所属类别不同。离散化过程导致的数据不一致性不应该比离散化之前原有数

据的不一致性高。

2.2离散化方法的分类及特点

离散化方法依据不同的需求沿着不同的主线发展至今,目前已存在很多不同

离散化方法的分类体系。不同的分类体系强调离散化方法间的区别的不同方面。

主要的分类体系有有监督的和无监督的、动态的和静态的、全局的和局部的、分

裂式的(从上至下)和合并式的(从下至上)、单变量的和多变量的以及直接的

和增量式的。

根据离散化方法是否在离散化过程当中使用数据集的类别标注信息,离散化

方法可以分为有监督的离散化方法和无监督的离散化方法。其中无监督的离散化

方法在离散化过程当中无需使用类别信息,这类方法的典型代表是分箱方法,包

括等宽度分箱和等频率分箱。分箱方法使用箱均值或箱中位数替换箱中的每一个

值来将数据离散化。实际应用中,分箱方法效果不佳,特别是当数值数据分布不

均匀的时候。有监督的离散化方法在离散化过程当中需要使用类别信息。以前的

研究表明,有监督的方法比无监督的方法效果要好。

离散化方法也常以动态或静态的分类方法来区分。动态的离散化方法就是在

建立分类模型的同时对连续特征进行离散化,如分类算法C4.5。静态的离散化

方法就是在进行分类之前完成离散化处理。

根据离散化过程是否是针对整个训练数据空间的,离散化方法又可分为全局

的和局部的。全局的离散化方法使用所有的实例,而局部的离散化方法只是用一

部分的实例。

离散化方法还可分为从上至下的和从下至上的,也可称为分裂式的和合并式

的。分裂的离散化方法起始的分裂点列表是空的,通过离散化过程逐渐往列表中

加入分裂点,而合并的离散化方法则是将所有的连续值都看作可能的分裂点,再

逐渐合并相邻区域的值形成区间。

单变量的离散化方法是指一次只对数据集的一个特征进行离散化,而多变量

的离散化是同时考虑数据集的多个特征及其相互关联关系进行离散化,需要考虑

更多的因素,算法更加复杂。

另外一种离散化方法的分类是直接式的和增量式的。直接式的离散化方法就

是根据额外给定的参数(离散化所需得到的区间数等)一次性形成所有的分裂点,

而增量式的离散化方法是根据某个准则逐渐的将离散化结果进行改进,直到满足

准则的停止条件为止。

2.3离散化结果的评价

不同的离散化方法会产生不同的离散化结果。优良的离散化,应使划分尽可

能简约,又尽可能多的保留由样本数据代表的对象的固有特性。

离散化结果的好坏可以从以下几方面来考虑:(1)区间的个数。这也是对模型

简洁性的要求。理论上来说,离散得到的区间数越少越好,便于理解,但区间数

的减少另一方面也会导致数据的可理解性变差; (2) 离散化所导致的不一致性。

离散化之后数据的不一致性不能比离散化之前更高。这一点是对模型一致性的要

求。(3)预测准确性。即对模型准确性的要求。这一点通常通过交叉检验模式

建立分类树来衡量。

3.常用的离散化方法

3.1 基于熵的离散化方法

3.1.1基于熵的一般化方法

熵(Entropy)是最常用的离散化度量之一。基于熵的离散化是一种监督的、自

顶向下的分裂技术。它在计算和确定分裂点时利用分布信息。例如,为了离散化

属性A,该方法选择A的具有最小熵的值作为分裂点,并递归地划分结果区间,

得到分层离散化。这种离散化形成A的概念分层。

设D由属性集和类标号属性定义的数据元组组成。类标号属性提供每个元组

的类信息。该集合中属性A的基于熵的离散化基本方法如下:A的每个值都可

以看作一个划分A的值域的潜在的区间边界或分裂点(记作split_point)。也就

是说,A的分裂点可以将D中的元组划分成分别满足条件A≦split_point和A≥

split_point的两个子集,这样就创建了一个二元离散化。选择分裂点对数据集进

行划分的目的是为了将数据更清晰地分类。理想的状态下,我们希望每一个分类

中的元组所属类别尽可能地少,即分类后各类中的元组的类别尽可能地一致,也

就是说在属性A上按照split_point划分D后为了得到完全的分类所需要的信息

越少。为了度量某一划分之后得到完全的分类还需要信息,引入期望信息需求的

概念,期望信息需求由下式给出:

|

本文标签: 离散 方法 数据 属性 区间

更多相关文章

笔记本无线网连接故障?快速修复指南助你一臂之力!

1月前

笔记本无线网络连接不上的解决方法 第一步:应检查无线网卡的驱动是否安装正确。右键点击“我的电脑”-属性-硬件-设备管理器,查看是否存在标有问号或叹号的网络设备,如果有,则说明无线网卡驱动安装不正确。使用金山卫士的“硬件检测”功

笔记本连无线网怎么都失败?实用攻略来帮你!

1月前

笔记本无线网络连接不上的解决方法 第一步:应检查无线网卡的驱动是否安装正确。右键点击“我的电脑”-属性-硬件-设备管理器,查看是否存在标有问号或叹号的网络设备,如果有,则说明无线网卡驱动安装不正确。使用金山卫士的“硬件检测”功

IEXPLORE主页被更改,Adobe Flash Player导致?这样做恢复它!

1月前

假如你的首页被修改后是1.打开internet属性,把首页改回。2.右键点击快速启动栏上的IE图标,选择 属性,将"C:Program FilesInternet Exploreriexplore.e

掌握Mac清理技巧,让Adobe Flash Player运行更流畅!

1月前

在日常使用苹果电脑(Mac)时,系统和应用会产生各种缓存文件来加速操作,但久而久之,这些文件会占用宝贵的存储空间,甚至引发系统卡顿或异常。如何高效地清理Mac的缓存和垃圾文件,让电脑重新回归流畅?本文将为你详细介绍几种实用方法。

在Adobe Flash Player内,500错误是通往Flash中心的障碍

1月前

网页无法显示 您要访问的网页存在问题,因此无法显示。 ---------------------------------------------请尝试下列操作: 打开

机械硬盘损坏,数据还能起死回生吗?揭秘数据恢复秘籍

1月前

电脑硬盘坏了数据可以恢复吗?对于这种问题,还需要具体问题具体分析的,一般是可以恢复。 硬盘损坏可以分为物理损坏和逻辑损坏两种情况: 1.逻辑损坏 这通常是由于软件问题,如文件系统错误、病毒攻击、误删除、格式化等

SWF硬盘测评汇总:帮你选到最合适的硬盘

1月前

硬盘天梯排行榜数据集成指南 引言 硬盘天梯排行榜数据为开发者和企业提供了硬盘性能的权威参考,涵盖SSD、HDD等各类存储设备的读写速度、耐用性、性价比等关键指标。通过API集成这些数据,用户可以快速获取最新的硬盘排名信

从头到尾,全面深度清理电脑上的SWF文件和Adobe Flash Player痕迹

1月前

1、手动清理 (1)打开资源管理器,右键-属性,点击“磁盘清理”,然后选中要清理的文件,点击确定即可; (2)对于一些软件的卸载残留,可以打开注册表,找到各目录下的software子目录,从里面找那些你已经卸载过的软件

文件vcruntime140.dll找不到该怎么办?分析解决vcruntime140.dll

1月前

最近许多用户都说他们的电脑出现了一个提示,显示vcruntime140.dll文件缺失。你可能想知道这个突然出现的问题是怎么回事。实际上,这种情况通常意味着你的电脑中的vcruntime140.dll文件已经丢失了。这个DLL文件对于

移动硬盘无法访问,移动硬盘突然读不出来?把这5个方法收藏起来!_移动硬盘灯亮但不读取无法识别

1月前

“我的移动硬盘插入电脑却没有显示在文件资源管理器里,这是怎么回事?有什么方法能够重新打开回我的移动硬盘,再不济把我里面的数据找回来也行!非常感谢!” 你也有过相似的困扰吗?移动硬盘方便携带,数据存储量大,受到电脑办公人士的青睐

深度学习驱动的穿越火线:基于YOLO的目标检测_游戏 目标检测

1月前

一、引言 穿越火线是一款热门的多人在线射击游戏,玩家需要在游戏中快速识别和击败敌方角色。而目标检测技术可以帮助我们在游戏中实现自动化的目标识别和定位,提高玩家的游戏体验和竞争力。而YOLO算法是一种高效的目标检测算法,可以实现

无法识别USB设备解决办法_usb无法识别设备怎么办

1月前

无法识别USB设备 有时候当我们将USB移动硬盘或者U盘插到电脑上时,会遇到“无法识别USB设备”问题,反复重试也无济于事,但是同一个USB设备在其他电脑中是可以正常显示的。 方法1:卸载驱动,然后重新连接外置硬盘

五种百度云盘速度慢解决方法_百度云

1月前

我们chrome插件网在之前有介绍过一篇文章:!里面有介绍过一些百度云盘下载工具和解决百度云盘下载限速的问题。时间久了有些方法并不好用啦,今天我们重新整理了五种百度云盘下载速度慢解决方法。希望可以帮助到大家。 原文

基于Matlab的MDF文件导入与处理研究_matlabmdf格式数据处理

1月前

摘要 本文围绕MDF文件格式展开全面研究,系统阐述了MDF文件的基本结构与数据块概念,深入探讨了在Matlab环境下导入和处理这些文件的理论与实践方法。首先,介绍了MDF文件在现代工业和汽车电子领域的应用背景及重要意义。接着,

桌面图标下有阴影怎样去掉???

1月前

我在安装东西时突然出现了图标阴影,我在 爱好者博墅我的电脑-属性-高级-性能-设置-视觉效果 中的 爱好者博墅'i T9G l p+g自定义 中 把在桌面上为图标标签使用阴影 的复选框去掉后还有阴影

两台电脑用一根网线连接组成局域网共享传输文件_网站连接两台电脑传文件

1月前

两台电脑传输文件有很多方法,小的qq就解决了,稍微大点的可以通过安装的快传软件来达到目的,当然用u盘也是可以的。这都还好,那如果传输文件数量多或者大文件(超过百G的)的时候该怎么办呢,硬盘是一种,但因为是传输的中间介质,所以比较麻烦,

有关webscraper的问题,看这个就够了_web scraper

1月前

视频教程: 可能有朋友不知道webscraper,我再介绍一下: webscraper 一一款谷歌插件,可以方便的抓取网页上的内容:文字、链接、图片、表格等,而无需写一行代码。 webscrap

英雄联盟战斗力与隐藏分查询系统源码实战项目

1月前

简介:本项目是一个针对《英雄联盟》(LOL)的游戏数据分析工具,涵盖战斗力评估、隐藏分查询、皮肤信息展示及自动化数据获取功能。通过API接口或网络爬虫技术,系统可获取玩家表现数据并进行深度分析,帮助玩家了解自身真实水平与匹配机制。源码

如何利用192.168.1.1优化你的家庭网络体验

1月前

虽然前面小编也发布过关于的相关信息,但是都是解释相关的问题的,没有好好介绍关于的信息,今天小编星期八就给大家介绍一下的详细信息! 是什么? 192.168.0.1属于IP地址的

192.168.1.1的秘密通道:探索家庭网络的入口

1月前

虽然前面小编也发布过关于的相关信息,但是都是解释相关的问题的,没有好好介绍关于的信息,今天小编星期八就给大家介绍一下的详细信息! 是什么? 192.168.0.1属于IP地址的

发表评论

全部评论 0
暂无评论