数值数据离散化-Linux大棚

admin 管理员组

文章数量: 1184232

2024年4月16日发(作者：简短洋气的英文名女)

数据离散化方法综述

摘要:

数据离散化是一个训练集预处理的方法，用于将连续的数值属性转化为离

散的数值属性。离散数值属性在数据挖掘的过程中具有重要的作用。本文首先介

绍了离散化方法的分类，同时还按照分类介绍几种具有代表性的离散化方法。然

后比较各种离散化方法在特定应用环境下的优势和不足，提出需根据具体应用特

征选取离散化方法。

关键字：

连续属性；离散属性；数据离散化

1.概述

数据的特征按照其取值可以分为连续型和离散型。连续型数据也叫定量特征，

通常用间隔的尺度和比例尺度来衡量，其值取自于某个连续的区间，通常具有较

多或者无穷多个可能的取值，例如气温、身高、价格等等。离散型数据也叫定性

特征，一般以名义尺度或者有序尺度定义，其值取自于某个有限的集合当中，如

人的性别只能在{男、女}中取值。此类特征的值域只限定于较少的取值。数据离

散化作为训练集的预处理过程，其输出直接被用作随后进行的数据挖掘算法，如

分类和预测算法的输入。这些算法大多数是针对离散型数据的，对于连续型数据

不适用；有些算法即使能够处理连续型数据，效果也不如处理离散型数据好。在

数据库系统中连续型受占多数，要更好地分析处理这些数据就有必要对这些数据

进行离散化。

离散化的方法有很多，本文第2节介绍离散化方法的分类以及离散化的一般

过程第3节按类别具体介绍几种代表性的离散化方法。第4节提出要根据具体应

用环境选择合适的离散化方法。

2.离散化过程及分类

2.1数值离散化的一般过程

对连续特征进行离散化处理，一般经过以下步骤：（1）对此特征进行排序。

特别是对于大数据集，排序算法的选择要有助于节省时间，提高效率，减少离散

化的整个过程的时间开支及复杂度。（2）选择某个点作为候选点，用所选取的具

体的离散化方法的尺度来衡量候选选点是否满足要求。（3）若候选点满足离散化

的衡量尺度，则对数据集进行分裂或合并，再选择下一个候选点，重复步骤（2）

（3）。（4）当离散算法存在停止准则时，如果满足停止准则，则不再进行离散化

过程，从而得到最终的离散结果。

其中“候选点”指的是一个数值属性取值范围内的值，这个值将属性的取值

范围分为两个部分，其中一个范围中的值小于等于“候选点”的值，另一个范围

中的值大于“分割点”的值。例如，一个连续的区间[a,b]被分割成[a,c]和(c,b],

其中c是分割点。不同的算法根据不同的标准来衡量候选点的优劣，其中一种衡

量候选点优劣程度的标准是根据一个分割或合并与类别标号的关联，如基于熵的

衡量标准和基于统计的衡量标准。“停止准则”指出何时停止离散化过程，它实

质上是一个精确性与易理解性的折中。离散化程度越高，数据的精确性越差，丢

失信息量越大，但是使得离散分类跟容易归纳和理解。离散化程度越低，数据保

有的信息量越大，但是不容归纳出数据与分类的关系和对数据的理解。此外，停

止准则还需要考虑数据不一致性的问题，即两个数据对象所有属性的值都相同，

但是所属类别不同。离散化过程导致的数据不一致性不应该比离散化之前原有数

据的不一致性高。

2.2离散化方法的分类及特点

离散化方法依据不同的需求沿着不同的主线发展至今，目前已存在很多不同

离散化方法的分类体系。不同的分类体系强调离散化方法间的区别的不同方面。

主要的分类体系有有监督的和无监督的、动态的和静态的、全局的和局部的、分

裂式的（从上至下）和合并式的（从下至上）、单变量的和多变量的以及直接的

和增量式的。

根据离散化方法是否在离散化过程当中使用数据集的类别标注信息，离散化

方法可以分为有监督的离散化方法和无监督的离散化方法。其中无监督的离散化

方法在离散化过程当中无需使用类别信息，这类方法的典型代表是分箱方法，包

括等宽度分箱和等频率分箱。分箱方法使用箱均值或箱中位数替换箱中的每一个

值来将数据离散化。实际应用中，分箱方法效果不佳，特别是当数值数据分布不

均匀的时候。有监督的离散化方法在离散化过程当中需要使用类别信息。以前的

研究表明，有监督的方法比无监督的方法效果要好。

离散化方法也常以动态或静态的分类方法来区分。动态的离散化方法就是在

建立分类模型的同时对连续特征进行离散化，如分类算法C4.5。静态的离散化

方法就是在进行分类之前完成离散化处理。

根据离散化过程是否是针对整个训练数据空间的，离散化方法又可分为全局

的和局部的。全局的离散化方法使用所有的实例，而局部的离散化方法只是用一

部分的实例。

离散化方法还可分为从上至下的和从下至上的，也可称为分裂式的和合并式

的。分裂的离散化方法起始的分裂点列表是空的，通过离散化过程逐渐往列表中

加入分裂点，而合并的离散化方法则是将所有的连续值都看作可能的分裂点，再

逐渐合并相邻区域的值形成区间。

单变量的离散化方法是指一次只对数据集的一个特征进行离散化，而多变量

的离散化是同时考虑数据集的多个特征及其相互关联关系进行离散化，需要考虑

更多的因素，算法更加复杂。

另外一种离散化方法的分类是直接式的和增量式的。直接式的离散化方法就

是根据额外给定的参数（离散化所需得到的区间数等）一次性形成所有的分裂点，

而增量式的离散化方法是根据某个准则逐渐的将离散化结果进行改进，直到满足

准则的停止条件为止。

2.3离散化结果的评价

不同的离散化方法会产生不同的离散化结果。优良的离散化，应使划分尽可

能简约，又尽可能多的保留由样本数据代表的对象的固有特性。

离散化结果的好坏可以从以下几方面来考虑：(1)区间的个数。这也是对模型

简洁性的要求。理论上来说，离散得到的区间数越少越好，便于理解，但区间数

的减少另一方面也会导致数据的可理解性变差; (2) 离散化所导致的不一致性。

离散化之后数据的不一致性不能比离散化之前更高。这一点是对模型一致性的要

求。（3）预测准确性。即对模型准确性的要求。这一点通常通过交叉检验模式

建立分类树来衡量。

3.常用的离散化方法

3.1 基于熵的离散化方法

3.1.1基于熵的一般化方法

熵(Entropy)是最常用的离散化度量之一。基于熵的离散化是一种监督的、自

顶向下的分裂技术。它在计算和确定分裂点时利用分布信息。例如，为了离散化

属性A，该方法选择A的具有最小熵的值作为分裂点，并递归地划分结果区间，

得到分层离散化。这种离散化形成A的概念分层。

设D由属性集和类标号属性定义的数据元组组成。类标号属性提供每个元组

的类信息。该集合中属性A的基于熵的离散化基本方法如下：A的每个值都可

以看作一个划分A的值域的潜在的区间边界或分裂点（记作split_point）。也就

是说，A的分裂点可以将D中的元组划分成分别满足条件A≦split_point和A≥

split_point的两个子集，这样就创建了一个二元离散化。选择分裂点对数据集进

行划分的目的是为了将数据更清晰地分类。理想的状态下，我们希望每一个分类

中的元组所属类别尽可能地少，即分类后各类中的元组的类别尽可能地一致，也

就是说在属性A上按照split_point划分D后为了得到完全的分类所需要的信息

越少。为了度量某一划分之后得到完全的分类还需要信息，引入期望信息需求的

概念，期望信息需求由下式给出:

本文标签：离散方法数据属性区间

版权声明：本文标题：数值数据离散化内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://roclinux.cn/b/1713238929a625417.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

发表评论

全部评论 0

暂无评论

Linux大棚 – 不忘初心的技术博客，浮躁时代的安静角落

数值数据离散化

更多相关文章

Java编程：一步到位生成加密压缩Flash文件的方法

优化网络环境：掌握Adobe Flash Player的带宽限制方法

SayRecy数据恢复，轻松解救你的电脑数据危机！

IE主页被SWF破坏？恢复教程，快来看看！

从基础到进阶：VLOOKUP在Excel中的运用与优化策略

厂区热门聚焦：即时解读SWF、Flash中心、Adobe Flash Player的热点事件

Windows 11安装全攻略：从下载到激活一步到位

Mac轻松卸载，告别那些让你头疼的应用

掌握SWF文件，驾驭Adobe Flash Player的无限可能

掌握IMX6U启动过程：内部Boot ROM、IVT、Boot data、DCD与led.bin文件详解

深入I.MX6U：Linux启动方式的实战指南

启动之路：深入ARM I.MX6ULL的内部机制 - 内部BOOT ROM、IVT、Boot Data、DCD与led.bin揭秘

内存优化攻略：轻松释放电脑性能，提升工作效率

ES6符号类型详解

Win7怎么设置工作组？Win7电脑设置工作组的方法_win10工作组设置

无法识别USB设备解决办法_usb无法识别设备怎么办

基于Matlab的MDF文件导入与处理研究_matlabmdf格式数据处理

镜像文件详解

英雄联盟战斗力与隐藏分查询系统源码实战项目

如何利用192.168.1.1优化你的家庭网络体验

发表评论

推荐文章

拨号网络与远程访问服务API详解

破解压缩包密码的正确思路&原理_zipassover

硬盘坏了可以修复吗_硬盘修复

Windows10解决耳机被识别为扬声器问题_耳机被识别成扬声器

电脑自动关机？别担心，这里有四个实用步骤帮你搞定！

热门文章

从入门到精通：Android 10.0 WiFi静态IP和DNS配置攻略

从Flash到路由器：SWF漏洞如何成为网络安全的盲区

兼容老与新的挑战：使用Setup Factory 7.0，你能否在.Net Framework 2.0与7.0之间找到平衡点？

小心！病毒藏匿在Win11激活工具中的秘密

Docker网络冲突破解术：轻松绕过地址雷区，确保你的容器网络环境一帆风顺！

告别Kbasesrv服务，优化电脑运行效率

AKStream项目启动提示端口号被占用：有效步骤解决「Address already in use」

IDEA配置自定义注释模板教程

Vista破解方法深度总结_一个命令激活vista

迅雷任务出错怎么办，如何解决迅雷任务出错_讯雷极速版任务出错

最新文章

一文教会你AIX系统备份：mksysb实用指南

SWF文件备份失败？这些步骤让你轻松搞定

Win10系统备份轻松搞定：掌握captureimage命令的关键技巧

Linux系统安全小贴士：掌握备份与恢复，安心每一天

省时省心！三步完成电脑系统高效备份！

Ubuntu系统维护秘籍：备份步骤详解，保护你的劳动成果！

Linux系统不哭：高效备份与快速恢复方案

Ubuntu系统安全大计，备份技巧大公开

GHOST教程：系统备份和还原，小白也能变成高手！

Linux备份与恢复必修课：SWF文件安全策略从入门到精通

Exploring the Finest Accommodations: A Comprehensive Guide to Ruston LA Hotels

The Enchanting Experience of ScaliniTella NYC: A Culinary Gem in the Heart of Manhattan

Exploring the Exquisite Aloft Chicago O'Hare: A Blend of Modern Luxury and Convenience

A Culinary Journey: Discovering the Finest Dining Experiences in Waco, TX

A Culinary Journey: Discovering the Finest Dining Experiences in Athens, GA

电脑设备管理器在哪里？一次让我抓狂又兴奋的寻找经历

与GWX的持久战：一段关于Windows10升级弹窗的私人记忆

以管理员身份运行：那些年我们追过的权限与踩过的坑