
课程咨询: 400-996-5531 / 投诉建议: 400-111-8989
认真做教育 专心促就业
概念层次树可以通过利用较高层次概念替换低层次概念(如年龄的数值)来减少原有数据集的数据量。虽然一些细节在数据泛化过程中消失了,但这样所获得的泛化数据或许会更易于理解、更有意义。在消减后的数据集上进行数据挖掘显然效率更高。
数值概念层次树
由于数据的范围变化较大,所以构造数值属性的概念层次树是一件较为困难的事情。利用数据分布分析,可以自动构造数值属性的概念层次树。其中,主要的几种构造方法如下。
1. Bin 方法
Bin 方法是一种离散化方法。例如,属性的值可以通过将其分配到各 Bin 中而将其离散化。利用每个 Bin 的均值和中位数替换每个 Bin 中的值(利用均值或中位数进行平滑),并循环应用这些操作处理每次的操作结果,就可以获得一个概念层次树。
2. 直方图方法
直方图方法也可以用于离散化处理。例如,在等宽直方图中,数值被划分为等大小的区间,如(0,100],(100,200],…,(900,1000]。
循环应用直方图方法处理每次的划分结果,当达到用户指定层次水平后结束划分,最终可自动获得多层次概念树。最小间隔大小也可以帮助控制循环过程,包括指定一个划分的最小宽度或指定每一个层次的每一划分中数值的个数等。
3. 聚类分析方法
聚类分析方法可以将数据集划分为若干类或组。每个类构成了概念层次树的一个结点,每个类还可以进一步分解为若干子类,从而构成更低水平的层次。当然类也可以合并起来构成更高水平的层次。
4. 基于熵的方法
利用基于熵的方法构造数值概念层次树可以消减数据集规模。与其他方法不同的是,基于熵的方法利用了类别信息,这就使得边界的划分更加有利于改善分类挖掘结果的准确性。
5. 自然划分分段方法
尽管 Bin 方法、直方图方法、聚类方法和基于熵的方法均可以帮助构造数值概念层次树,但许多时候用户仍然将数值区间划分为归一的、易读懂的间隔,以使这些间隔看起来更加自然直观。
例如,将年收入数值属性取值区域分解为[50000,60000]区间要比利用复杂聚类分析所获得的[51265,60324]区间直观得多。
【免责声明】本文系本网编辑部分转载,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与管理员联系,我们会予以更改或删除相关文章,以保证您的权益!更多内容请添加3216764521学习了解。欢迎关注“达内在线”参与分销,赚更多好礼。