设为首页收藏本站

JMP数据分析论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 805|回复: 6

分类和聚类的区别 (一)

  [复制链接]
发表于 2017-10-20 10:30:23 | 显示全部楼层 |阅读模式
当我们面对大量数据的时候,总试图将大量的数据进行划分,然后依照划分的数据群组进行分析,而分类(Classification)与聚类(Clustering)就是我们常用的两种数据划分和挖掘技术。

然而在我们的应用中,我们常常没有过多地去区分这两个概念,觉得聚类就是分类,分类也差不多就是聚类,很容易“傻傻分不清楚”。然而这两者之间有着本质的区别,今天,我们来通过入门级的知识普及和小案例应用,一起来探讨下分类与聚类之间在数据挖掘中的区别。

什么是分类和聚类?
所谓分类(Classification),简单来说就是按照某种标准给对象贴标签(label),再根据标签来区分归类;
而聚类(Clustering),则是在是指事先没有“标签”的情况下,通过某种聚集分析,找出事物之间存在聚集性原因的过程。

从机器学习上看,分类作为一种监督学习方法,它的目标在于通过已有数据的确定类别,学习得到一个分类函数或分类模型(也常常称作分类器),该模型能把数据库中的数据项映射到给定类别中的某一个类中。

简单的说,就是我们在进行分类前,得到的数据已经标示了数据所属的类别,分类的目标就是得到一个分类的标准,使得我们能够更好的把不同类别的数据区分出来。

就如下图所示,分类分析的目的就是要找出区分红色数据和绿色数据的标准。分类分析的过程就是算法不断递进,使得标准更为准确的过程。



图:分类分析的过程


与分类技术不同,在机器学习中,聚类是一种无指导学习,也叫无监督学习。即聚类是在预先不知道分类的情况下,根据信息相似度原则进行信息聚类的一种方法。

聚类的目的是将大量的数据通过“属于同类别的对象之间的差别尽可能的小,而不同类别上的对象的差别尽可能的大”的原则进行分类。

因此,聚类的意义就在于将观察到的内容组织成类分层结构,把类似的事物组织在一起。通过聚类分析,人们能够识别密集的和稀疏的区域,因而发现全局的分布模式,以及数据属性之间有趣的关系。


图:聚类分析的过程

好了,掌握了分类分析和聚类分析的概念及用法之后,接下来,我们分别通过两个简单的例子,来给大家就这两种方法进行更加形象的说明。

分类——小案例
首先,我们来看第一个例子。这个例子是我们在分类分析和模式识别中常用的鸢尾花的数据。如下图所示,在这组数据中,记录了收集到的不同物种的鸢尾花萼片长度、宽度和花瓣长度、宽度。

此时,我们就需要通过分类分析,通过对萼片长度这些因子进行划分,找出能够更好区分不同的鸢尾花种类的模式。

图:运用分类分析去识别物种区分模式

我们在进行分类分析之前,事先是知道现有数据明确的类别信息的,我们需要做的只是找出识别这些类别信息的模式规则。如果我们现有的信息没有这些事先设定好的类别信息,而又需要对他们进行分类处理,这时候就需要聚类分析了。

聚类——小案例
下面这个例子,我们收集了一些糖果制造商不同品牌的糖果信息,诸如卡路里,脂肪等,但对于这些不同品牌的糖果,并没有一个明确的分类。这时候我们就需要使用聚类分析的方法,将这些糖果基于上述信息进行分类,使得我们能够得知哪些糖果是属于哪一类,从而帮助我们更好的对不同类型的糖果特征进行探索。


图:使用聚类分析进行糖果类别划分

综上所述,我们可以得知,分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别与之对应。但是很多时候,我们在进行数据分析的时候,事前并不能得到各个类别的信息。那么在这个时候,我们就需要使用聚类分析的方法。通过聚类分析,将数据进行分类,去识别全局的分布模式,更好地去探索不同类别数据属性之间的区别和联系,从而找到数据的区分标识,并以此来进行更好的数据分类分析、数据探索和数据挖掘工作。

好了,今天我们抛砖引玉地为大家介绍了分类分析和聚类分析的入门知识及简单应用。接下来,我们还将推出更深度的学习文章,分别介绍实现两种分析最常用的一些方法,及其应用。更多精彩内容,敬请期待!

关注JMP官方微信公众号,了解最新数据分析技巧及JMP应用案例。



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

发表于 2017-10-20 17:28:22 | 显示全部楼层
请教一下,第二张图,在JMP中的操作步骤?我怎么实现不了
多谢
回复 支持 反对

使用道具 举报

 楼主| 发表于 2017-10-23 16:02:48 | 显示全部楼层
Mujahida 发表于 2017-10-20 17:28
请教一下,第二张图,在JMP中的操作步骤?我怎么实现不了
多谢

请问你指的是聚类分析的过程吗?这个是引用的网络图片。
还是指的是聚类案例的星座图?
回复 支持 反对

使用道具 举报

发表于 2017-10-23 18:19:53 | 显示全部楼层
聚类小案例
回复 支持 反对

使用道具 举报

 楼主| 发表于 2017-10-24 09:25:32 | 显示全部楼层

利用JMP自带的数据库中的“Candy Bar”,步骤:分析——聚类——层次聚类,把名牌名称可以放在Y列,就可以生成图了。这个时候,点击“层次聚类”左边的小红三角,选择“星座图”就可以展示了。
回复 支持 反对

使用道具 举报

发表于 2017-10-27 21:42:49 | 显示全部楼层
希望继续讲解
回复 支持 反对

使用道具 举报

发表于 2017-11-1 16:09:31 | 显示全部楼层
原来JMP还能画出这么好的星座图!
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|JMP数据分析论坛 ( 沪ICP备13022603 )  

GMT+8, 2020-8-15 18:57 , Processed in 0.326910 second(s), 17 queries .

Powered by Discuz! X3

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表