none
再问SSAS数据挖掘(聚类)问题 RRS feed

  • 问题

  •     最近在做毕业设计,关于聚类,上次问过一些聚类的问题,版主已帮忙解答,最近也看了很多书,仍有一些疑问,麻烦各位再帮忙看看我以下的分析的步骤以及结果是否正确。

      聚类模型是五个指标Fla Site Maturity,信息公开,在线办事,公众参与,网站性能及设计,数据全为连续型。得到以下聚类图形。

      分类关系图

         以下是分类3和分类4的分类特征图,主要是Fla Site Maturity=0.6-0.7,公众参与=0.5-0.7,信息公开0.6-0.8这几个属性值在两个聚类中都出现,而且概率在50%以上,从分类关系图中也可以看出,这两个聚类很相似。从分类特征图中看不出两者之间的差异,然后通过分类对比图对比两个聚类的差异

          聚类3和聚类4的分类对比图,通过对比可以发现 聚类3的在线办事倾向于0.5-0.7,聚类4的在线办事倾向于0.0-0.5;聚类3的Fla Site Maturity倾向于0.6-0.7,聚类4的Fla Site Maturity倾向于0.4-0.6;聚类3的网站性能及设计倾向于0.6-0.7,聚类4的网站性能及设计倾向于0.4-0.6。还有就是各个指标倾向于聚类的分数不同,这个分数是指什么,分数越高是不是代表性越强,越能代表聚类的特点(看到有一些书某一变量的值倾向于一个聚类的分数比较低,但仍把改变量值作为代表该聚类的一个特点)。


    2012年5月7日 11:31

全部回复

  • Hi,

    首先, 应该先去了解分类特征 和 分类对比所要表达的含意.

    分类特征: 列出该分类所包含的属性及属性状态, 并按照他们的重要性顺序排列, 重要性由这些状态会出现在分类中的概率表示. 例如, 对于分类3 来说, 在线办事 是它的属性 被列在 变量列里,0.5 - 0.7是它 在线办事属性的属性状态, 这个属性状态的重要性由对应的概率值表示。长度越长表示越重要。

    分类对比:比较两个分类。查看器将列出2个分类之间差异最大的一些属性及它们的状态。例如,你提供的分类3 和分类4的分类对比显示,在线办事 0.5 - 0.7, 在线办事0.0-0.5, Fla site Maturity 0.4 - 0.6, Fla site maturity 0.6 -0.7, 网站性能及设计 0.4 -0.6 和网站性能及设计 0.6 - 0.7 是这2个分类差异最大的属性状态。 这些属性状态和分类特征 查看器中看到的是一致的。 例如, 你可以看到在线办事 0.5 - 0.7 在分类 3 和 分类 4 中各占的概率是有很大差别的。所以在“分类对比”中这个属性状态就会被列出来。后面的分数只是代表这个状态属性支持各自分类的程度。这里就不能简单地看分类特征中的概率了。 这个分数跟它们各自的数量有关。你可以查看 分类剖面图 来查看各个属性状态的数量。

    thanks,
    Jerry

    2012年5月10日 23:20
  • Hi,Jerry

    非常感谢您细致的回答,特别是对分类特征和分类对比的回答,对这两个问题的理解清晰了很多,最后还有一点不大明白,您说“这个分数跟它们各自的数量有关。查看 分类剖面图 来查看各个属性状态的数量。”这里的数量是不是各个聚类中的样本数量?

    Thanks

    鱼丸粗面

    附图(k-means算法,均连续型属性)


    2012年5月11日 11:53
  • 我不太清楚你说的"样本"指的是什么. 你如果把鼠标放在各个柱桩图上, 你就可以看到该属性的各个状态的数量. 这个数量可以用来统计出他们的发生的概率和差异的对比度.

    2012年5月14日 2:01
  • 我用的是k-means算法,我说的“样本”是聚类中的每个对象。分类剖面图显示的是每个聚类属性的均值和标准差吧,每个聚类的“分类特征”概率和“分类对比”差异是怎么计算出来的(这点一直搞不明白),比如这个分类3“在线办事”=0.4-0.5为4%,但从钻取来看没有一个对象的“在线办事”是在0.4-0.5之间,为什么还有这个概率呢?

    附图:

    聚类对象


    2012年5月15日 3:57