询问者
再问SSAS数据挖掘(聚类)问题

问题
-
最近在做毕业设计,关于聚类,上次问过一些聚类的问题,版主已帮忙解答,最近也看了很多书,仍有一些疑问,麻烦各位再帮忙看看我以下的分析的步骤以及结果是否正确。
聚类模型是五个指标Fla Site Maturity,信息公开,在线办事,公众参与,网站性能及设计,数据全为连续型。得到以下聚类图形。
分类关系图
以下是分类3和分类4的分类特征图,主要是Fla Site Maturity=0.6-0.7,公众参与=0.5-0.7,信息公开0.6-0.8这几个属性值在两个聚类中都出现,而且概率在50%以上,从分类关系图中也可以看出,这两个聚类很相似。从分类特征图中看不出两者之间的差异,然后通过分类对比图对比两个聚类的差异
聚类3和聚类4的分类对比图,通过对比可以发现 聚类3的在线办事倾向于0.5-0.7,聚类4的在线办事倾向于0.0-0.5;聚类3的Fla Site Maturity倾向于0.6-0.7,聚类4的Fla Site Maturity倾向于0.4-0.6;聚类3的网站性能及设计倾向于0.6-0.7,聚类4的网站性能及设计倾向于0.4-0.6。还有就是各个指标倾向于聚类的分数不同,这个分数是指什么,分数越高是不是代表性越强,越能代表聚类的特点(看到有一些书某一变量的值倾向于一个聚类的分数比较低,但仍把改变量值作为代表该聚类的一个特点)。
- 已编辑 鱼丸粗面 2012年5月7日 11:52 完善
全部回复
-
Hi,
首先, 应该先去了解分类特征 和 分类对比所要表达的含意.
分类特征: 列出该分类所包含的属性及属性状态, 并按照他们的重要性顺序排列, 重要性由这些状态会出现在分类中的概率表示. 例如, 对于分类3 来说, 在线办事 是它的属性 被列在 变量列里,0.5 - 0.7是它 在线办事属性的属性状态, 这个属性状态的重要性由对应的概率值表示。长度越长表示越重要。
分类对比:比较两个分类。查看器将列出2个分类之间差异最大的一些属性及它们的状态。例如,你提供的分类3 和分类4的分类对比显示,在线办事 0.5 - 0.7, 在线办事0.0-0.5, Fla site Maturity 0.4 - 0.6, Fla site maturity 0.6 -0.7, 网站性能及设计 0.4 -0.6 和网站性能及设计 0.6 - 0.7 是这2个分类差异最大的属性状态。 这些属性状态和分类特征 查看器中看到的是一致的。 例如, 你可以看到在线办事 0.5 - 0.7 在分类 3 和 分类 4 中各占的概率是有很大差别的。所以在“分类对比”中这个属性状态就会被列出来。后面的分数只是代表这个状态属性支持各自分类的程度。这里就不能简单地看分类特征中的概率了。 这个分数跟它们各自的数量有关。你可以查看 分类剖面图 来查看各个属性状态的数量。
thanks,
Jerry