none
缺失数据的添补与异常点数据的清除咋处理呀 RRS feed

  • 问题

  • 对于工厂里的控制数据常常出现数据丢失或是异常数据如下为一个设备的用电量:
    日期                        电表读数 
    2009- 1-1                112

    2009 -1-2                122

    2009-1-3                  133

    2009-1-4                  143

    2009-1-6                  165

    2009-1-7                  176

    2009-1-8                    112345

    2009-1-9                    1953455

    2009-1-10                  205

    2009-1-11                  216

    对于如上的数据显然 2009-1-5 的数据丢失了要填补,而2009-1-8的数据是异常点必须清除,我查了一下相关
    资料:
    众数归因法、回归归因法、多重归因法等可以对连续性变量用样本进行填补,异常点检测的统计量有库克距离统计量(cookd)、删除学生化残差SRE(i)等。一般来说, 当cookd>50%或|SRE(i)|〉3则可以认为第i个观测值为异常点
    可是在SQLSERVER 2005 中又如何处理呢,ETL可以处理吗,数据挖掘中是否有这些功能,又如何实现这种数据清洗呢?
    望赐教,不胜感激!

    2009年9月23日 5:36

答案

  • 在SQL Server中你可以设计定时执行的job来检查你的数据。至于算法,你需要自己做函数或者存储过程来返回结果!

    2009年9月23日 7:04
  • 楼主的这个属于业务问题, 不能让 sql 来帮你处理业务问题啊
    比如你说的遗漏, 你的业务决定才能如何如何补, 而对于异常, 你也要有个规则判断怎么的考虑算异常, 这些都是你的业务规则, 这个不清楚, 如何写处理啊?
    2009年9月26日 4:40

全部回复

  • 在SQL Server中你可以设计定时执行的job来检查你的数据。至于算法,你需要自己做函数或者存储过程来返回结果!

    2009年9月23日 7:04
  • 多谢回复!
    不过象这种数据的清理能给点具体的方法(CODE)吗,又可否用SQLSERVER2005中的现成的呢.

    2009年9月25日 9:10
  • 楼主的这个属于业务问题, 不能让 sql 来帮你处理业务问题啊
    比如你说的遗漏, 你的业务决定才能如何如何补, 而对于异常, 你也要有个规则判断怎么的考虑算异常, 这些都是你的业务规则, 这个不清楚, 如何写处理啊?
    2009年9月26日 4:40