none
Limpando dados com Fuzzy Grouping - ETL RRS feed

  • Pergunta

  • Bom dia,
      estou enfrentando o seguinte problema durante a ETL. Aconte que os dados relativos a Cidade dos sistemas transacionais são muito sujos (ex.: Natal, Nat al, Nata,      Natal, Parnamiiirinm, Panamirim, Parnamirim, e vários outros). Então pra tentar limpar esses dados utilizei a tarefa Fuzzy Grouping. Usando essa tarefa fiz alguns testes para ver qual seria o melhor valor para escolher para o campo Similarity. Depois de alguns testes optei por 0,84, mas ainda assim a limpeza que é feita é bem longe da ideal. Gostaria de saber se alguem aqui já passou por problema parecido e que estratégia utilizou para ter sucesso nessa "limpeza" de dados.
      Caso necessitem de mais alguns detalhes sobre a estretégia que eu utilizei estou a disposição para detalhar.

    desde já obrigado.


    sábado, 13 de setembro de 2008 13:03