none
Depuracion Tabla RRS feed

  • Pregunta

  • Buenas tardes!

    Mi problema es el siguiente:

    Tengo una tabla con un campo llamado titulo_universitario que surgio en base a una encuesta realizada. Tiene aproximadamente un millon de registros.

    El problema es que, como la encuesta se hizo 'a mano' y no con un menu desplegable o con opciones estandarizadas, cada uno puso el titulo como quiso. Por ejemplo: Doctor en ciencias economicas, Doc. En Cs. Eco, Doctorado en Ciencias, y asi con muchas formas para llamar a un mismo titulo.

    Tengo un archivo con los titulos que deberian corresponder a todos los registros, exporte el archivo a sql y lo hice tabla. 

    Realice un left join con la tabla de la encuesta y claro, la mayoria no condice con ninguno de los titulos estandarizados.

    Utilice DQS para realizar la limpieza pero la gran mayoria tiene un bajo porcentaje de coincidencia debdo a que los titulos en muchos casos son largos y no coinciden en casi nada, con lo cual la mayoria de los valores los envia a 'Sugeridos' o 'Nuevos' y tengo que cambiarlos practicamente a mano.

    Quisiera saber si alguno ya se encontro con un problema similar y me podria ayudar con una mejor solucion un poco mas automatica ya que son aprox. un millon de registros para depurar.

    Desde ya, muchisimas gracias!

    Maria


    miércoles, 26 de julio de 2017 7:38

Respuestas

  • Hola.

    Bueno, yo tuve una experiencia similar y en ese entonces, con SQL Server 2012, usé SQL Server Integration Services con el componente "Fuzzy Lookup" y con varias barridas en campos con la situación similar, logre después pasarle eso a DQS y lograr homogenizar la ciudad, que en ese entonces era mi problemática, para adecuarla de conformidad como se había definido una dimensión en un Data Warehouse.

    Al final, se ajustaron algunas aplicaciones para, como bien especificas, mediante una lista desplegable se tuviese la opción "Bogotá" en lugar de "BOG", "Bta", "Bogota", "Bgta" y demás variantes.

    Saludos,


    Guillermo Taylor F.
    MVP Data Platform & IT Pro
    Mi Blog

    • Propuesto como respuesta Pedro Ávila miércoles, 26 de julio de 2017 12:01
    • Marcado como respuesta Moderador M lunes, 31 de julio de 2017 4:09
    miércoles, 26 de julio de 2017 11:52