De acordo com o Gartner Group, o processo de "Limpar os Dados", tem que ter as seguintes etapas:
- Elementarização - significa separar os dados em componentes, chamados "elementos".
- Padronização - significa aplicar um formato padrão a esses elementos.
- Verificação - significa examinar os elementos e procurar por erros.
- Identificação - significa detectar elementos idênticos, como por exemplo, endereços ou nomes iguais.
- Householding - identifica grupos de elementos que possuem caracteristicas em comum, como por exemplo pessoas diferentes que residem em um mesmo endereço.
- Documentação - significa capturar os resultados dos passos anteriores para facilitar futuros exercícios de limpeza de dados.
Abaixo vou demonstrar umas fases de um processo básico de Limpeza de Dados.
- Cleansing - Durante esta fase, os dados são divididos em partes menores (parsing) para facilitar a correção, a padronização e a identificação dos dados, pois permite efetuar comparações de componentes individuais de forma mais eficaz do que utilizando o dado inteiro.
O passo seguinte é a padronização (standardization), que tem como objetivo comparar a representação do dado com uma representação padrão pré-estabelecida, reduzindo assim problemas de abreviações inconsistentes, títulos não utilizados, similaridade e variações de pronúncia, entre outros.
O passo final desse estágio de limpeza é o enriquecimento, que significa inserir novos dados e completar informações que falatavam. Esse processo pode ser efeturado por outra empresa, ou utilizando outra fonte de informação adicional, ou atualizando manualmente essas informações.
- Consolidação: depois que os dados duplicados foram identificados na fase de Identificação, é possível gerar uma visão consolidada utilizando critérios pré-definidos. Depois de consolidados, os dados são transferidos para um Data Warehouse, Data Marts ou outro repositório.
Ola Luis queria conversar com vc um pouco mais sobre o assunto pode me procurar .
ResponderExcluir