Luís Eduardo: Limpeza de Dados

Limpar os dados, em um DW, é parte fundamental nos processos de carga e transformação de tudo aquilo que vem dos sistemas transacionais ou fontes externas.

De acordo com o Gartner Group, o processo de "Limpar os Dados", tem que ter as seguintes etapas:

Elementarização - significa separar os dados em componentes, chamados "elementos".
Padronização - significa aplicar um formato padrão a esses elementos.
Verificação - significa examinar os elementos e procurar por erros.
Identificação - significa detectar elementos idênticos, como por exemplo, endereços ou nomes iguais.
Householding - identifica grupos de elementos que possuem caracteristicas em comum, como por exemplo pessoas diferentes que residem em um mesmo endereço.
Documentação - significa capturar os resultados dos passos anteriores para facilitar futuros exercícios de limpeza de dados.

Abaixo vou demonstrar umas fases de um processo básico de Limpeza de Dados.

- Cleansing - Durante esta fase, os dados são divididos em partes menores (parsing) para facilitar a correção, a padronização e a identificação dos dados, pois permite efetuar comparações de componentes individuais de forma mais eficaz do que utilizando o dado inteiro.

Após a divisão dos dados, a próxima fase do processo de limpeza é a correção (correcting). A correção tem como objetivo ajustar problemas de discrepâncias de abreviações e formatos na entradas dos dados; ausência de letras causad pela similaridade fonética durante a entrada dos dados por telefone; informações desencontradas devido a mudanças de nome e endereço, entre outras ocorrências.

O passo seguinte é a padronização (standardization), que tem como objetivo comparar a representação do dado com uma representação padrão pré-estabelecida, reduzindo assim problemas de abreviações inconsistentes, títulos não utilizados, similaridade e variações de pronúncia, entre outros.

O passo final desse estágio de limpeza é o enriquecimento, que significa inserir novos dados e completar informações que falatavam. Esse processo pode ser efeturado por outra empresa, ou utilizando outra fonte de informação adicional, ou atualizando manualmente essas informações.

- Identificação: processo que permite detectar dados similares dentre os dados da origem, eliminando duplicidades e consolidando as informações.

- Consolidação: depois que os dados duplicados foram identificados na fase de Identificação, é possível gerar uma visão consolidada utilizando critérios pré-definidos. Depois de consolidados, os dados são transferidos para um Data Warehouse, Data Marts ou outro repositório.

Luís Eduardo

terça-feira, 11 de agosto de 2009

Limpeza de Dados

Um comentário:

Quem sou eu

Arquivos

últimas sobre tecnologia