terça-feira, 11 de agosto de 2009

Limpeza de Dados

Limpar os dados, em um DW, é parte fundamental nos processos de carga e transformação de tudo aquilo que vem dos sistemas transacionais ou fontes externas.

De acordo com o Gartner Group, o processo de "Limpar os Dados", tem que ter as seguintes etapas:

  • Elementarização - significa separar os dados em componentes, chamados "elementos".
  • Padronização - significa aplicar um formato padrão a esses elementos.
  • Verificação - significa examinar os elementos e procurar por erros.
  • Identificação - significa detectar elementos idênticos, como por exemplo, endereços ou nomes iguais.
  • Householding - identifica grupos de elementos que possuem caracteristicas em comum, como por exemplo pessoas diferentes que residem em um mesmo endereço.
  • Documentação - significa capturar os resultados dos passos anteriores para facilitar futuros exercícios de limpeza de dados.

Abaixo vou demonstrar umas fases de um processo básico de Limpeza de Dados.

- Cleansing - Durante esta fase, os dados são divididos em partes menores (parsing) para facilitar a correção, a padronização e a identificação dos dados, pois permite efetuar comparações de componentes individuais de forma mais eficaz do que utilizando o dado inteiro.

Após a divisão dos dados, a próxima fase do processo de limpeza é a correção (correcting). A correção tem como objetivo ajustar problemas de discrepâncias de abreviações e formatos na entradas dos dados; ausência de letras causad pela similaridade fonética durante a entrada dos dados por telefone; informações desencontradas devido a mudanças de nome e endereço, entre outras ocorrências.

O passo seguinte é a padronização (standardization), que tem como objetivo comparar a representação do dado com uma representação padrão pré-estabelecida, reduzindo assim problemas de abreviações inconsistentes, títulos não utilizados, similaridade e variações de pronúncia, entre outros.



O passo final desse estágio de limpeza é o enriquecimento, que significa inserir novos dados e completar informações que falatavam. Esse processo pode ser efeturado por outra empresa, ou utilizando outra fonte de informação adicional, ou atualizando manualmente essas informações.




- Identificação: processo que permite detectar dados similares dentre os dados da origem, eliminando duplicidades e consolidando as informações.



- Consolidação: depois que os dados duplicados foram identificados na fase de Identificação, é possível gerar uma visão consolidada utilizando critérios pré-definidos. Depois de consolidados, os dados são transferidos para um Data Warehouse, Data Marts ou outro repositório.



Qualidade de Dados

Falar de Qualidade de Dados (QD), para mim é prazeroso e não ao mesmo tempo, pois como profissional de BI, boa parte do processo da carga e transformação para o Data Warehouse, depende de como os dados se apresentam nos sistemas transacionais ou fontes.

É muito bom quando me deparo com um banco de dados transacional, onde os dados respeitam as formas normais, estão completos, limpos e íntegros. Isso influencia diretamente no mapeamento das informações para a carga, tanto em qualidade quanto na velocidade do desenvolvimento das rotinas de extração dos dados. Porém, o que temos, principalmente quando os sistemas são legados (sistemas construídos pela área de TI das empresas), não é um mar de flores. Venho me deparando, ao passar do tempo, com bases históricas totalmente deterioradas e sem nenhum padrão.

Pesquisei o que alguns autores falam sobre a Qualidade de Dados e abaixo citarem, resumidamente, o que eles falam sobre este tema.

Richard Wang (2000) defende a idéia de que a qualidade dos dados depende dos processo utilizados durante o projeto e geração desses dados. Ele trata a questão da qualidade sob duas perspectivas: visão interna e visão externa. Onde a visão interna trata do projeto e da operação e a visão externa trata da utilização e o valor da qualidade.

Para Larry English (1999) classifica a qualidade de dados em:
  • Qualidade da definição.
  • Qualidade da arquitetura da informação.
  • Qualidade da apresentação dos dados.
  • Satisfatoriedade dos dados.


Strog (1997), seguindo o conceito de fábrica de informação, apresenta 3 papéis essenciais neste ambiente: produtores, custodiantes e consumidores. Determina as dimensões da QD a partir da visão dos consumidores.

O que dá para concluir sobre este assunto e o que "deveria" existir em um DW, em relação a Qualidade dos seus dados seria:

  • Acurácia - representa a distância entre dois valores v e v1, sendo v considerado o valor correto.
  • Precisão - a representação dos dados é fidedigna à realidade.
  • Integridade - as estruturas dos dados são mantidas de forma consistente, de forma a garantir a veracidade das relações entre elas.
  • Completude - todos os dados necessários estão presentes.
  • Validade - os valores estão dentro dos limites estipulados pelo negócio.
  • Disponibilidade - os dados estão disponíveis quando requisitados.
  • Acesso - os dados são facilmente acessados, compreendidos e usados.