terça-feira, 11 de agosto de 2009

Qualidade de Dados

Falar de Qualidade de Dados (QD), para mim é prazeroso e não ao mesmo tempo, pois como profissional de BI, boa parte do processo da carga e transformação para o Data Warehouse, depende de como os dados se apresentam nos sistemas transacionais ou fontes.

É muito bom quando me deparo com um banco de dados transacional, onde os dados respeitam as formas normais, estão completos, limpos e íntegros. Isso influencia diretamente no mapeamento das informações para a carga, tanto em qualidade quanto na velocidade do desenvolvimento das rotinas de extração dos dados. Porém, o que temos, principalmente quando os sistemas são legados (sistemas construídos pela área de TI das empresas), não é um mar de flores. Venho me deparando, ao passar do tempo, com bases históricas totalmente deterioradas e sem nenhum padrão.

Pesquisei o que alguns autores falam sobre a Qualidade de Dados e abaixo citarem, resumidamente, o que eles falam sobre este tema.

Richard Wang (2000) defende a idéia de que a qualidade dos dados depende dos processo utilizados durante o projeto e geração desses dados. Ele trata a questão da qualidade sob duas perspectivas: visão interna e visão externa. Onde a visão interna trata do projeto e da operação e a visão externa trata da utilização e o valor da qualidade.

Para Larry English (1999) classifica a qualidade de dados em:
  • Qualidade da definição.
  • Qualidade da arquitetura da informação.
  • Qualidade da apresentação dos dados.
  • Satisfatoriedade dos dados.


Strog (1997), seguindo o conceito de fábrica de informação, apresenta 3 papéis essenciais neste ambiente: produtores, custodiantes e consumidores. Determina as dimensões da QD a partir da visão dos consumidores.

O que dá para concluir sobre este assunto e o que "deveria" existir em um DW, em relação a Qualidade dos seus dados seria:

  • Acurácia - representa a distância entre dois valores v e v1, sendo v considerado o valor correto.
  • Precisão - a representação dos dados é fidedigna à realidade.
  • Integridade - as estruturas dos dados são mantidas de forma consistente, de forma a garantir a veracidade das relações entre elas.
  • Completude - todos os dados necessários estão presentes.
  • Validade - os valores estão dentro dos limites estipulados pelo negócio.
  • Disponibilidade - os dados estão disponíveis quando requisitados.
  • Acesso - os dados são facilmente acessados, compreendidos e usados.

Um comentário:

  1. Quem tiver mais interesse nesta área de Qualidade de Dados sugiro acessar o grupo de Qualidade de Dados existente no link: http://groups.google.com.br/group/qualidade-de-dados
    Bom trabalho !
    Marcelo Valentim

    ResponderExcluir