Neste artigo vamos compreender o que é Data Quality e porque isso é importante.

Boa leitura.

O Que é Data Quality?

A qualidade dos dados (Data Quality) é a medida da condição dos dados com base em fatores como precisão, integridade, consistência, confiabilidade e se estão atualizados.

A medição dos níveis de qualidade dos dados pode ajudar as empresas a identificar erros de dados que precisam ser resolvidos e avaliar se os dados em seus sistemas são adequados para atender à finalidade pretendida.

A ênfase na qualidade de dados em sistemas corporativos aumentou à medida que o processamento de dados se tornou mais intrinsecamente vinculado às operações de negócios e as organizações usam cada vez mais a análise de dados para ajudar a impulsionar as decisões de negócios.

O gerenciamento de qualidade de dados é um componente central do processo geral de gerenciamento de dados e os esforços de melhoria da qualidade de dados geralmente estão intimamente ligados a programas de governança de dados que visam garantir que os dados sejam formatados e usados de forma consistente em toda a empresa.

Por Que a Qualidade dos Dados é Importante?

Dados incorretos podem ter consequências comerciais significativas para as empresas.

Dados de baixa qualidade são frequentemente apontados como a fonte de confusão operacional, análises imprecisas e estratégias de negócios mal concebidas.

Exemplos de danos econômicos que problemas de qualidade de dados podem causar incluem despesas adicionais quando os produtos são enviados para endereços de clientes errados, oportunidades de vendas perdidas devido a registros incorretos ou incompletos de clientes e multas por relatórios de conformidade financeira ou regulatória impróprios.

Uma estimativa frequentemente citada pela IBM calculou que o custo anual de problemas de qualidade de dados nos EUA está na ordem de US$ 3,1 trilhões. Estima-se que corrigir erros de dados e lidar com os problemas de negócios causados por dados incorretos custa às empresas, em média, 15% a 25% de sua receita anual.

Além disso, a falta de confiança nos dados por parte de executivos e gerentes de negócios é comumente citada entre os principais impedimentos ao uso da Ciência de Dados e ferramentas de análise para melhorar a tomada de decisões nas organizações.

Mas o Que São Dados com Qualidade?

A precisão dos dados é um atributo chave de dados de alta qualidade. Para evitar problemas de processamento de transações em sistemas transacionais e resultados defeituosos em aplicativos de análise, os dados usados devem estar corretos.

Dados imprecisos precisam ser identificados, documentados e corrigidos para garantir que executivos, Analistas de Dados, Cientistas de Dados e outros usuários finais estejam trabalhando com boas informações.

Outros aspectos, ou dimensões, que são elementos importantes da boa qualidade dos dados incluem a integridade dos dados, com conjuntos de dados contendo todos os elementos de dados que deveriam; consistência de dados, onde não há conflitos entre os mesmos valores de dados em diferentes sistemas ou conjuntos de dados; identificação e remoção de dados duplicados em bancos de dados; atualização dos dados; e conformidade com os formatos de dados padrão criados por uma organização.

Atender a todos esses fatores ajuda a produzir conjuntos de dados confiáveis.

Como Determinar a Qualidade dos Dados?

Como primeiro passo para determinar os níveis de qualidade de dados, as organizações normalmente realizam inventários de ativos de dados nos quais a precisão relativa, singularidade e validade dos dados são medidas em estudos de linha de base. As classificações de linha de base estabelecidas para conjuntos de dados podem ser comparadas com os dados nos sistemas de forma contínua para ajudar a identificar novos problemas de qualidade de dados para que possam ser resolvidos.

Outra etapa comum é criar um conjunto de regras de qualidade de dados com base nos requisitos de negócios para dados transacionais e analíticos. Essas regras especificam os níveis de qualidade necessários em conjuntos de dados e detalham quais elementos de dados diferentes precisam incluir para que possam ser verificados quanto à precisão, consistência e outros atributos de qualidade de dados.

Depois que as regras estão em vigor, uma equipe de gerenciamento de dados normalmente conduz uma avaliação de qualidade de dados para medir a qualidade dos conjuntos de dados e documentar erros de dados e outros problemas – um procedimento que pode ser repetido em intervalos regulares para manter os níveis de qualidade de dados mais altos possíveis. Tarefa normalmente conduzida por um Arquiteto de Dados.

Várias metodologias para essas avaliações foram desenvolvidas. Por exemplo, os gerentes de dados da subsidiária de serviços de saúde Optum do UnitedHealth Group criaram o Data Quality Assessment Framework (DQAF) para formalizar um método para avaliar a qualidade dos dados. O DQAF fornece diretrizes para medir dimensões de qualidade de dados que incluem integridade, pontualidade, validade, consistência e integridade. A Optum divulgou detalhes sobre o framework como um possível modelo para outras organizações.

O Fundo Monetário Internacional (FMI), que supervisiona o sistema monetário global e empresta dinheiro a nações economicamente problemáticas, também especificou uma metodologia de avaliação, também conhecida como Data Quality Assessment Framework. Sua estrutura se concentra na precisão, confiabilidade, consistência e outros atributos de qualidade dos dados estatísticos que os países membros precisam apresentar ao FMI.

Você pode ler mais sobre Data Quality Assessment aqui:

Equipe DSA

Referências:

Formação Cientista de Dados

Formação Arquiteto de Dados

What Is Data Quality?

Data Quality