As 6 Dimensões da Qualidade de Dados (Data Quality)
Qualidade de Dados (Data Quality, em inglês) é uma avaliação da precisão, completude, consistência, confiabilidade e atualidade dos dados. Em outras palavras, refere-se ao grau de excelência dos dados e à adequação do uso dos dados para atender aos requisitos específicos de uma empresa ou organização.
A qualidade dos dados é essencial para a tomada de decisões baseada em dados, análises, Machine Learning e outras aplicações que dependem de dados precisos e confiáveis. A baixa qualidade dos dados pode levar a conclusões e decisões equivocadas, o que pode ter impactos negativos significativos para uma empresa ou organização. Por isso, as empresas devem adotar políticas e procedimentos rigorosos para garantir a qualidade dos dados.
Aqui estão algumas das definições da literatura sobre o assunto.
De Mahanti (2019) — Qualidade de Dados: Dimensões, Medição, Estratégia, Gestão e Governança:
“A qualidade dos dados é a capacidade dos dados de satisfazer os requisitos técnicos, de sistema e de negócios declarados de uma empresa. A qualidade dos dados é uma visão ou uma avaliação da adequação dos dados para servir a seu propósito em um determinado contexto”.
De Scannapieco & Catarci (2022)
“O termo “qualidade de dados” é usado com referência a um conjunto de características que os dados devem possuir, como precisão, ou seja, um grau de correção, ou atualidade, ou seja, um grau de atualização.”
E de Haug, Zachariassen e Liempd (2013)
“A qualidade dos dados é frequentemente definida como ‘adequação ao uso’, ou seja, uma avaliação de até que ponto alguns dados atendem aos propósitos do usuário”.
A qualidade dos dados também foi definida por vários órgãos governamentais e organizações cujo único foco é a qualidade.
Por exemplo, na ISO 9000:2015 (2015), a qualidade é definida como o “grau em que um conjunto de características inerentes de um objeto atende aos requisitos”, onde inerente refere-se a uma propriedade que existe dentro de um objeto em vez de ser atribuída.
A Norma Norueguesa, NS 5801 define a qualidade dos dados como “conformidade com os requisitos especificados”.
Deve-se notar que essas definições se referem à avaliação da qualidade dos dados como uma propriedade relativa dos dados, em vez de absoluta.
As 6 Dimensões da Qualidade de Dados
As dimensões da qualidade dos dados oferecem uma estrutura para entender os atributos-chave que definem e medem a qualidade dos dados. Embora o número de dimensões possa variar dependendo da fonte, uma estrutura comumente adotada inclui seis dimensões principais:
1- Completude: Isso se refere a se todos os dados necessários estão disponíveis. Se houver campos obrigatórios ausentes em um conjunto de dados, ele não será considerado completo.
2- Consistência: Os dados precisam ser consistentes, o que significa que não devem existir discrepâncias quando comparados entre diferentes conjuntos de dados ou diferentes partes do mesmo conjunto de dados.
3- Conformidade: Isso se refere ao grau em que os dados aderem a padrões especificados, convenções e regras de negócios. Por exemplo, um número de telefone deve estar em um formato válido.
4- Integridade: Isso se refere à validade e consistência de relacionamentos entre entidades e registros de dados, como referências cruzadas entre tabelas em um banco de dados relacional.
5- Precisão: Isso se refere ao grau em que os dados representam a realidade ou a verdade. A precisão pode ser difícil de medir, pois requer um ponto de referência verdadeiro.
6- Atualidade: Isso se refere à relevância dos dados no tempo. Isso pode variar dependendo do contexto; por exemplo, dados de vendas de um dia atrás podem ser considerados atuais para algumas empresas, enquanto para outras empresas esses dados podem ser considerados desatualizados.
Essas dimensões são úteis para entender a qualidade dos dados, mas é importante lembrar que a importância relativa de cada dimensão pode variar dependendo do uso específico dos dados.
Impacto do Uso de Dados com Baixa Qualidade
Utilizar dados de baixa qualidade pode ter diversos impactos negativos nas operações, na tomada de decisões e na estratégia de uma organização. Aqui estão alguns dos possíveis impactos:
As decisões baseadas em dados de baixa qualidade podem ser equivocadas, o que pode levar a erros estratégicos, perda de oportunidades ou tomada de decisões que prejudicam a organização.
Se os dados não forem precisos ou completos, os funcionários podem ter que gastar tempo extra para corrigir erros, preencher lacunas ou verificar a precisão dos dados, o que reduz a eficiência e a produtividade.
Dados de baixa qualidade podem levar a custos adicionais, como a necessidade de corrigir erros, reembolsar clientes ou enfrentar ações regulatórias ou legais. Em algumas estimativas, a má qualidade dos dados custa às empresas bilhões de dólares anualmente.
Se os dados de baixa qualidade levarem a erros visíveis ao público, como erros de faturamento ou informações incorretas fornecidas aos clientes, isso pode prejudicar a reputação de uma empresa.
Em muitas indústrias, as empresas devem cumprir padrões de dados específicos. Dados de baixa qualidade podem levar a não conformidade com esses regulamentos, resultando em multas ou outras penalidades.
Modelos de Inteligência Artificial e Machine Learning dependem de dados de alta qualidade para serem eficazes. Dados de baixa qualidade podem resultar em modelos imprecisos ou ineficazes.
Informações de produto erradas, erros de faturamento ou mau atendimento ao cliente resultante de dados de baixa qualidade podem levar à insatisfação e perda de clientes.
Por todas essas razões, é fundamental que as organizações invistam em práticas sólidas de gestão da qualidade dos dados.
Como Implementar Uma Solução de Data Quality?
Implementar uma solução de qualidade de dados requer uma estratégia bem planejada, que pode incluir várias etapas. Aqui estão algumas das ações que você pode considerar:
Entenda os dados: Antes de implementar uma solução de qualidade de dados, você precisa entender que tipos de dados sua organização está lidando, quais são os mais importantes para suas operações e quais são os riscos associados a dados de baixa qualidade.
Defina métricas de qualidade de dados: Estabeleça quais aspectos da qualidade de dados são mais importantes para sua organização (por exemplo, precisão, completude, consistência, etc.) e desenvolva métricas que você possa usar para medir a qualidade dos dados nesses aspectos.
Estabeleça uma cultura de qualidade de dados: A qualidade de dados deve ser uma prioridade em toda a organização e todos os membros da equipe devem entender sua importância. Isso pode envolver treinamento, comunicação e liderança para garantir que a qualidade dos dados seja uma responsabilidade compartilhada.
Use ferramentas de gestão de qualidade de dados: Existem várias ferramentas disponíveis que podem ajudar a monitorar e melhorar a qualidade dos dados. Estas podem incluir ferramentas de limpeza de dados, ferramentas de validação de dados e ferramentas de integração de dados.
Implemente processos de governança de dados: Isso pode envolver a criação de regras e procedimentos para gerenciar a qualidade dos dados, incluindo como os dados são coletados, armazenados, acessados e mantidos.
Monitore e melhore continuamente: A qualidade de dados não é um esforço único; deve ser continuamente monitorada e melhorada. Isso pode envolver a revisão regular das métricas de qualidade de dados, o ajuste das políticas de governança de dados conforme necessário e a busca de novas maneiras de melhorar a qualidade dos dados.
Cada organização é única, então o que funciona para uma pode não funcionar para outra. É importante adaptar a estratégia de qualidade de dados às necessidades específicas da empresa.
Equipe DSA
É bom lembrar que a qualidade nem sempre deve ser interpretada como norma para não sobrecarregar a equipe.
Por mais que seja uma norma.