Governança de Dados Em Um Mundo Data-Driven - Parte 1

Iniciamos hoje uma série de artigos aqui em nosso Blog chamada Governança de Dados em Um Mundo Data-Driven.

Que os dados estão se tornando um ativo cada vez mais importante nas empresas, isso já não é mais novidade. Mas como lidar com um volume de dados que cresce a cada dia? Como fazer gestão de dados de forma eficiente e segura? Como garantir que os dados seguem os regulamentos, como a LGPD (Lei Geral de Proteção aos Dados)? Como armazenar dados que surgem em alta velocidade e se tornam obsoletos rapidamente? Qual o papel da Arquitetura de Dados à medida que as empresas orientam suas estratégias com base na análise de dados? E como lidar com tudo isso na era da IA? Responderemos essas e outras perguntas.

E neste primeiro artigo abordaremos a Sobrecarga de Informação. Recomendamos o artigo O Que é Arquitetura de Dados antes de iniciar esta série.

Sobrecarga de Informação

À medida em que a transformação digital ganha impulso, as organizações enfrentam uma avalanche crescente de informações, que elas lutam para controlar.

Na maioria das empresas, o escritório não é mais a capital da informação. Os dados que antes residiam apenas localmente, agora são acessados e compartilhados por laptops, tablets e telefones celulares. Com a pandemia do Covid-19, 70% das pessoas trabalham remotamente pelo menos uma vez por semana. A Deloitte prevê que nos próximos 5 a 10 anos, funcionários totalmente móveis representarão a maioria.

As empresas que desejam atrair os melhores talentos e aumentar a produtividade precisam acomodar os funcionários de hoje que esperam trabalhar de qualquer lugar, a qualquer momento, usando serviços baseados em nuvem e ferramentas de compartilhamento. Os dados que eles produzem viajam em alta velocidade para grupos, indivíduos e pessoas fora da empresa, como fornecedores e clientes, que os usam de maneiras diferentes.

Uma proporção crescente dos dados atuais não é estruturada, seja através de canais internos ou de terceiros, e é composta por e-mails, documentos de texto, vídeos, imagens, arquivos de áudio, apresentações na Web, páginas da Web e qualquer outra coisa que seja possível. A definição mais simples de dados não estruturados é que eles não se encaixam perfeitamente em uma planilha no formato de linhas e colunas.

Dados não estruturados são particularmente difíceis de gerenciar, pois transcendem as hierarquias organizacionais tradicionais e abrangem vários sistemas de conteúdo em toda a empresa. Os departamentos costumam categorizá-los de maneiras diferentes, e não existe uma “fonte única de verdade”.

Muitas organizações não têm ideia do que contêm seus dados não estruturados. Com medo de descartá-los, elas simplesmente guardam. Mais de 35% das organizações têm entre 1 e 50 petabytes de dados não estruturados e 18% possuem ainda mais, de acordo com o IDC. As referências estão ao final do artigo.

Os Data Lakes se Tornaram Pântanos de Dados

Os pântanos contêm tesouros ocultos, mas também estão cheios de dados redundantes, obsoletos, triviais, imprecisos ou defeituosos. A qualidade dos dados é um enorme problema que afeta os dados estruturados e não estruturados. Relatórios e apresentações podem estar incorretamente etiquetados ou irremediavelmente desatualizados. Alguém pode ter digitado a letra “o” em vez de zero em uma planilha ou ter cortado parte de um número de CPF ao fazer uma cópia. Fusões e aquisições geralmente geram conjuntos de dados duplicados ou conflitantes.

Dados ruins e desalinhados desperdiçam tempo e dinheiro, confundem os usuários e pode levar a suposições errôneas que produzem decisões comerciais incorretas. Como o Gartner colocou, “a baixa qualidade dos dados é um dos principais contribuintes para uma crise na confiança das informações e no valor comercial, afetando negativamente o desempenho financeiro”.

Um estudo descobriu que apenas nos EUA, dados ruins custam às empresas mais de US $ 3 trilhões por ano.

Um sistema abrangente de Governança de Dados usa ferramentas para limpar todos os dados de uma organização, atribuindo a cada item uma pontuação de qualidade. Esse tipo de sistema sinaliza e reconcilia problemas e organiza dados corrompidos, defeituosos, desatualizados ou redundantes, de acordo com as regras de retenção.

A limpeza de dados é uma tarefa sem glamour, mas essencial, da Governança de Dados. A menos que os dados sejam removidos do pântano e limpos, eles não podem ser marcados e analisados para obter benefícios comerciais. Pior ainda, não podem ser protegidos. E ainda podem levar a multas excessivas se não houver aderência aos regulamentos, que são cada vez mais restritivos à medida que todos percebem quão valiosos são os dados.

Cientistas de Dados já estão bem ocupados realizando suas análises. Engenheiros de Dados já estão bem ocupados cuidando do pipeline de dados e garantindo que todos os dados sejam coletados e armazenados. Engenheiros de Machine Learning e Engenheiros Data Ops estão encarregados de manter o pipeline analítico em movimento e as diferentes integrações para que gerem os resultados esperados.

Quem vai cuidar da Governança dos Dados? Entra em cena o Arquiteto de Dados.

Acompanhe o segundo artigo da série.

Equipe DSA

Referências:

Governing with Data Lineage in Modern Architectures

Best Practices in Enterprise Data Governance

Build a Data Governance Strategy for the New Digital Era

Data Governance Is Risk Number One

Data Management: The Science Of Insight And Scalability For Growing Businesses

Data Governance: Controlling Your Information In A World Of Digital Transformation