Qualidade dos dados deveria incluir foco em usabilidade

Reconsiderar como a qualidade dos dados é enquadrada em um grande ambiente de dados para incorporar medidas de usabilidade amplia o escopo dos processos.

02/11/2017 às 17:51

As preocupações em relação aos processos de qualidade dos dados tornaram-se mais proeminentes nas organizações, pois, um bom gerenciamento de dados pode mudar o destino de uma empresa, independente do setor em que ela atua. E quanto maior for a quantidade de dados, melhor deverá ser a qualidade de análise. Nesse quadro, um dos principais desafios é articular o que a qualidade realmente significa para uma empresa.

O que é comumente referido como as dimensões da qualidade dos dados incluem precisão, consistência, pontualidade e conformidade. No entanto, há muitas listas diferentes de dimensões, e até mesmo alguns termos comuns têm significados diferentes de lista para lista. Como resultado, confiar exclusivamente em uma lista específica sem ter uma base subjacente para o que você procura realizar pode ser uma abordagem simplista demais.

Este desafio torna-se mais complexo conforme a quantidade e variedade dos dados aumenta. Uma organização, por exemplo, pode acumular dados de inúmeras fontes para análise – por exemplo, dados de transações de diferentes sistemas internos, registros de cliques de e-commerce e fluxos de dados de redes sociais.

Além disso, o design de grandes plataformas de dados exacerba os potenciais problemas. Uma empresa pode criar dados em servidores locais, distribuí-lo para bancos de dados em nuvem e distribuir conjuntos de dados filtrados para sistemas em sites remotos. Este novo mundo cria problemas que não são abordados em listas convencionais de dimensões de qualidade dos dados.

Para compensar, precisamos reexaminar o que se entende por qualidade no contexto de um grande ambiente de análise de dados. Muitas vezes, nós equiparamos o conceito com noções discretas, como correção de dados ou moeda, implementando processos para corrigir valores de dados ou objetos que não são precisos ou atualizados.


Mas a gestão da qualidade dos dados para grandes dados também é provável que inclua medidas destinadas a ajudar cientistas de dados e outros analistas a descobrir como efetivamente usar o que temos. Em outras palavras, devemos transitar de simplesmente gerar uma especificação em preto e branco de dados bons versus dados ruins para suportar um espectro de usabilidade de dados.

Usabilidade de dados

O foco na usabilidade visa aumentar o grau em que dados validados podem contribuir para resultados de análise acionáveis, ao mesmo tempo em que reduzem o risco de os dados serem mal interpretados ou usados ​​incorretamente.

Aqui estão 2 aspectos dos esforços para melhorar a grande usabilidade dos dados que poderiam ser incorporados em iniciativas de qualidade de dados.

Sincronização de dados

Em muitos grandes ambientes de dados, é provável que os conjuntos de dados sejam replicados entre diferentes plataformas. Ao contrário de simplesmente gerar extratos de dados para usuários particulares, a replicação fornece sincronização em dados entre todas as réplicas. Quando uma alteração é feita para uma cópia, a modificação é propagada para outras. Essa sincronização ajuda a impor consistência e uniformidade em dados compartilhados, aumentando assim sua usabilidade.

Tornar os dados identificáveis

A precisão das grandes aplicações de análise de dados pode ser aprimorada, facilitando a identificação precisa dos dados da empresa, de modo que conjuntos de dados relevantes de diferentes fontes podem ser vinculados para análise. Portanto, garantir que os dados sejam identificáveis ​​em todo o seu ciclo de vida – desde a criação ou captura até a ingestão, integração, processamento e uso de produção – deve ser uma faceta principal da qualidade de dados.

Reconsiderar como a qualidade dos dados é enquadrada em um grande ambiente de dados para incorporar medidas de usabilidade amplia o escopo dos processos de qualidade de dados. Paralelamente aos procedimentos tradicionais de elaboração de perfis e limpeza, um foco centrado na usabilidade na preparação, catalogação e conservação de dados oferece uma visão maior da grande qualidade de dados para organizações que estão expandindo seus repositórios – e uso – de dados de análise.

Tradução livre do texto de David Loshin


Fonte: SearchDataManagement

Gostou da notícia?

Veja mais sobre
Big dataNegócios
campo obrigátório

Cadastro efetuado com sucesso!

Em breve você receberá o melhor da tecnologia no seu email