Início » Blog » Data Lake: como garantir segurança e governança na Era Big Data

Data Lake: como garantir segurança e governança na Era Big Data

Data lake é um conceito de armazenamento de todo tipo de dado na infraestrutura de big data de uma organização, com escala e flexibilidade, seja on premise ou em cloud computing. Na tradução para o português, o termo significa “lago de dados”. Na prática, se traduz em um repositório no qual são armazenados dados de diferentes fontes escolhidas pela organização. É importante destacar que essas informações chegam brutas, ou seja, da forma que foram coletadas, sem filtros, refinamentos ou análises prévias.

Em geral, os data lakes são construídos em três etapas. A primeira refere-se ao momento de coleta das informações. Na segunda fase, os dados são direcionados ao armazenamento no repositório. Por fim, é possível conectar ao data lake plataformas de consulta aos dados. Nessa arquitetura, os dados podem ser armazenados de maneira estruturada, semiestruturada ou sem qualquer estrutura.

Quer saber mais sobre esse conceito? Então, não deixe de ler esse artigo.

Importância do data lake para os negócios

Segundo a segundo, grande parte das organizações são alimentadas por uma série de dados estruturados, não estruturados e semiestruturados. A grande questão é que nem sempre é possível saber o que descartar ou não, tendo em vista a dificuldade para prever o que será útil. É nesse contexto do negócio que o data lake ganha relevância.

É por meio desse conceito que consegue-se armazenar dados de maneira indiscriminada, deixando-os prontamente disponíveis para uma possível necessidade de análise e correlacionamento. Isso beneficia o negócio com mais capacidade para:

  • analisar tendências de mercado;
  • traçar o perfil do consumidor/ cliente;
  • otimizar as programações de compra de suprimentos;
  • identificar pontos de melhoria na operação e nos processos do negócio;
  • desenvolver e/ou aprimorar produtos e serviços

Tipos de dados e as diferenças entre essas classificações

Dados são recursos que permitem agregar mais inteligência, conhecimento e estratégia a diferentes esferas de um negócio. Porém, na escolha das melhores soluções para fazer a coleta, o armazenamento e o uso das informações, é preciso entender três classificações: 

1. Dados estruturados

Como o próprio nome sugere, tratam-se dos dados coletados por meio de campos pré-definidos, com estrutura rígida. Um bom exemplo são aqueles originados de fichas de cadastro, nas quais existem campos de nome, endereço e telefone, entre outras informações.

2. Dados não estruturados

Aqui, falamos daqueles com informações soltas, que podem ser inseridas sem nenhum tipo de hierarquia, sem a existência de um campo específico para cada dado. Um bom exemplo são os arquivos de áudios, vídeos, textos e imagens, além dos conteúdos de redes sociais.

3. Dados semiestruturados

Já os dados semiestruturados são aqueles que reúnem características de dados estruturados e não estruturados. São aqueles que não têm uma estrutura formal, mas seguem alguma lógica, como, por exemplo, arquivos em Extensible Markup Language (XML), arquivos em JavaScrip Object Notation (JSON). 

Muitas empresas desconhecem os dados que possuem

Quase metade das empresas não consegue extrair valor dos dados que acumula. Além disso, a análise incorreta e imprecisa das informações desperdiça tempo e dinheiro das organizações, conforme indica o mapeamento da ASG Technologies Group, divulgado pelo portal IT Forum.  

Veja outros dados alarmantes divulgados na mesma matéria:

  • 64% dos entrevistados dizem que a utilização de dados incorretos adicionou custos à empresa, gerando repercussões como a perda de oportunidades de negócios (53%), perda de tempo em um projeto (43%), multas por falta de conformidade (37%) e necessidade de reverter uma decisão comercial anterior (29%);
  • 34% dos entrevistados dizem que gastam de 16 a 20 horas por semana apenas para localizar, gerenciar e colher manualmente as informações dos dados registrados;
  • Apenas 52% das organizações atualmente praticam governança de dados, o que significa que elas não possuem o uso e a modelagem dos dados sob controle;
  • 63% dos entrevistados afirmam que suas operações utilizam dados imprecisos, desatualizados ou ruins como fonte de informação para a tomada de decisões;
  • Apenas 29% das empresas praticam a linhagem de dados, o que significa que não sabem o suficiente sobre suas informações para confiar nelas; e
  • 4 em cada 10 organizações não sabem quais dados possuem.

Uso do data lake em cibersegurança

A eficiente prevenção, análise, contenção e remediação de incidentes de cibersegurança exige ampla e centralizada visibilidade e disponibilidade de dados, sistemas e soluções. Trata-se de tudo o que o data lake proporciona quando o conceito é incorporado ao centro de operações de segurança (SOC) de uma organização.

Considerando as ações de cibersegurança, é estratégico que os SOCs operem em sinergia com o conceito data lake. Isso porque, dentro dessa dinâmica, o SOC cria um próprio data lake apartado do data lake de negócios com todas as informações de logs captados pelas ferramentas. Então, esses dados são usados e correlacionados para tomada de decisão.

Governança em um ambiente data lake

Tantos e tão diversos dados não podem ficar na organização sem supervisão. É por isso que o ambiente data lake exige governança das informações, ou seja, métodos, políticas, processos e práticas que garantam a gestão, o armazenamento e o uso das informações de maneira adequada. Tudo, claro, considerando a privacidade e proteção dos dados.

Data lake, data warehouse e data lakehouse: qual a diferença?

Os três conceitos são úteis, mas a adesão a eles deve considerar as necessidades e especificidades da operação do negócio. Isso porque, enquanto o data lake trabalha com todo tipo e volume de dados, o data warehouses tem capacidade para operar apenas com com dados estruturados e processado em um ambientes menos flexível e escalável. Já o data lakehouse combina o melhor dos dois conceitos anteriores.

Como manter o data lake seguro

Sabemos o quanto é vital para o negócio garantir que o data lake seja seguro, os dados estejam disponíveis e as informações tenham governança e segurança. Por isso, nossos especialistas estão à disposição para ajudar a sua organização nessa jornada. Vamos agendar uma reunião?

Tópicos