Introdução

Este post detalha o plano de trabalho que venho desenvolvendo em minha Iniciação Científica (IC) no CEFET-MG. O objetivo central é a integração de componentes open-source para a construção de Data Lakes robustos, escaláveis e seguros.

O Desafio

Construir um Data Lake não é apenas sobre armazenar arquivos; é sobre garantir que os dados sejam acessíveis, governados e que a infraestrutura seja reprodutível.

Componentes Utilizados:

Processamento: Hadoop (HDFS/YARN), Spark.
Metadados e Consulta: Hive.
Segurança e Governança: Knox (Gateway), Ranger (Políticas de Acesso), Atlas (Linhagem e Metadados).

A Abordagem IaC

Para garantir a reprodutibilidade dos experimentos, utilizo Terraform e Ansible para provisionar e configurar os recursos na Oracle Cloud Infrastructure (OCI). Isso permite que todo o ambiente seja destruído e recriado em poucos minutos, garantindo a integridade dos testes de integração.

Próximos Passos

Atualmente, o foco está na configuração das políticas de segurança fina com o Apache Ranger e na captura de linhagem de dados com o Apache Atlas.

Fique atento para mais detalhes técnicos sobre cada um desses componentes!