Blog
Integração de Componentes Open Source para Data Lakes
Introdução
Este post detalha o plano de trabalho que venho desenvolvendo em minha Iniciação Científica (IC) no CEFET-MG. O objetivo central é a integração de componentes open-source para a construção de Data Lakes robustos, escaláveis e seguros.
O Desafio
Construir um Data Lake não é apenas sobre armazenar arquivos; é sobre garantir que os dados sejam acessíveis, governados e que a infraestrutura seja reprodutível.
Componentes Utilizados:
- Processamento: Hadoop (HDFS/YARN), Spark.
- Metadados e Consulta: Hive.
- Segurança e Governança: Knox (Gateway), Ranger (Políticas de Acesso), Atlas (Linhagem e Metadados).
A Abordagem IaC
Para garantir a reprodutibilidade dos experimentos, utilizo Terraform e Ansible para provisionar e configurar os recursos na Oracle Cloud Infrastructure (OCI). Isso permite que todo o ambiente seja destruído e recriado em poucos minutos, garantindo a integridade dos testes de integração.
Próximos Passos
Atualmente, o foco está na configuração das políticas de segurança fina com o Apache Ranger e na captura de linhagem de dados com o Apache Atlas.
Fique atento para mais detalhes técnicos sobre cada um desses componentes!