Projeto Integrador · 2025

Data Lake para turismo inteligente

Pipeline ELT que transforma dados operacionais da plataforma Tour4Friends em inteligência de negócios — da ingestão em tempo real no Kafka até os dashboards no Power BI.

ELTArquitetura
3Camadas Medallion
CDCIngestão real-time
6Componentes AWS
Em Desenvolvimento
Fluxo de dados
01
🗃️
MongoDB
Banco NoSQL operacional. Fonte de reservas e interações.
EXTRACT
02
Apache Kafka
CDC captura eventos. Kafka Connect faz Load direto no S3.
STREAMING · CDC
03
🪣
Amazon S3
Data Lake em camadas Medallion. Dados brutos em JSON.
LOAD · BRONZE
04
⚙️
AWS Glue
Spark serverless. Limpeza e conversão para Parquet.
TRANSFORM · SPARK
05
📊
Athena + Power BI
SQL serverless sobre S3. Dashboards estratégicos.
ANALYTICS
Medallion Architecture
Raw Zone
JSON
Bronze · Camada 01

Eventos originais extraídos via CDC. Dados brutos sem transformação — fonte da verdade imutável do pipeline.

Processed Zone
Parquet
Silver · Camada 02

Dados limpos, tipados e convertidos via AWS Glue. Schema validado e particionado para queries eficientes.

Curated Zone
Agregado
Gold · Camada 03

Tabelas com regras de negócio aplicadas, prontas para consumo pelo Athena e Power BI.

Componentes tecnológicos
Fonte MongoDB Banco NoSQL operacional para registros de viagens e reservas
Ingestão Apache Kafka Streaming de eventos em tempo real via Change Data Capture
Processamento AWS Glue (Spark) Transformação e conversão de formatos JSON → Parquet
Armazenamento Amazon S3 Data Lake escalável organizado em camadas Medallion
Catálogo Glue Data Catalog Repositório central de metadados para governança e descoberta
Analytics Athena + Power BI SQL serverless sobre S3 com dashboards estratégicos
Time
Pablo Roberto
Pablo Roberto
Lucas Antonio
Lucas Antonio
Thiago Cardoso
Thiago Cardoso
William Nunes
William Nunes
Daniel Fernando
Daniel Fernando