Skills
DBT
Google BigQuery
GCP Data Pipelines (Dataproc/Dataflow)
Sobre a Vaga
Na Leega, buscamos profissionais para atuar na construção e evolução de soluções de dados com foco em performance, custo, governança e qualidade. Esta oportunidade é 100% remota e atende também candidatos PcD.
Responsabilidades
- Analisar e planejar arquiteturas de dados e pipelines para o Data Warehouse no GCP
- Mapear dados, transformações e processos envolvendo Cloud Storage, BigQuery e Dataproc
- Definir estratégias de migração e carga (full load, incremental e CDC)
- Projetar modelos e esquemas no BigQuery considerando custo, escalabilidade e desempenho
- Definir particionamento e clustering no BigQuery
- Modelar zonas de dados no Cloud Storage (Bronze, Silver e Gold)
- Desenvolver pipelines ELT/ETL com Dataproc (Spark) e Dataflow
- Traduzir regras de negócio e transformações existentes para rotinas de dados
- Implementar validações e mecanismos de qualidade de dados
- Otimizar consultas no BigQuery e ajustar jobs no Dataproc para reduzir custo e melhorar performance
- Garantir segurança e governança: dados em trânsito e em repouso, IAM e conformidade
- Monitorar pipelines, resolver problemas e apoiar a operação
- Documentar arquitetura, pipelines, modelos e procedimentos operacionais
- Atuar com comunicação clara entre stakeholders e evolução das entregas, seguindo práticas ágeis no Jira
Requisitos
- Experiência comprovada com DBT (mínimo de 3 anos)
- Domínio de models (staging, intermediate, marts), uso de
ref()
esource()
, macros em Jinja, seeds e snapshots - Criação e manutenção de testes (not null, unique e custom)
- Organização em camadas: Staging → Transform → Mart (Data Warehouse)
- Profundo conhecimento em BigQuery: modelagem, otimização de consultas, particionamento, clustering e cargas (streaming e batch)
- Experiência com Cloud Storage: buckets, classes de armazenamento, ciclo de vida e políticas de acesso (IAM)
- Habilidade com Dataproc: provisionamento/configuração de clusters Spark/Hadoop e otimização de jobs
- Conhecimento de Dataflow/Composer/DBT para orquestração e processamento de pipelines ELT/ETL
- Implementação de Cloud IAM e controle de acesso granular
- Entendimento de VPC, networking e segurança (sub-redes, firewall e boas práticas)
- Experiência com Python e PySpark, além de SQL avançado
- Uso de Shell scripting para automação e versionamento com Git/GitHub/Bitbucket
- Conhecimento de metodologias ágeis e ritos, com proficiência em Jira
Beneficios
- Convênio médico Porto Seguro (com possibilidade de incluir cônjuge e filhos)
- Convênio odontológico Porto Seguro
- Participação nos Lucros e Resultados (PLR)
- Auxílio creche
- Vale alimentação e refeição (Alelo)
- Auxílio home office
- Parcerias com instituições de ensino (descontos e incentivos)
- Incentivo para certificações, incluindo em Cloud
- Pontos Livelo
- TotalPass
- Mindself (meditação e mindfulness)