Skills
Sobre a Vaga
Buscamos um(a) Engenheiro(a) de Dados Sênior para atuar no desenvolvimento e evolução de pipelines ETL em produção, com forte foco em backend Python e construção de fluxos de dados no ecossistema GCP. Você fará parte de uma equipe internacional, garantindo qualidade, eficiência e confiabilidade do processamento.
Responsabilidades
- Manter e evoluir pipelines ETL multiestágio em diferentes domínios de dados
- Implementar transformações com foco em qualidade, incluindo conversões, filtragem de outliers, preenchimento de lacunas, suavização e interpolação
- Diagnosticar, corrigir e prevenir problemas de qualidade em pipelines produtivos
- Projetar e manter mapeamentos de campos baseados em YAML para novas fontes de dados
- Consultar, carregar e orquestrar dados com Cloud SQL e BigQuery
- Desenvolver e manter endpoints com FastAPI, seguindo princípios de arquitetura limpa
- Construir testes unitários e de integração com pytest
- Participar de revisões de código e apoiar rotinas de CI/CD em Azure DevOps
- Converter regras de negócio em transformações eficientes utilizando pandas
Requisitos
- Inglês avançado para conversação diária com times internacionais
- Experiência sólida com Python 3.10+ e boas práticas de engenharia
- Domínio de dataclasses, type hints e abstract base classes
- Experiência com pandas e NumPy para processamento em larga escala
- Conhecimento de scipy para otimização e ajuste de curvas
- Vivência com SQLAlchemy (Core e ORM)
- Experiência com APIs assíncronas usando FastAPI e asyncio
- Experiência com Cloud SQL e autenticação via IAM no GCP
- Experiência com BigQuery para consulta e carga de dados
- Experiência com Cloud Storage para manipulação de arquivos
- Conhecimento de service accounts e controle de acesso (IAM)
- Capacidade de design e debugging de pipelines multiestágio, incluindo séries temporais
- Experiência com validação de dados, deduplicação e imputação
- Experiência com pipelines orientados a configuração (YAML)
- Experiência com Docker e Docker Compose
- Experiência com CI/CD (preferencialmente Azure DevOps)
- Gerenciamento de dependências com Poetry
- Noções de Redis como camada de cache
- Comunicação clara para explicar decisões técnicas e colaborar com times multidisciplinares
Beneficios
- Atuação em ambiente internacional e projetos com dados em produção
- Oportunidade de evoluir pipelines, arquitetura e qualidade de dados
- Trabalho colaborativo com práticas de engenharia, testes e CI/CD