Skills
Sobre a Vaga
Na SAP, você atuará como Engenheiro(a) de Big Data Sênior para apoiar a plataforma SAP Concur. O foco é projetar, construir e evoluir pipelines e infraestrutura de dados que processam bilhões de transações, recibos e eventos de viagem diariamente, viabilizando análises, machine learning e relatórios operacionais para empresas em todo o mundo.
Responsabilidades
- Desenvolver e evoluir pipelines batch e streaming para ingestão, transformação e entrega de dados estruturados e semiestruturados
- Garantir ETL/ELT end-to-end com rastreabilidade, consistência e entrega no tempo certo
- Projetar e manter arquiteturas lakehouse e data warehouse, incluindo camadas Bronze/Silver/Gold e estratégias de particionamento
- Construir fluxos de streaming para eventos de alta volumetria, apoiando detecção de fraude e dashboards de gastos em tempo quase real
- Implementar práticas de qualidade de dados e observabilidade, com validações automáticas, monitoramento de SLAs e controle de lineage
- Operar a camada de infraestrutura e DataOps, incluindo CI/CD para código de dados e automação via IaC
- Colaborar com engenharia de dados, ciência de dados e produto para sustentar modelos canônicos para uso analítico e operacional
- Otimizar pipelines existentes para reduzir latência, custos de computação/armazenamento e aumentar resiliência e tolerância a falhas
Requisitos
- Experiência avançada com Python (incluindo PySpark) para desenvolvimento de pipelines e automação
- SQL avançado para transformações complexas, modelagem e otimização de consultas
- Conhecimento de Scala ou Java para interação com componentes internos do Apache Spark
- Domínio de Apache Spark (PySpark, Spark SQL, Structured Streaming, DataFrames) e técnicas de performance
- Experiência com lakehouse em plataformas como Databricks e formatos abertos como Delta Lake e Apache Iceberg
- Vivência com Kafka e/ou Flink e/ou Spark Structured Streaming para processamento de streams com baixa latência
- Conhecimento de orquestração (ex.: Apache Airflow) e práticas de DataOps (ex.: dbt, testes, documentação e lineage)
- Experiência com cloud (AWS, GCP ou Azure) e ecossistemas de armazenamento (ex.: S3/ADLS/GCS)
- Familiaridade com observabilidade e monitoramento (ex.: Grafana, CloudWatch, Datadog) e com frameworks de qualidade (ex.: Great Expectations ou Soda)
- Inglês para colaboração com equipes globais
Beneficios
- Ambiente híbrido com flexibilidade para colaboração presencial
- Oportunidades de aprendizado contínuo e crescimento de habilidades
- Pacote de benefícios e apoio ao bem-estar