Processamento Distribuído
Implementamos projetos de dados em diferentes clientes em diversos continentes
PySpark
Contexto:
Um cliente necessitava processar grandes volumes de dados de contatos de CRM para detecção de contas duplicadas, e higienização de base, como um feature de seu produto SaaS.
Desafio:
O código original em Python executava em uma única instancia, sendo lento demais para atender os requisitos de tempo exigidos pelo projeto.
Solução:
Refatoração dos processos para PySpark, aproveitando o poder do processamento distribuído, o deploy foi realizado em Google DataProc, orquestrado pelo Apache Airflow.
Resultados:
Processamento 3x mais rápido em relação ao código legado.
Conclusão:
O cliente passou a ter um sistema robusto e escalável, capaz de crescer junto com sua base de usuários.








Nossa Expertise
Atendemos clientes de diversos segmentos, incluindo startups como Fintechs, LogTechs, entre outras empresas do setor público e privado, com foco em projetos de longo prazo e suporte especializado contínuo.