Processamento Distribuído

Implementamos projetos de dados em diferentes clientes em diversos continentes

PySpark

Contexto:

Um cliente necessitava processar grandes volumes de dados de contatos de CRM para detecção de contas duplicadas, e higienização de base, como um feature de seu produto SaaS.

Desafio:

O código original em Python executava em uma única instancia, sendo lento demais para atender os requisitos de tempo exigidos pelo projeto.

Solução:

Refatoração dos processos para PySpark, aproveitando o poder do processamento distribuído, o deploy foi realizado em Google DataProc, orquestrado pelo Apache Airflow.

Resultados:

Processamento 3x mais rápido em relação ao código legado.

Conclusão:

O cliente passou a ter um sistema robusto e escalável, capaz de crescer junto com sua base de usuários.

a person holding a smart phone with a credit card on top of it
a person holding a smart phone with a credit card on top of it

Nossa Expertise

Atendemos clientes de diversos segmentos, incluindo startups como Fintechs, LogTechs, entre outras empresas do setor público e privado, com foco em projetos de longo prazo e suporte especializado contínuo.

cargo containers are stacked on top of each other
cargo containers are stacked on top of each other
laptop computer on glass-top table
laptop computer on glass-top table
factories with smoke under cloudy sky
factories with smoke under cloudy sky
citiscan result hand ok
citiscan result hand ok
shallow focus photography of quadcopter
shallow focus photography of quadcopter