Big data | The Big Data Company

Processamento Distribuído

Implementamos projetos de dados em diferentes clientes em diversos continentes

PySpark

Contexto:

Um cliente necessitava processar grandes volumes de dados de contatos de CRM para detecção de contas duplicadas, e higienização de base, como um feature de seu produto SaaS.

Desafio:

O código original em Python executava em uma única instancia, sendo lento demais para atender os requisitos de tempo exigidos pelo projeto.

Solução:

Refatoração dos processos para PySpark, aproveitando o poder do processamento distribuído, o deploy foi realizado em Google DataProc, orquestrado pelo Apache Airflow.

Resultados:

Processamento 3x mais rápido em relação ao código legado.

Conclusão:

O cliente passou a ter um sistema robusto e escalável, capaz de crescer junto com sua base de usuários.

a person holding a smart phone with a credit card on top of it

Nossa Expertise

Atendemos clientes de diversos segmentos, incluindo startups como Fintechs, LogTechs, entre outras empresas do setor público e privado, com foco em projetos de longo prazo e suporte especializado contínuo.

cargo containers are stacked on top of each other

The Big Data Company

Soluções em engenharia e ciência de dados.

CONTATO

FALE CONOSCO

robson@thebigdatacompany.com.br

+55 47 99607 5445