5 minutos de leitura
No entanto, além de considerar a estruturação dos dados em si, também é importante considerar a forma como organizamos os dados dentro da própria arquitetura. Uma estratégia popular é a Arquitetura Medalhão, um padrão de design que consiste em organizar os dados em camadas claras e bem definidas, separadas conforme seu estágio de processamento, permitindo que eles sejam tratados progressivamente desde seu estado mais bruto até se tornarem informações valiosas para análises e decisões.
A Arquitetura Medalhão é uma abordagem estruturada que organiza os dados em três níveis diferentes, tradicionalmente: Bronze, Prata e Ouro (embora possam receber outros nomes, como landing, raw, staging, curated, analytics, etc.).
Bronze: dados crus, exatamente como foram extraídos, sem nenhuma modificação.
Prata: dados refinados, já organizados, validados e limpos para serem consumidos por analistas, normalmente organizados em tabelas colunares.
Ouro: dados altamente tratados e enriquecidos, prontos para análise aprofundada, dashboards de BI ou machine learning, contendo agregações e praticamente servindo como métricas individuais.
Essas três camadas funcionam como filtros sucessivos: cada uma garante um nível maior de qualidade e confiança nos dados.
Quando se lida com um grande volume de dados vindos de fontes diferentes — bancos SQL tradicionais, APIs REST, Data Lakes como Amazon S3 ou Azure Data Lake —, torna-se complicado manter todos os dados organizados e claros sem algum padrão de design. O risco real é acabar com um Data Swamp (um pântano de dados), cheio de informações confusas e difíceis de usar.
A Arquitetura Medalhão combate justamente esse problema. Ela garante uma melhoria contínua na qualidade dos dados à medida que passam por suas camadas. Além disso, facilita a governança e evita retrabalho no futuro, mantendo o ambiente escalável e fácil de administrar. Também permite que diversas funções e aplicações tenham acesso aos dados no formato de que necessitarem.
Este diagrama representa como os dados avançam de forma incremental, permitindo sua verificação e limpeza antes de chegarem ao consumidor final. Isso garante maior qualidade dos dados, abstrai as necessidades conforme o perfil do cliente e ainda oferece diversas vantagens:
Monitoramento incremental: como as etapas são claras e separadas, torna-se muito mais fácil monitorar, identificar falhas e realizar ajustes específicos.
Qualidade embutida: cada etapa já prevê validações específicas, o que melhora continuamente a qualidade dos dados sem esforços adicionais.
Facilidade de rastreabilidade: o histórico permanece preservado na camada Bronze, permitindo auditoria simples e recomposição histórica, se necessário.
Reutilização inteligente: dados validados e organizados na camada Prata podem servir para diversos propósitos, evitando retrabalho e mantendo a consistência.
Muito se discute sobre as vantagens tradicionais que a Arquitetura Medalhão proporciona, porém, algo nem sempre observado é a independência das fontes de dados. O que isso significa na prática?
Quando os dados são estruturados analiticamente (especialmente na camada Prata), eles estão, na prática, sendo desacoplados do modelo analítico da origem. Durante a elaboração dessa camada, é criada uma nova abstração dos dados. Em outras palavras, caso haja uma alteração na origem ou até no formato dos dados ingeridos — como, por exemplo, uma transição entre sistemas, ou de uma API para uma comunicação com um banco de dados — os impactos serão limitados à camada inicial (Bronze), desde que os dados essenciais permaneçam os mesmos. A estrutura analítica e o restante do processo seguem inalterados.
O diagrama abaixo ilustra como diferentes fontes convergem para uma única camada analítica, facilitando mudanças futuras nas fontes originais:
Assim, a Arquitetura Medalhão desacopla seu ambiente analítico das origens específicas, proporcionando a flexibilidade essencial para o futuro da sua empresa.
Nesse exemplo, a fonte original utilizada para carregar ordens de produção na camada Bronze era um banco de dados externo. Porém, com uma mudança na origem dos dados — como a substituição por uma API, seja por decisão contratual ou pela descontinuação de um sistema antigo — os dados utilizados para formar a camada Prata continuam os mesmos. Isso acontece porque o objeto na camada Prata é o resultado das regras de negócio aplicadas, e não depende do formato ou da origem dos dados, apenas de que a informação essencial seja preservada.
Os objetos na camada Prata tornam-se representações semânticas da informação essencial que seu sistema utiliza. Dessa forma, desde que as origens de dados forneçam as mesmas informações, o formato em que são obtidas tem pouca relevância — bastando apenas adaptá-los conforme necessário.
Adotar uma Arquitetura Medalhão não é apenas organizar seu data lake ou data warehouse. Trata-se de garantir que seus dados estejam sempre limpos, organizados e prontos para gerar valor real — sem amarras com ferramentas ou sistemas específicos. Plataformas como Databricks, Snowflake e BigQuery são excelentes escolhas técnicas, mas o que realmente importa são os princípios dessa abordagem: estrutura clara, independência, governança de dados e escalabilidade real.
Com essa arquitetura, você pode deixar de se preocupar com mudanças constantes nas suas fontes e passar a se concentrar em oferecer dados capazes de gerar insights e valor concreto.