escrito por Caio César Pereira de Souza
4 minutos de leitura

A construção de um editor de imagens automatizado no n8n pode ir além de simples manipulações estáticas. No fluxo apresentado, temos uma arquitetura orientada a eventos que integra Google Drive, OpenAI e Gemini para criar um pipeline inteligente de análise e transformação visual.
O processo começa com o evento do Google Drive responsável por identificar quando um novo arquivo é adicionado a uma pasta específica. Esse gatilho elimina a necessidade de intervenção manual e transforma a pasta monitorada em um ponto de entrada automatizado para o processamento de imagens.
Assim que o arquivo é detectado, o fluxo realiza o download do binário da imagem para que ela possa ser manipulada internamente no workflow.
Em seguida, entra em ação o node de Analyze Image, que utiliza a OpenAI para interpretar o conteúdo visual.
Esse node contém um prompt estruturado com a instrução:
"Analise a imagem e me retorna o que está nela e o estilo do objeto por exemplo: 'Um bolo de aniversário elegante com letras cursivas e flores no topo e ao redor'.
O objetivo aqui não é apenas descrever a imagem, mas extrair características semânticas e estilísticas, como:
O retorno desse node é um texto estruturado que descreve o conteúdo da imagem com riqueza de detalhes.
Esse output passa então por um node de Merge, que combina o binário original com a descrição gerada.
Essa etapa é crucial do ponto de vista técnico: o próximo processamento precisa tanto da imagem quanto da interpretação textual feita pela IA.
Ao unificar esses dados, o fluxo garante coerência entre entrada visual e transformação aplicada.
Na sequência, o node Edit an image utiliza o modelo Gemini (nano banana) para realizar a modificação visual.
Nesse node, você está enviando o binário da imagem junto com um prompt dinâmico baseado na análise anterior.
O prompt configurado é:
"Baseado no input mude o fundo da imagem para que transmita o clima informado no prompt {{ $json['0'].content[0].text }}, ajustando luz, estilo e fundo retorne apenas a imagem."
Aqui ocorre um ponto sofisticado do fluxo: o clima e o estilo não são definidos manualmente, mas inferidos automaticamente pela OpenAI na etapa anterior ou seja, o sistema primeiro entende a imagem e depois usa essa interpretação para orientar a transformação.
Esse encadeamento cria um comportamento quase “criativo” no pipeline.
Por exemplo:
Se a análise identificar “um bolo elegante com flores delicadas e tipografia cursiva”, o Gemini pode ajustar o fundo para algo sofisticado, com iluminação suave e tons pastéis.
Se identificar um objeto mais vibrante ou infantil, o fundo pode se tornar colorido e dinâmico.
A edição deixa de ser fixa e passa a ser contextual.
Após a geração da nova imagem, o fluxo realiza o upload automático para o Google Drive e move o arquivo original para outra pasta, evitando reprocessamento. Essa organização mantém o workflow idempotente e escalável.
Em ambientes com alto volume de imagens — como produção de criativos para redes sociais ou e-commerce — essa arquitetura permite processar dezenas ou centenas de imagens sem intervenção humana.
Do ponto de vista arquitetural, você criou um microserviço de edição visual orientado a eventos, com duas etapas de IA complementares:
O n8n atua como orquestrador, conectando APIs e garantindo fluxo determinístico.
Essa abordagem é extremamente poderosa porque separa responsabilidades: um modelo interpreta, outro transforma, e o workflow coordena.
A evolução natural desse sistema pode incluir:
Com isso, o que começou como um editor simples se tornou uma pipeline inteligente de transformação visual automatizada, pronta para escalar dentro de uma estratégia maior de automação de conteúdo.