O Google está evoluindo sua IA Gemini de uma ferramenta que simplesmente “mostra” imagens para uma que “demonstra” processos complexos. Uma nova atualização permite que o chatbot gere visualizações dinâmicas e interativas diretamente na interface do chat, indo além das limitações das imagens estáticas.
De imagens estáticas a simulações dinâmicas
Anteriormente, quando os usuários pediam ao Gemini para visualizar um conceito, a IA contava com seus recursos de geração de imagens para produzir uma imagem única e imóvel. Embora úteis para fins artísticos, as imagens estáticas muitas vezes não conseguem explicar como as coisas se movem, mudam ou funcionam ao longo do tempo.
Com esse novo recurso, Gemini pode criar simulações que os usuários podem manipular. Em vez de apenas olhar a imagem de um conceito, os usuários podem interagir com ele. Isto é conseguido através de um fluxo de trabalho específico:
1. O usuário pede ao Gêmeos que “me mostre” ou “me ajude a visualizar” um tópico específico.
2. Um botão chamado “mostre-me a visualização” aparece no chat.
3. Clicar no botão gera um modelo dinâmico e interativo.
Funcionalidade prática: peças móveis e controles
Os primeiros testes do recurso revelam que essas visualizações não são apenas animações simples, mas modelos funcionais com parâmetros controlados pelo usuário.
Por exemplo, ao visualizar a mecânica celeste (como a órbita da Lua ao redor da Terra), a ferramenta fornece controles deslizantes que permitem aos usuários ajustar a velocidade da órbita e modificar o ângulo de visão. Da mesma forma, ao explicar processos mecânicos (como o funcionamento interno de um motor de carro), a interface permite que os usuários reproduzam a animação ou percorram manualmente cada estágio do ciclo.
Esse recurso transforma a IA de uma resposta passiva em uma ferramenta educacional ativa, tornando-a muito mais eficaz para explicar física, engenharia ou biologia.
O cenário competitivo: Gêmeos x Claude
O Google não é o primeiro a avançar nessa direção. Em março, a Anthropic introduziu recursos semelhantes para sua IA Claude, que também impressionou os usuários com sua capacidade de renderizar ideias complexas.
No entanto, existe uma lacuna funcional notável entre os dois:
– Claude atualmente permite que os usuários salvem os recursos visuais gerados para uso posterior.
– Atualmente, o Gemini não possui um mecanismo para salvar ou exportar essas simulações interativas.
À medida que a corrida pela IA “multimodal” – IA que pode processar e criar texto, imagem, vídeo e dados interativos – se intensifica, a capacidade de reter e revisitar esses recursos visuais complexos provavelmente se tornará um diferencial crítico.
Disponibilidade e Requisitos Técnicos
A implementação deste recurso está em andamento globalmente, embora haja limitações específicas a serem lembradas:
– Requisito do modelo: As visualizações são geradas apenas ao usar o modelo Gemini Pro.
– Restrições de conta: o recurso não está disponível no momento para contas do Google Workspace ou do Education.
Embora o recurso represente um passo significativo em direção a um aprendizado mais intuitivo baseado em IA, sua utilidade a longo prazo dependerá da capacidade do Google de expandir sua complexidade e adicionar a capacidade de salvar essas sessões interativas.
Em resumo, o novo recurso interativo do Google transforma o Gemini de um gerador de texto e imagem em uma ferramenta de simulação funcional, embora atualmente esteja atrás dos concorrentes em termos de gerenciamento de arquivos e recursos de salvamento.
