Como o Google treina pequenos modelos multimodais no celular para adivinhar intenção do usuário antes da busca — e o impacto para SEO

Pesquisa do Google descreve um futuro pós‑consulta em que intentos são extraídos de comportamentos em apps e navegadores usando modelos pequenos e locais

O Google publicou um estudo, apresentado no EMNLP 2025, que aponta para uma mudança na forma como sistemas de busca entendem o que o usuário quer: em vez de depender só da consulta digitada, pequenos modelos multimodais rodando no dispositivo podem inferir intenção a partir da sequência de telas, toques, cliques e rolagens. A ideia central é dividir o problema em etapas simples para que modelos menores alcancem desempenho similar a grandes modelos em nuvem, com menor latência, custo e maior privacidade.

Como funciona a decomposição da extração de intenção

No trabalho intitulado Small Models, Big Results: Achieving Superior Intent Extraction through Decomposition, os pesquisadores descrevem uma abordagem em duas etapas:

Resumo por interação: cada interação com a tela (o que estava exibido, a ação do usuário e uma hipótese provisória sobre a motivação) é resumida individualmente por um pequeno modelo.
Agregação factual: um segundo modelo analisa apenas as partes factuais desses resumos — ignorando as hipóteses especulativas — e produz uma afirmação curta sobre o objetivo geral da sessão.

Ao manter cada etapa focalizada, a arquitetura evita um ponto fraco comum em modelos pequenos: o colapso ao tentar raciocinar sobre um histórico longo e desordenado de uma só vez.

Resultados, métricas e redução de alucinações

Para avaliar qualidade, os autores usaram o método Bi‑Fact, que mede tanto a omissão de fatos quanto a invenção de fatos (alucinações). Com a métrica principal baseada em F1, modelos pequenos seguindo a estratégia por etapas superaram outras abordagens de pequeno porte. Exemplos relevantes do estudo incluem:

Gemini 1.5 Flash, um modelo de 8 bilhões de parâmetros, alcança desempenho comparável ao Gemini 1.5 Pro em dados de comportamento móvel quando treinado com a decomposição.
As alucinações caem, porque as hipóteses especulativas geradas na primeira etapa são filtradas antes da produção da intenção final.
Mesmo adicionando uma etapa extra, o processo local é mais rápido e barato do que rodar grandes modelos na nuvem.

Os autores também mostram que dados de treinamento ruidosos prejudicam mais modelos grandes treinados de forma end‑to‑end do que a abordagem decomposta, que se mostra mais robusta a etiquetas inconsistentes típicas do comportamento real do usuário.

Privacidade, custo e desempenho: por que rodar no dispositivo importa

Executar modelos no aparelho reduz três problemas-chave das soluções em nuvem: latência maior, custos operacionais e riscos de privacidade — afinal, hábitos de navegação e toques podem conter informações sensíveis. Pequenos modelos multimodais que ficam no celular permitem inferências rápidas sem enviar todo o histórico para servidores externos.

Além disso, o processamento em duas camadas minimiza tentativas especulativas que levariam a respostas incorretas ou inventadas, o que é crítico em aplicações que sugerem ações antes que o usuário faça uma busca.

Implicações para SEO, Discover e marketing de conteúdo

Se a busca evoluir para um cenário em que agentes preditivos propõem respostas ou ações antes da consulta, o papel clássico das palavras‑chave muda: a consulta passará a ser apenas um sinal entre muitos. Isso traz impactos práticos para quem produz conteúdo e otimiza experiências digitais:

Otimize jornadas, não apenas entradas de busca: clareza na navegação, microcopy que orienta o próximo passo e fluxos lógicos ajudam modelos a entender intenção.
Mensure eventos e comportamentos: taps, scrolls, mudanças de tela e caminhos pelos menus podem virar sinais que alimentam a extração de intenção.
Priorize velocidade e consistência: experiências rápidas e previsíveis reduzem ruído e melhoram a qualidade das inferências on‑device.
Conserve a relevância das palavras‑chave: consultas continuam importantes, mas precisam estar alinhadas a jornadas claras que levem o usuário ao objetivo final.

Em suma, estratégias de SEO e conteúdo terão de combinar otimização de texto com projetos de experiência que facilitem interpretações corretas por modelos que observam o comportamento real do usuário.

O que vem a seguir

A pesquisa do Google aproxima a hipótese de assistentes proativos que atuam antes da consulta. Ainda há desafios: garantir equidade nas inferências, evitar vieses e regular o uso de sinais comportamentais serão pontos críticos. Para o mercado, a recomendação imediata é revisar a experiência do usuário: rotas claras, menos atrito e sinais comportamentais bem instrumentados podem se tornar tão valiosos quanto a própria otimização de palavras‑chave.

O estudo está disponível no blog de pesquisa do Google e deve orientar novas apostas em modelos multimodais pequenos, focados em inferência local e respeito à privacidade do usuário.

Carlos Rincon

Carlos Rincon – Professor de Fotografia e Pesquisador – Campinas | 1983Em meus trabalhos busco construir uma imagem utilizando um processos históricos da fotografia. A construção da imagem consiste no estudo fundamental no comportamento do ser humano na sociedade e na natureza que o circunda, tendo os princípios da sociologia e filosofia no comportamento humano e sociedade, base fundamental nas minhas pesquisas e fotografia. Há 22 anos sendo professor de fotografia, consigo obter um olhar e um processo criativo ainda mais apurado no âmbito da arte fotográfica devido a diversidade de temas que abordo diariamente.

Como o Google treina pequenos modelos multimodais no celular para adivinhar intenção do usuário antes da busca — e o impacto para SEO

Pesquisa do Google descreve um futuro pós‑consulta em que intentos são extraídos de comportamentos em apps e navegadores usando modelos pequenos e locais

Como funciona a decomposição da extração de intenção

Resultados, métricas e redução de alucinações

Privacidade, custo e desempenho: por que rodar no dispositivo importa

Implicações para SEO, Discover e marketing de conteúdo

O que vem a seguir

Deixe um comentário Cancelar resposta

Composição Fotográfica

Fotografia de Palco: Capture Momentos Únicos

Blog

10 itens indispensáveis que todo fotógrafo precisa levar em viagens

Composição Fotográfica

Fotografia de rua em Corpus Christi: guia completo para registrar a festa dos tapetes

Composição Fotográfica

Como criar fotografias que permanecem na memória: 9 princípios para retratos que não se esquecem

Equipamentos (Câmeras DSLR, Mirrorless, Lentes, Acessórios)

Canon RF 20-50mm f/4 L IS USM Power Zoom: a lente leve que pode redefinir rigs de vídeo

Composição Fotográfica

Por que voltar ao mesmo local dezenas de vezes transforma sua fotografia

Como o Google treina pequenos modelos multimodais no celular para adivinhar intenção do usuário antes da busca — e o impacto para SEO

Como o Google treina pequenos modelos multimodais no celular para adivinhar intenção do usuário antes da busca — e o impacto para SEO

Pesquisa do Google descreve um futuro pós‑consulta em que intentos são extraídos de comportamentos em apps e navegadores usando modelos pequenos e locais

Como funciona a decomposição da extração de intenção

Resultados, métricas e redução de alucinações

Privacidade, custo e desempenho: por que rodar no dispositivo importa

Implicações para SEO, Discover e marketing de conteúdo

O que vem a seguir

Deixe um comentário Cancelar resposta

posts Recentes

Composição Fotográfica

Fotografia de Palco: Capture Momentos Únicos

Blog

10 itens indispensáveis que todo fotógrafo precisa levar em viagens

Composição Fotográfica

Fotografia de rua em Corpus Christi: guia completo para registrar a festa dos tapetes

Composição Fotográfica

Como criar fotografias que permanecem na memória: 9 princípios para retratos que não se esquecem

Equipamentos (Câmeras DSLR, Mirrorless, Lentes, Acessórios)

Canon RF 20-50mm f/4 L IS USM Power Zoom: a lente leve que pode redefinir rigs de vídeo

Composição Fotográfica

Por que voltar ao mesmo local dezenas de vezes transforma sua fotografia