SearchGuard: como o Google detecta bots em tempo real — o que o processo contra SerpAPI revela sobre criptografia, sinais comportamentais e o futuro do SEO
Análise do BotGuard decompilado mostra comportamento, fingerprinting e um sistema que invalida contornos em minutos — e joga luz sobre a ação judicial contra um importante fornecedor de dados para IA
O processo que o Google abriu contra a texana SerpAPI em dezembro expôs, pela primeira vez em detalhes técnicos, como o mecanismo de proteção conhecido como SearchGuard (a aplicação de BotGuard ao Search) identifica comportamentos automatizados em tempo real. A partir da deobfuscação do script — identificado como versão 41 do BotGuard — é possível traçar como Google separa humanos de robôs, por que contornos costumam falhar rapidamente e quais são as consequências para ferramentas de scraping, provedores de dados e publishers.
O que aconteceu e por que importa
Em 19 de dezembro, o Google processou a SerpAPI alegando que a empresa contornou medidas técnicas para coletar resultados de busca em escala (centenas de milhões de consultas por dia). Em vez de centrar a ação em violações de termos de serviço, o Google baseou-se no artigo 1201 do DMCA — a proibição de circunvenção de medidas de proteção tecnológica — argumentando que SearchGuard é uma medida tecnológica protegida.
O caso tem alcance prático e estratégico: além de atingir um fornecedor de dados, o processo atinge uma peça-chave da cadeia que abasteceu produtos de IA com resultados de busca em tempo real. A ligação com a OpenAI — que chegou a constar cliente da SerpAPI — torna o movimento especialmente relevante para quem desenvolve ferramentas que dependem de dados frescos da web.
Quatro categorias de sinais que determinam se você é humano
O núcleo do sistema é a análise contínua de sinais comportamentais. O script monitora quatro categorias principais em tempo real e aplica limiares estatísticos para decidir se um visitante é humano ou automatizado:
- Movimentos do mouse: trajetórias, velocidade, aceleração e micro-tremores. Movimentos retos e velocidade constante são suspeitos; humanos exibem curvas, aceleração e variação. Exemplo observado: variância de velocidade abaixo de 10 aciona sinal de bot; humanos típicos ficam entre 50 e 500.
- Ritmo de digitação: intervalo entre teclas, duração da pressão, padrões de erro e pausas após pontuação. Máquinas tendem a ter consistência sub-10ms; humanos mostram variância bem maior. Limiar identificado: duração de tecla com variância menor que 5ms sugere automação.
- Comportamento de rolagem: amplitude, mudanças de direção, timing e suavidade. Rolagens programáticas costumam ser regulares (ex.: 100px, 100px, 100px) e isso é sinalizado. Variância de delta de scroll abaixo de 5px é alerta; humanos ficam entre 20 e 100px.
- Jitter temporal (timing): medidas de variação temporal entre eventos. O sistema calcula variância em tempo real; sequências com quase zero variância ou taxas superiores a 200 eventos por segundo são típicas de automação. Usuários humanos normalmente geram 10 a 50 eventos por segundo.
Fingerprinting do DOM e dados do ambiente
Além do comportamento, SearchGuard constrói um fingerprint do navegador e do documento. O script monitora mais de 100 elementos DOM — priorizando formulários e elementos interativos — e coleta propriedades do ambiente como:
- navigator: userAgent, languages, platform, hardwareConcurrency, deviceMemory, maxTouchPoints;
- propriedades de tela: largura, altura, colorDepth, devicePixelRatio;
- performance APIs: precision de performance.now(), timeOrigin e jitter dos temporizadores;
- visibilidade e foco: document.hidden, visibilityState, hasFocus();
- indicadores de ferramentas de automação: navigator.webdriver, assinaturas do ChromeDriver, Puppeteer, Selenium e PhantomJS.
Esses dados ajudam a detectar instâncias headless, drivers com artefatos conhecidos e ambientes que não se comportam como navegadores humanos reais.
Criptografia dinâmica: por que contornos duram minutos
Uma descoberta central é que o sistema gera tokens criptografados usando um esquema ARX (Addition-Rotation-XOR) otimizado para software. O que torna o mecanismo resistente a contornos é a rotação de uma constante mágica embutida no algoritmo. Quando o script é atualizado (cada arquivo servido com um hash de integridade distinto), essa constante muda e qualquer implementação externa que reproduza a lógica deixa de funcionar rápido.
Observações práticas mostraram mudanças de constantes em minutos — um mecanismo deliberado para transformar uma engenharia reversa em um esforço contínuo e caro para quem tenta burlar o sistema.
Algoritmos estatísticos: Welford e amostragem em reservatório
Para analisar sinais em escala sem armazenar tudo, o script usa duas técnicas estatísticas bem estabelecidas:
- Welford: calcula média e variância em tempo real com consumo constante de memória, atualizando estatísticas conforme cada evento chega.
- Reservoir sampling: mantém uma amostra aleatória de tamanho fixo (observada em 50 eventos por métrica) para estimar medianas e padrões sem reter todos os eventos.
Combinadas, as técnicas permitem comparar perfis individuais contra distribuições humanas conhecidas, independentemente do volume total de eventos processados.
Essa arquitetura — sinais finos de comportamento, fingerprinting amplo, criptografia rotativa e estatística eficiente — é o que torna SearchGuard um obstáculo robusto para raspadores convencionais.
Resposta da SerpAPI: o CEO da SerpAPI afirmou que a empresa fornece dados públicos que qualquer usuário vê no navegador e que não foi contatada antes da ação judicial. A argumentação legal do Google, porém, foca na circunvenção de uma medida técnica, não apenas no acesso a conteúdo público — um ponto que pode ser decisivo no tribunal.
Conexão com a OpenAI e implicações estratégicas: relatórios indicam que a OpenAI chegou a figurar como cliente da SerpAPI, que forneceu resultados do Google para alimentar respostas em tempo real. O processo atinge, assim, um elo da cadeia que abastecia concorrentes do Google com dados de busca em tempo real, sem atacar diretamente grandes players de IA.
O que isso muda para SEO, publishers e desenvolvedores:
- Ferramentas que raspam SERPs enfrentam barreiras técnicas e legais maiores. A complexidade e a necessidade de manter contornos ativos a cada atualização tornam o custo operacional muito mais alto.
- Alterações aparentemente pequenas (como remover parâmetros que permitiam 100 resultados por requisição) pressionam financeiramente raspadores, forçando mais requisições e custo maior por dado.
- Se SearchGuard for reconhecido como medida tecnológica protegida pelo DMCA, isso poderá criar precedentes que autorizem plataformas a adotar proteções semelhantes com respaldo legal.
- Para publishers, o dilema persiste: controles limitados para evitar que conteúdos alimentem modelos de IA; bloquear o Googlebot significa perder visibilidade. As opções de opt-out para treinamentos de IA são parciais e não abrangem todas as aplicações de busca.
Em suma, o documento técnico decodificado do BotGuard mostra um ecossistema onde o Google combina análise comportamental refinada, fingerprinting abrangente e criptografia dinâmica para proteger sua indexação. A ação contra a SerpAPI testa na prática os limites legais dessa proteção e pode redesenhar o ambiente em que ferramentas de SEO, empresas de dados e produtos de IA operam.
Enquanto os tribunais decidem, a mensagem é clara: contornar SearchGuard é tecnicamente difícil, economicamente custoso e juridicamente arriscado. Para desenvolvedores e empresas, isso exige repensar estratégias de acesso a dados de busca — e para os reguladores e juízes, coloca-se a tarefa de equilibrar propriedade, concorrência e inovação.
Leitura adicional recomendada: documentação do processo Google LLC v. SerpApi e a análise técnica completa do BotGuard (versão 41), que embasou esta reportagem.






