Por que páginas só para LLMs (llms.txt, .md, /ai) não aumentam citações de IA — e o que realmente funciona para aparecer no Discover

Por que páginas só para LLMs (llms.txt, .md, /ai) não aumentam citações de IA — e o que realmente funciona para aparecer no Discover

Dados recentes, experimentos e declarações de plataformas explicam por que a solução LLM-only é mito — e onde direcionar esforços de SEO e conteúdo

Em 2026 uma nova moda surgiu entre equipes de conteúdo: criar versões das páginas pensadas apenas para modelos de linguagem (LLMs). A ideia é simples: oferecer arquivos limpos — llms.txt, cópias .md, pastas /ai/ ou feeds JSON — para que chatbots como ChatGPT, Perplexity e ferramentas de pesquisa com IA citem mais o site. Na prática, testes e grandes análises indicam que o formato por si só não gera vantagens.

A moda das páginas ‘visíveis só para máquinas’

Empresas de tecnologia e documentação começaram a publicar variantes das suas páginas com HTML mínimo ou dados estruturados acessíveis via JSON. Exemplos citados publicamente incluem Stripe, Cloudflare, Coinbase, Zapier, Supabase e Vercel, que adotaram arquivos llms.txt, e sites que expõem cópias .md ou diretórios /ai/ com conteúdo reformulado.

O argumento a favor: remover menus, anúncios e JavaScript facilitaria a leitura pelos crawlers de IA. Projetos como o llms.txt, proposto por Simon Willison, tornaram esse processo simples — um arquivo de texto na raiz do domínio com links e descrições. Já varejistas e SaaS optaram por feeds JSON para expor catálogos e especificações de produto.

O que os testes revelam: formato não é vantagem

Dois levantamentos com métodos diferentes convergem para a mesma conclusão: o que importa é o conteúdo — se for único e útil — e não o arquivo onde ele aparece.

Em um experimento conduzido por Malte Landwehr (Peec AI), quase 18.000 citações geradas por prompts direcionados foram analisadas. Resultado resumido:

  • llms.txt: apenas 0,03% das citações (6 de ~18.000) apontaram para arquivos llms.txt; os poucos que funcionaram tinham informação técnica realmente útil.
  • .md (cópias Markdown): 0% das citações identificaram as versões .md — exceção de sites como o GitHub, onde o .md é a URL padrão.
  • /ai e caminhos semelhantes: variaram de 0,5% a 16% de citações, com melhor desempenho quando a versão /ai/ tinha informação exclusiva não disponível em outras páginas.
  • Feeds JSON/metadados: cerca de 5% em um caso citado — novamente quando o arquivo trazia dados exclusivos.

Em suma: os arquivos foram citados quando continham informação que não existia em nenhuma outra página do site. O formato, por si só, não foi determinante.

Visão em escala: 300 mil domínios e um modelo preditivo

O relatório da SE Ranking examinou 300.000 domínios e constatou que apenas 10,13% implementavam llms.txt. A adoção não era maior entre sites maiores; domínios com mais tráfego tinham até taxa de adoção ligeiramente menor.

Ao treinar um modelo XGBoost para prever frequência de citações, a inclusão da presença de llms.txt reduziu a precisão do modelo — ou seja, o arquivo adicionava ruído às previsões. Conclusão parecida: llms.txt não ajudou a explicar onde as IAs estavam citando conteúdo.

O que dizem Google e outras plataformas

Analistas e engenheiros de plataformas também comentaram publicamente. John Mueller, do Google, afirmou que LLM-only pages são desnecessárias porque LLMs já foram treinados e continuam a ler páginas web normais. Ele comparou os arquivos específicos à antiga meta tag de keywords: algo disponível, mas ignorado.

Gary Illyes, também do Google, deixou claro que a empresa não suporta llms.txt e não pretende fazê-lo. Enquanto isso, algumas empresas de IA mantêm arquivos llms.txt próprios para facilitar integração de desenvolvedores, mas isso não é equivalente a rastrear esses arquivos em sites alheios.

Onde concentrar esforços: recomendações práticas

Em vez de construir versões “somente para máquinas”, equipes de conteúdo e SEO devem priorizar práticas que beneficiam usuários e modelos de IA ao mesmo tempo:

  • Crie HTML limpo e bem estruturado: títulos claros, subtítulos e parágrafos objetivos ajudam tanto pessoas quanto sistemas a entender o conteúdo.
  • Reduza dependência de JavaScript para conteúdo crítico: muitas plataformas de IA ainda enfrentam dificuldades com heavy client-side rendering.
  • Use dados estruturados oficiais quando existirem especificações públicas (por exemplo, feeds de ecommerce documentados por provedores de IA).
  • Garanta que informação importante esteja descoberta na arquitetura do site — páginas bem organizadas são mais propensas a serem indexadas corretamente.
  • Ofereça conteúdo único e autoritativo: se uma /ai ou um feed JSON contém dados exclusivos, esses arquivos terão valor — mas pelo conteúdo, não pelo rótulo “LLM”.

Em outras palavras: a melhor página para ser citada por uma IA é a mesma que funciona para um usuário humano — clara, completa e tecnicamente acessível.

Conclusão

Os testes e análises atuais deixam claro que páginas criadas apenas para modelos de linguagem não são atalho confiável para visibilidade em resultados gerados por IA. O diferencial não é o sufixo da URL nem um arquivo especial, mas a qualidade, exclusividade e acessibilidade da informação. Até que plataformas de IA publiquem requisitos formais em contrário, a aposta mais segura é otimizar para pessoas — e para uma web técnica bem-feita — em vez de construir bibliotecas ocultas só para máquinas.

Deixe um comentário