• Data Hackers Newsletter
  • Posts
  • WebMCP no Chrome: como o novo padrão transforma sites em ferramentas para agentes de IA

WebMCP no Chrome: como o novo padrão transforma sites em ferramentas para agentes de IA

Entenda o lançamento do Google que promete transformar a forma como agentes de IA se relacionam com sites

Quando um agente de IA visita um site, ele se comporta como um turista que não fala o idioma local. Seja construído com LangChain, Claude Code ou o cada vez mais popular framework OpenClaw, o agente precisa adivinhar quais botões pressionar: fazendo scraping de HTML bruto, capturando screenshots para modelos multimodais e consumindo milhares de tokens apenas para descobrir onde fica a barra de pesquisa.

Essa era pode estar chegando ao fim. No início desta semana, a equipe do Google Chrome lançou o WebMCP — Web Model Context Protocol — como uma prévia inicial no Chrome 146 Canary. Desenvolvido conjuntamente por engenheiros do Google e Microsoft e incubado através do grupo comunitário de Web Machine Learning do W3C, o WebMCP é um padrão web proposto que permite que qualquer site exponha ferramentas estruturadas e chamáveis diretamente para agentes de IA através de uma nova API do navegador: navigator.modelContext.

As implicações para TI corporativa são significativas. Em vez de construir e manter servidores MCP back-end separados em Python ou Node.js para conectar suas aplicações web a plataformas de IA, equipes de desenvolvimento agora podem encapsular sua lógica JavaScript client-side existente em ferramentas legíveis por agentes — sem reestruturar uma única página.

O problema atual: agentes de IA são turistas caros e frágeis na web

Os problemas de custo e confiabilidade com as abordagens atuais de interação web-agent (browser agents) são bem compreendidos por qualquer pessoa que os tenha implantado em escala. Os dois métodos dominantes — screen-scraping visual e parsing de DOM — sofrem de ineficiências fundamentais que afetam diretamente os orçamentos corporativos.

Com abordagens baseadas em screenshots, agentes passam imagens para modelos multimodais (como Claude e Gemini) e esperam que o modelo consiga identificar não apenas o que está na tela, mas onde botões, campos de formulário e elementos interativos estão localizados. Cada imagem consome milhares de tokens e pode ter alta latência. Com abordagens baseadas em DOM, agentes ingerem HTML e JavaScript brutos — uma linguagem estrangeira cheia de várias tags, regras CSS e marcação estrutural que é irrelevante para a tarefa em questão, mas ainda consome espaço na janela de contexto e custo de inferência.

Em ambos os casos, o agente está traduzindo entre aquilo para o qual o site foi projetado (olhos humanos) e o que o modelo precisa (dados estruturados sobre ações disponíveis). Uma única busca de produto que um humano completa em segundos pode exigir dezenas de interações sequenciais do agente — clicando em filtros, rolando páginas, analisando resultados — cada uma delas uma chamada de inferência que adiciona latência e custo.

Como o WebMCP funciona: duas APIs, um padrão

O WebMCP propõe duas APIs complementares que servem como ponte entre sites e agentes de IA.

API declarativa

A API Declarativa lida com ações padrão que podem ser definidas diretamente em formulários HTML existentes. Para organizações com formulários bem estruturados já em produção, este caminho requer trabalho adicional mínimo; ao adicionar nomes e descrições de ferramentas à marcação de formulários existente, desenvolvedores podem tornar esses formulários chamáveis por agentes. Se seus formulários HTML já estão limpos e bem estruturados, você provavelmente já está 80% do caminho.

API imperativa

A API Imperativa lida com interações mais complexas e dinâmicas que requerem execução JavaScript. É aqui que desenvolvedores definem schemas de ferramentas mais ricos — conceitualmente similares às definições de ferramentas enviadas para endpoints da API OpenAI ou Anthropic, mas executando inteiramente client-side no navegador. Através do registerTool(), um site pode expor funções como searchProducts(query, filters) ou orderPrints(copies, page_size) com schemas completos de parâmetros e descrições em linguagem natural.

A principal percepção é que uma única chamada de ferramenta através do WebMCP pode substituir o que seriam dezenas de interações browser-use. Um site de e-commerce que registra uma ferramenta searchProducts permite que o agente faça uma chamada de função estruturada e receba resultados JSON estruturados, em vez de ter o agente clicando através de dropdowns de filtros, rolando resultados paginados e capturando screenshots de cada página.

O caso empresarial: custo, confiabilidade e o fim do scraping frágil

Para tomadores de decisão de TI avaliando implantações de IA agêntica, o WebMCP aborda três pontos de dor persistentes simultaneamente.

Redução de custos

A redução de custos é o benefício mais imediatamente quantificável. Ao substituir sequências de capturas de screenshots, chamadas de inferência multimodal e parsing iterativo de DOM por chamadas de ferramentas estruturadas únicas, organizações podem esperar reduções significativas no consumo de tokens.

Melhoria na confiabilidade

A confiabilidade melhora porque agentes não estão mais adivinhando sobre a estrutura da página. Quando um site publica explicitamente um contrato de ferramenta — "aqui estão as funções que suporto, aqui estão seus parâmetros, aqui está o que elas retornam" — o agente opera com certeza em vez de inferência. Interações falhas devido a mudanças na UI, carregamento dinâmico de conteúdo ou identificação ambígua de elementos são amplamente eliminadas para qualquer interação coberta por uma ferramenta registrada.

Aceleração do desenvolvimento

A velocidade de desenvolvimento acelera porque equipes web podem aproveitar seu JavaScript front-end existente em vez de criar infraestrutura backend separada. A especificação enfatiza que qualquer tarefa que um usuário pode realizar através da UI de uma página pode ser transformada em uma ferramenta reutilizando muito do código JavaScript existente da página. Equipes não precisam aprender novos frameworks de servidor ou manter superfícies de API separadas para consumidores agentes.

Human-in-the-loop por design, não como recurso adicional

Uma decisão arquitetural crítica separa o WebMCP do paradigma de agente totalmente autônomo que tem dominado manchetes recentes. O padrão é explicitamente projetado em torno de fluxos de trabalho cooperativos, human-in-the-loop — não automação não supervisionada.

Segundo Khushal Sagar, staff software engineer do Chrome, a especificação WebMCP identifica três pilares que sustentam essa filosofia:

Pilar

Descrição

Contexto

Todos os dados que agentes precisam para entender o que o usuário está fazendo, incluindo conteúdo que frequentemente não está visível na tela

Capacidades

Ações que o agente pode realizar em nome do usuário, desde responder perguntas até preencher formulários

Coordenação

Controlar a transição entre usuário e agente quando o agente encontra situações que não pode resolver autonomamente

Os autores da especificação no Google e Microsoft ilustram isso com um cenário de compras: uma usuária chamada Maya pede à sua assistente de IA para ajudar a encontrar um vestido ecológico para um casamento. O agente sugere fornecedores, abre um navegador para um site de vestidos e descobre que a página expõe ferramentas WebMCP como getDresses() e showDresses(). Quando os critérios de Maya vão além dos filtros básicos do site, o agente chama essas ferramentas para buscar dados de produtos, usa seu próprio raciocínio para filtrar por "apropriado para coquetel" e então chama showDresses() para atualizar a página com apenas os resultados relevantes. É um loop fluido de gosto humano e capacidade de agente, exatamente o tipo de navegação colaborativa que o WebMCP foi projetado para habilitar.

Este não é um padrão de navegação headless. A especificação afirma explicitamente que cenários headless e totalmente autônomos são não-objetivos. Para esses casos de uso, os autores apontam para protocolos existentes como o protocolo Agent-to-Agent (A2A) do Google. WebMCP é sobre o navegador — onde o usuário está presente, observando e colaborando.

Não é substituição para MCP, mas um complemento

O WebMCP não é uma substituição para o Model Context Protocol da Anthropic, apesar de compartilhar uma linhagem conceitual e uma porção de seu nome. Ele não segue a especificação JSON-RPC que o MCP usa para comunicação cliente-servidor. Onde o MCP opera como um protocolo back-end conectando plataformas de IA a provedores de serviços através de servidores hospedados, o WebMCP opera inteiramente client-side dentro do navegador.

A relação é complementar. Uma empresa de viagens pode manter um servidor MCP back-end para integrações diretas de API com plataformas de IA como ChatGPT ou Claude, enquanto simultaneamente implementa ferramentas WebMCP em seu site voltado ao consumidor para que agentes baseados em navegador possam interagir com seu fluxo de reservas no contexto da sessão ativa de um usuário. Os dois padrões servem diferentes padrões de interação sem conflito.

A distinção importa para arquitetos corporativos. Integrações MCP back-end são apropriadas para automação serviço-a-serviço onde nenhuma UI de navegador é necessária. WebMCP é apropriado quando o usuário está presente e a interação se beneficia de contexto visual compartilhado — o que descreve a maioria das interações web voltadas ao consumidor que empresas se importam.

O que vem a seguir: da flag ao padrão

O WebMCP está atualmente disponível no Chrome 146 Canary atrás da flag "WebMCP for testing" em chrome://flags. Desenvolvedores podem participar do Chrome Early Preview Program para acesso a documentação e demos. Outros navegadores ainda não anunciaram cronogramas de implementação, embora a coautoria ativa da Microsoft na especificação sugira que suporte no Edge é provável.

Observadores da indústria esperam anúncios formais de navegadores até meados ou final de 2026, com Google Cloud Next e Google I/O como prováveis venues para anúncios de lançamento mais amplo. A especificação está em transição de incubação comunitária dentro do W3C para um rascunho formal — um processo que historicamente leva meses, mas sinaliza compromisso institucional sério.

A comparação que Sagar traçou é instrutiva: o WebMCP visa se tornar o USB-C das interações de agentes de IA com a web. Uma única interface padronizada na qual qualquer agente pode se conectar, substituindo o emaranhado atual de estratégias de scraping sob medida e scripts de automação frágeis.

FAQ: Perguntas frequentes sobre WebMCP

O que é WebMCP?
WebMCP (Web Model Context Protocol) é um padrão web proposto que permite sites exporem ferramentas estruturadas diretamente para agentes de IA através do navegador, sem necessidade de scraping ou screenshots.

WebMCP substitui o MCP da Anthropic?
Não. O WebMCP é complementar ao MCP. Enquanto o MCP opera como protocolo back-end para integrações servidor-a-servidor, o WebMCP funciona client-side no navegador para interações com usuário presente.

Quais navegadores suportam WebMCP?
Atualmente, o WebMCP está disponível como preview no Chrome 146 Canary. Outros navegadores ainda não anunciaram suporte, mas a participação da Microsoft no desenvolvimento sugere implementação futura no Edge.

Como o WebMCP reduz custos de IA?
Ao substituir múltiplas capturas de tela e parsing de HTML por chamadas de função estruturadas, o WebMCP reduz drasticamente o consumo de tokens e chamadas de inferência necessárias para agentes interagirem com sites.

Preciso reescrever meu site para usar WebMCP?
Não necessariamente. Para formulários HTML bem estruturados, mudanças mínimas são necessárias. Para interações mais complexas, você pode encapsular JavaScript existente em ferramentas registradas sem refatoração completa.

Se essa mudança será realizada depende da adoção — tanto por fornecedores de navegadores quanto por desenvolvedores web. Mas com Google e Microsoft conjuntamente entregando código, o W3C fornecendo estrutura institucional e o Chrome 146 já executando a implementação atrás de uma flag, o WebMCP superou o obstáculo mais difícil que qualquer padrão web enfrenta: sair da proposta para software funcionando.

A era dos agentes de IA como turistas perdidos na web pode estar finalmente chegando ao fim. Com o WebMCP, cada site pode se tornar uma ferramenta estruturada, legível e confiável para a próxima geração de assistentes inteligentes.