- Data Hackers Newsletter
- Posts
- WebMCP no Chrome: como o novo padrão transforma sites em ferramentas para agentes de IA
WebMCP no Chrome: como o novo padrão transforma sites em ferramentas para agentes de IA
Entenda como o WebMCP faz com que agentes de IA consigam enxergar e interagir com sites de forma eficiente
Quando um agente de IA visita um site, ele é basicamente um turista que não fala o idioma local. Seja construído com LangChain, Claude Code ou o cada vez mais popular framework OpenClaw, o agente fica reduzido a adivinhar quais botões pressionar: fazendo scraping de HTML bruto, tirando screenshots para modelos multimodais e consumindo milhares de tokens apenas para descobrir onde está a barra de busca.
Essa era pode estar chegando ao fim. No início desta semana, a equipe do Google Chrome lançou o WebMCP — Web Model Context Protocol — como uma prévia inicial no Chrome 146 Canary. O WebMCP, desenvolvido em conjunto por engenheiros do Google e da Microsoft e incubado através do grupo comunitário de aprendizado de máquina da web do W3C, é um padrão web proposto que permite que qualquer site exponha ferramentas estruturadas e chamáveis diretamente para agentes de IA através de uma nova API de navegador: navigator.modelContext.
As implicações para TI empresarial são significativas. Em vez de construir e manter servidores MCP separados em Python ou Node.js para conectar suas aplicações web a plataformas de IA, as equipes de desenvolvimento agora podem envolver sua lógica JavaScript existente do lado do cliente em ferramentas legíveis por agentes — sem rearquitetar uma única página.
Por que agentes de IA são turistas caros e frágeis na web
Os problemas de custo e confiabilidade com as abordagens atuais de interação web-agente são bem compreendidos por qualquer pessoa que os tenha implantado em escala. Os dois métodos dominantes — screen-scraping visual e parsing de DOM — sofrem de ineficiências fundamentais que afetam diretamente os orçamentos empresariais.
Abordagem baseada em screenshots
Com abordagens baseadas em screenshots, os agentes passam imagens para modelos multimodais (como Claude e Gemini) e esperam que o modelo possa identificar não apenas o que está na tela, mas onde estão os botões, campos de formulário e elementos interativos. Cada imagem consome milhares de tokens e pode ter alta latência.
Abordagem baseada em DOM
Com abordagens baseadas em DOM, os agentes ingerem HTML e JavaScript brutos — uma linguagem estrangeira cheia de várias tags, regras CSS e marcação estrutural que é irrelevante para a tarefa em questão, mas ainda consome espaço de contexto e custo de inferência.
Em ambos os casos, o agente está traduzindo entre o que o site foi projetado (olhos humanos) e o que o modelo precisa (dados estruturados sobre ações disponíveis). Uma única pesquisa de produto que um humano completa em segundos pode exigir dezenas de interações sequenciais do agente — clicando em filtros, rolando páginas, analisando resultados — cada uma delas uma chamada de inferência que adiciona latência e custo.
Como o WebMCP funciona: duas APIs, um padrão
O WebMCP propõe duas APIs complementares que servem como ponte entre sites e agentes de IA.
Declarative API
A Declarative API lida com ações padrão que podem ser definidas diretamente em formulários HTML existentes. Para organizações com formulários bem estruturados já em produção, esse caminho requer trabalho adicional mínimo; ao adicionar nomes e descrições de ferramentas à marcação de formulário existente, os desenvolvedores podem tornar esses formulários chamáveis por agentes. Se seus formulários HTML já são limpos e bem estruturados, você provavelmente já está 80% do caminho.
Imperative API
A Imperative API lida com interações mais complexas e dinâmicas que requerem execução de JavaScript. É aqui que os desenvolvedores definem esquemas de ferramentas mais ricos — conceitualmente semelhantes às definições de ferramentas enviadas aos endpoints da API OpenAI ou Anthropic, mas executando inteiramente do lado do cliente no navegador. Através do registerTool(), um site pode expor funções como searchProducts(query, filters) ou orderPrints(copies, page_size) com esquemas de parâmetros completos e descrições em linguagem natural.
A principal percepção é que uma única chamada de ferramenta através do WebMCP pode substituir o que poderiam ter sido dezenas de interações de uso do navegador. Um site de e-commerce que registra uma ferramenta searchProducts permite que o agente faça uma chamada de função estruturada e receba resultados JSON estruturados, em vez de fazer o agente clicar através de dropdowns de filtro, rolar através de resultados paginados e fazer screenshot de cada página.
O caso empresarial: custo, confiabilidade e o fim do scraping frágil
Para tomadores de decisão de TI avaliando implantações de IA agêntica, o WebMCP aborda três pontos de dor persistentes simultaneamente.
Redução de custos
A redução de custos é o benefício mais imediatamente quantificável. Ao substituir sequências de capturas de screenshot, chamadas de inferência multimodal e parsing iterativo de DOM por chamadas de ferramenta estruturadas únicas, as organizações podem esperar reduções significativas no consumo de tokens.
Melhoria na confiabilidade
A confiabilidade melhora porque os agentes não estão mais adivinhando sobre a estrutura da página. Quando um site publica explicitamente um contrato de ferramenta — "aqui estão as funções que suporto, aqui estão seus parâmetros, aqui está o que eles retornam" — o agente opera com certeza em vez de inferência. Interações falhas devido a mudanças de UI, carregamento de conteúdo dinâmico ou identificação ambígua de elementos são amplamente eliminadas para qualquer interação coberta por uma ferramenta registrada.
Aceleração no desenvolvimento
A velocidade de desenvolvimento acelera porque as equipes web podem aproveitar seu JavaScript front-end existente em vez de criar infraestrutura backend separada. A especificação enfatiza que qualquer tarefa que um usuário pode realizar através da UI de uma página pode ser transformada em uma ferramenta reutilizando grande parte do código JavaScript existente da página. As equipes não precisam aprender novos frameworks de servidor ou manter superfícies de API separadas para consumidores de agentes.
Human-in-the-loop por design, não uma reflexão tardia
Uma decisão arquitetural crítica separa o WebMCP do paradigma de agente totalmente autônomo que dominou as manchetes recentes. O padrão é explicitamente projetado em torno de fluxos de trabalho cooperativos com human-in-the-loop — não automação não supervisionada.
Segundo Khushal Sagar, engenheiro de software sênior do Chrome, a especificação WebMCP identifica três pilares que sustentam essa filosofia:
Pilar | Descrição |
|---|---|
Contexto | Todos os dados que os agentes precisam para entender o que o usuário está fazendo, incluindo conteúdo que muitas vezes não está atualmente visível na tela |
Capacidades | Ações que o agente pode realizar em nome do usuário, desde responder perguntas até preencher formulários |
Coordenação | Controlar a transição entre usuário e agente quando o agente encontra situações que não pode resolver autonomamente |
Os autores da especificação no Google e Microsoft ilustram isso com um cenário de compras: uma usuária chamada Maya pede ao seu assistente de IA para ajudá-la a encontrar um vestido ecológico para um casamento. O agente sugere fornecedores, abre um navegador para um site de vestidos e descobre que a página expõe ferramentas WebMCP como getDresses() e showDresses(). Quando os critérios de Maya vão além dos filtros básicos do site, o agente chama essas ferramentas para buscar dados do produto, usa seu próprio raciocínio para filtrar "apropriado para traje de coquetel" e então chama showDresses() para atualizar a página com apenas os resultados relevantes. É um loop fluido de gosto humano e capacidade do agente, exatamente o tipo de navegação colaborativa que o WebMCP foi projetado para permitir.
Isso não é um padrão de navegação headless. A especificação declara explicitamente que cenários headless e totalmente autônomos são não-objetivos. Para esses casos de uso, os autores apontam para protocolos existentes como o protocolo Agent-to-Agent (A2A) do Google. O WebMCP é sobre o navegador — onde o usuário está presente, observando e colaborando.
Não é um substituto para MCP, mas um complemento
O WebMCP não é um substituto para o Model Context Protocol da Anthropic, apesar de compartilhar uma linhagem conceitual e uma parte de seu nome. Ele não segue a especificação JSON-RPC que o MCP usa para comunicação cliente-servidor. Enquanto o MCP opera como um protocolo back-end conectando plataformas de IA a provedores de serviços através de servidores hospedados, o WebMCP opera inteiramente do lado do cliente dentro do navegador.
Comparação MCP vs WebMCP
Aspecto | MCP | WebMCP |
|---|---|---|
Localização | Back-end (servidor) | Client-side (navegador) |
Protocolo | JSON-RPC | APIs JavaScript |
Caso de uso | Integrações serviço-a-serviço | Interações web com usuário presente |
Contexto | APIs diretas | Navegação colaborativa |
O relacionamento é complementar. Uma empresa de viagens pode manter um servidor MCP back-end para integrações diretas de API com plataformas de IA como ChatGPT ou Claude, enquanto simultaneamente implementa ferramentas WebMCP em seu site voltado ao consumidor para que agentes baseados em navegador possam interagir com seu fluxo de reservas no contexto da sessão ativa de um usuário. Os dois padrões servem diferentes padrões de interação sem conflito.
A distinção importa para arquitetos empresariais. Integrações MCP back-end são apropriadas para automação serviço-a-serviço onde nenhuma UI de navegador é necessária. O WebMCP é apropriado quando o usuário está presente e a interação se beneficia do contexto visual compartilhado — o que descreve a maioria das interações web voltadas ao consumidor com as quais as empresas se preocupam.
O que vem a seguir: de flag experimental a padrão
O WebMCP está atualmente disponível no Chrome 146 Canary por trás da flag "WebMCP for testing" em chrome://flags. Os desenvolvedores podem participar do Chrome Early Preview Program para acesso a documentação e demos. Outros navegadores ainda não anunciaram cronogramas de implementação, embora a coautoria ativa da Microsoft da especificação sugira que o suporte do Edge é provável.
Observadores da indústria esperam anúncios formais de navegadores em meados ou final de 2026, com o Google Cloud Next e Google I/O como locais prováveis para anúncios de implementação mais amplos. A especificação está em transição de incubação comunitária dentro do W3C para um rascunho formal — um processo que historicamente leva meses, mas sinaliza um compromisso institucional sério.
Perguntas frequentes sobre WebMCP
O que é WebMCP?
WebMCP (Web Model Context Protocol) é um padrão web proposto que permite que sites exponham ferramentas estruturadas diretamente para agentes de IA através de APIs de navegador.
WebMCP substitui o MCP da Anthropic?
Não. WebMCP é complementar ao MCP. Enquanto o MCP opera no back-end para integrações serviço-a-serviço, o WebMCP opera no client-side para interações web com usuário presente.
Quais navegadores suportam WebMCP?
Atualmente, o WebMCP está disponível como prévia no Chrome 146 Canary. O suporte do Edge é esperado, dado o envolvimento da Microsoft no desenvolvimento do padrão.
Como WebMCP reduz custos?
Ao substituir múltiplas chamadas de screenshot e parsing de DOM por chamadas de ferramenta estruturadas únicas, o WebMCP reduz significativamente o consumo de tokens e a latência.
WebMCP permite agentes totalmente autônomos?
Não. O WebMCP é explicitamente projetado para fluxos de trabalho cooperativos com human-in-the-loop, não para automação não supervisionada.
Conclusão: o USB-C das interações de IA com a web
A comparação que Sagar traçou é instrutiva: o WebMCP visa se tornar o USB-C das interações de agentes de IA com a web. Uma interface única e padronizada na qual qualquer agente pode se conectar, substituindo o atual emaranhado de estratégias de scraping sob medida e scripts de automação frágeis.
Se essa visão será realizada depende da adoção — tanto por fornecedores de navegadores quanto por desenvolvedores web. Mas com Google e Microsoft lançando código em conjunto, o W3C fornecendo estrutura institucional e o Chrome 146 já executando a implementação por trás de uma flag, o WebMCP superou o obstáculo mais difícil que qualquer padrão web enfrenta: sair da proposta para software funcionando.
Para empresas que já investem em agentes de IA ou planejam fazê-lo, o WebMCP representa uma oportunidade de construir interações mais confiáveis, econômicas e sustentáveis entre seus sistemas e plataformas de IA. À medida que o padrão evolui de experimental para mainstream nos próximos meses, vale a pena acompanhar seu desenvolvimento e considerar como suas aplicações web podem se beneficiar dessa nova capacidade.