O que é Prompt Injection: entendendo um desafio de segurança em IA

Conheça uma das técnicas de ataques mais famosas que existem em agentes de IA

As ferramentas de IA estão evoluindo rapidamente e começando a fazer muito mais do que apenas responder perguntas. Hoje, elas podem navegar pela web, ajudar com pesquisas, planejar viagens e auxiliar na compra de produtos. À medida que se tornam mais capazes, com a habilidade de acessar seus dados em outros aplicativos e tomar ações em seu nome, novos desafios de segurança surgem. Um dos focos principais da OpenAI e de toda a indústria de IA é o prompt injection.

O que é prompt injection?

Prompt injection é um tipo de ataque de engenharia social específico para IA conversacional. Nos primeiros sistemas de IA, as conversas eram simples interações entre um único usuário e um único agente de IA. Nos produtos de IA atuais, sua conversa pode incluir conteúdo de diversas fontes, incluindo a internet. A ideia de que um terceiro (que não é nem o usuário nem a IA) poderia enganar o modelo injetando instruções maliciosas no contexto da conversa levou ao termo "prompt injection".

Da mesma forma que e-mails de phishing ou golpes na web tentam enganar pessoas para que revelem informações sensíveis, os ataques de prompt injection tentam enganar as IAs para que façam algo que você não pediu.

Prompt Injection é quando um atacante insere instruções não existentes antes em um agente de IA

Como funciona um ataque de prompt injection?

Imagine que você pediu a uma IA para ajudá-lo a pesquisar destinos de férias online e, enquanto está fazendo isso, ela encontra conteúdo enganoso ou instruções maliciosas ocultas em uma página web, como em um comentário em uma listagem ou em uma avaliação. O conteúdo pode ser cuidadosamente elaborado na tentativa de enganar a IA para recomendar a listagem errada ou, pior, roubar as informações do seu cartão de crédito.

Estes são apenas alguns exemplos de ataques de "prompt injection" — instruções prejudiciais projetadas para enganar uma IA a fazer algo que você não pretendia, frequentemente escondidas dentro de conteúdo comum como uma página web, documento ou e-mail.

Esses riscos aumentam à medida que as IAs têm acesso a dados mais sensíveis e assumem mais iniciativa em tarefas longas e complexas.

Exemplos práticos de ataques de prompt injection

Cenário

O que você pediu à IA

O que o atacante faz

Resultado potencial se o ataque for bem-sucedido

Pesquisa de apartamentos

Você pede a uma IA para pesquisar apartamentos com critérios específicos

O atacante incluiu um prompt injection na listagem do apartamento para enganar a IA a recomendar sua listagem independentemente das preferências declaradas pelo usuário

A IA pode recomendar incorretamente um apartamento sub-ótimo baseado em suas preferências

Resposta a e-mails

Você pede a um agente de IA para responder seus e-mails da noite anterior porque está ocupado pela manhã

O atacante enviou um e-mail com desinformação que engana o modelo a encontrar seus extratos bancários e compartilhá-los com o atacante

O agente pode procurar por extratos bancários em seu e-mail e compartilhá-los com o atacante

A abordagem da OpenAI para proteção dos usuários

Prompt Injection: melhor alternativa de defesa é uma mistura de cuidados de segurança humana e IA

Defender-se contra prompt injection é um desafio em toda a indústria de IA e um foco central na OpenAI. Embora a empresa espere que adversários continuem desenvolvendo tais ataques, está construindo defesas projetadas para realizar a tarefa pretendida pelo usuário mesmo quando alguém está ativamente tentando enganá-lo.

Camadas de proteção implementadas

1. Treinamento de segurança (Safety training)

A OpenAI desenvolve IAs que reconhecem prompt injections e não caem nelas. A empresa desenvolveu uma pesquisa chamada Instruction Hierarchy para trabalhar em direção a modelos que distinguem entre instruções confiáveis e não confiáveis. Continuam desenvolvendo novas abordagens para treinar modelos a reconhecer melhor padrões de prompt injection para que possam ignorá-los ou sinalizá-los aos usuários. Uma das técnicas aplicadas é o red-teaming automatizado, uma área que vêm estudando há anos, para desenvolver novos ataques de prompt injection.

2. Monitoramento

A OpenAI desenvolveu múltiplos monitores automatizados alimentados por IA para identificar e bloquear ataques de prompt injection. Esses complementam as abordagens de treinamento de segurança porque podem ser atualizados rapidamente para bloquear novos ataques descobertos. Esses monitores não apenas ajudam a identificar potenciais ataques de prompt injection contra usuários, mas também podem permitir detectar pesquisas e testes adversariais de prompt injection usando a plataforma, antes que esses ataques sejam implantados.

3. Proteções de segurança

A empresa projetou seus produtos e infraestrutura com várias proteções de segurança sobrepostas para ajudar a proteger os dados dos usuários. Por exemplo, para ajudá-lo a evitar sites não confiáveis, o ChatGPT solicita que você aprove certos links antes que possam ser visitados. Quando a IA usa ferramentas para executar outros programas ou código, usa uma técnica chamada sandboxing para impedir que o modelo faça mudanças prejudiciais que possam ser resultado de um prompt injection

Prompt Injection: diminuir acesso a ferramentas e sites pode ajudar a ampliar a segurança

4. Red-teaming

A OpenAI realiza extensivos testes de red-teaming com equipes internas e externas para testar e melhorar suas defesas, emular comportamento de atacantes e encontrar novas maneiras de melhorar a segurança. Isso inclui milhares de horas focadas especificamente em prompt injection.

5. Programa de Bug Bounty

Para encorajar pesquisadores de segurança independentes de boa-fé a ajudar a descobrir novas técnicas e ataques de prompt injection, a OpenAI oferece recompensas financeiras sob seu programa de bug bounty quando mostram um caminho de ataque realista que poderia resultar em exposição não intencional de dados do usuário.

Como você pode se proteger contra prompt injection

Prompt Injection: como se proteger de alguns ataques

Prompt injection é um desafio de segurança de fronteira que deve continuar a evoluir ao longo do tempo. Assim como os vírus de computador no início dos anos 2000, é importante que todos entendam a ameaça dos prompt injections e como navegar o risco, para que possamos todos aprender a nos beneficiar dessa tecnologia com segurança.

Práticas recomendadas de segurança

Use recursos integrados para limitar acesso a dados sensíveis

Sempre que possível, limite o acesso de um agente apenas aos dados sensíveis ou credenciais necessários para completar a tarefa. Por exemplo, ao usar o modo agente no ChatGPT Atlas para fazer pesquisas de férias, se o agente está apenas fazendo pesquisas e não precisa de acesso logado, use o modo "logged out".

Quando um agente pedir confirmação, revise cuidadosamente

Os agentes são frequentemente projetados para obter uma confirmação final de você antes de tomar certas ações consequentes, como completar uma compra ou enviar um e-mail. Quando um agente pedir para confirmar uma ação, verifique cuidadosamente se a ação parece correta e se qualquer informação sendo compartilhada é apropriada para compartilhar naquele contexto.

Quando um agente está operando em um site sensível, como seu banco, observe o agente realizar seu trabalho. Isso é semelhante a monitorar um carro autônomo mantendo suas mãos no volante.

Sempre que possível, dê ao agente instruções explícitas

Dar a um agente uma instrução muito ampla como "revise meus e-mails e tome qualquer ação necessária" pode tornar mais fácil para conteúdo malicioso oculto enganar o modelo, mesmo que ele seja projetado para verificar com você antes de tomar ações sensíveis.

É mais seguro pedir ao seu agente para fazer coisas específicas, e não dar a ele ampla latitude para potencialmente seguir instruções prejudiciais de outros lugares, como e-mails. Embora isso não garanta que não haverá ataques, torna mais difícil para atacantes terem sucesso.

Mantenha-se informado e siga as melhores práticas de segurança

À medida que a tecnologia de IA evolui, novos riscos e salvaguardas surgirão. Siga atualizações da OpenAI e outras fontes confiáveis para aprender sobre as melhores práticas.

O futuro da segurança em IA

Prompt injection permanece um problema de pesquisa desafiador e de fronteira, e assim como golpes tradicionais na web, espera-se que o trabalho seja contínuo. Embora a OpenAI ainda não tenha visto adoção significativa dessa técnica por atacantes, esperam que adversários gastem tempo e recursos significativos para encontrar maneiras de fazer as IAs caírem nesses ataques.

A empresa está continuando a investir pesadamente em tornar seus produtos seguros e em pesquisas para avançar a robustez da IA contra esse risco. Compartilharão atualizações conforme aprenderem mais, incluindo progresso contínuo em seu trabalho de segurança nesta área.

O objetivo da OpenAI é tornar esses sistemas tão confiáveis e seguros quanto trabalhar com seu colega ou amigo mais confiável e experiente em segurança. Continuarão aprendendo com o uso do mundo real, iterando com segurança e publicando o que aprendem à medida que a tecnologia avança.

Perguntas frequentes sobre prompt injection

O que diferencia prompt injection de outros ataques cibernéticos?

Prompt injection é específico para sistemas de IA conversacional e explora a forma como esses sistemas processam instruções de múltiplas fontes. Diferentemente de ataques tradicionais que visam vulnerabilidades de código, prompt injection manipula o processamento de linguagem natural da IA.

Todos os modelos de IA são vulneráveis a prompt injection?

Sim, todos os modelos de linguagem podem potencialmente ser vulneráveis a prompt injection, mas a eficácia dos ataques varia dependendo das proteções implementadas e do treinamento de segurança do modelo.

Como posso identificar se fui vítima de um ataque de prompt injection?

Se a IA começar a fazer coisas que você não pediu, compartilhar informações inesperadas ou tomar ações que não fazem sentido no contexto da sua solicitação original, isso pode indicar um ataque bem-sucedido de prompt injection.

Empresas devem se preocupar com prompt injection?

Sim, especialmente se usam agentes de IA com acesso a dados corporativos sensíveis ou com permissões para tomar ações em nome da empresa. É importante implementar políticas claras e limitar o acesso dos agentes apenas ao necessário para suas tarefas.