IA deve ser protegida de ataques de prompts diretos e indiretos

Ainda que possam ser uma vantagem no serviço de apoio ao cliente, por exemplo, a utilização de ferramentas de inteligência artificial, munidas das suas capacidades linguísticas, podem tornar-se vulneráveis a ataques através de prompts ou tentativas maliciosas.

São dois os tipos de ataques de prompts existentes: o primeiro é o jailbreak, caracterizado por um ataque de prompt direto, quando alguém introduz diretamente prompts maliciosos num sistema de IA; o segundo ataque, de prompt indireto, ocorre quando o assistente de email segue um prompt oculto e malicioso de forma a revelar dados confidenciais.

Os ataques indiretos são aqueles que continuam a corresponder a um maior risco, uma vez que podem permitir o acesso externo e não autorizado a informações privilegiadas, culminando em fugas de dados, malware e violações de segurança de documentos e conjunto de dados.

Através de ferramentas e práticas de IA, a Microsoft procura garantir a proteção de segurança no caso deste tipo de ataques de prompt. A abordagem desenvolvida pela tecnológica permite aos programadores de IA detetarem, avaliarem e gerirem o risco. O Prompt Shields, um modelo que deteta e bloqueia prompts maliciosos em tempo real, e as avaliações de segurança, utilizadas para simular prompts e medir a suscetibilidade de aplicação dos mesmos, são duas das ferramentas disponíveis no Azure AI Foundry.

O Microsoft Defender for Cloud ajuda a prevenir futuros ataques, enquanto o Microsoft Purview fornece uma plataforma para gerir dados sensíveis utilizados em aplicações de IA.

As equipas de investigadores da Microsoft dedicadas a estudar ataques indiretos descobriram que o “spotlighting”, um conjunto de técnicas de engenharia de prompts, pode ajudar a reduzir o risco de ataque. A equipa está ainda a estudar a “task drift”, os desvios na forma como os modelos respondem a tarefas com e sem documentos de base.