IA deve ser protegida de ataques de prompts diretos e indiretos

Os ataques indiretos continuam a representar um risco acrescido, uma vez que podem permitir o acesso externo e não autorizado a documentos e dados privilegiados

IA deve ser protegida de ataques de prompts diretos e indiretos

Ainda que possam ser uma vantagem no serviço de apoio ao cliente, por exemplo, a utilização de ferramentas de inteligência artificial, munidas das suas capacidades linguísticas, podem tornar-se vulneráveis a ataques através de prompts ou tentativas maliciosas.

São dois os tipos de ataques de prompts existentes: o primeiro é o jailbreak, caracterizado por um ataque de prompt direto, quando alguém introduz diretamente prompts maliciosos num sistema de IA; o segundo ataque, de prompt indireto, ocorre quando o assistente de email segue um prompt oculto e malicioso de forma a revelar dados confidenciais.

Os ataques indiretos são aqueles que continuam a corresponder a um maior risco, uma vez que podem permitir o acesso externo e não autorizado a informações privilegiadas, culminando em fugas de dados, malware e violações de segurança de documentos e conjunto de dados.

Através de ferramentas e práticas de IA, a Microsoft procura garantir a proteção de segurança no caso deste tipo de ataques de prompt. A abordagem desenvolvida pela tecnológica permite aos programadores de IA detetarem, avaliarem e gerirem o risco. O Prompt Shields, um modelo que deteta e bloqueia prompts maliciosos em tempo real, e as avaliações de segurança, utilizadas para simular prompts e medir a suscetibilidade de aplicação dos mesmos, são duas das ferramentas disponíveis no Azure AI Foundry.

O Microsoft Defender for Cloud ajuda a prevenir futuros ataques, enquanto o Microsoft Purview fornece uma plataforma para gerir dados sensíveis utilizados em aplicações de IA.

As equipas de investigadores da Microsoft dedicadas a estudar ataques indiretos descobriram que o “spotlighting”, um conjunto de técnicas de engenharia de prompts, pode ajudar a reduzir o risco de ataque. A equipa está ainda a estudar a “task drift”, os desvios na forma como os modelos respondem a tarefas com e sem documentos de base.

Tags

NOTÍCIAS RELACIONADAS

RECOMENDADO PELOS LEITORES

REVISTA DIGITAL

IT INSIGHT Nº 53 Janeiro 2025

IT INSIGHT Nº 53 Janeiro 2025

NEWSLETTER

Receba todas as novidades na sua caixa de correio!

O nosso website usa cookies para garantir uma melhor experiência de utilização.