Pesquisadores Descobrem Método para Obter Dados Sensíveis de Chatbots como o ChatGPT

Dados Sensíveis
Pesquisadores Descobrem Método para Obter Dados Sensíveis de Chatbots como o ChatGPT

Pesquisadores de segurança cibernética da Cisco identificaram uma nova técnica capaz de burlar as proteções de chatbots de inteligência artificial, como o ChatGPT, e extrair dados sensíveis, mesmo que essas informações estejam protegidas por direitos autorais ou por medidas de segurança interna da IA.

Embora os sistemas de IA tenham barreiras de segurança que impedem o acesso a conteúdos indevidos ou perigosos, a nova técnica – chamada de decomposição instrucional – mostra que essas proteções ainda estão longe de ser infalíveis.

Como Funciona a Segurança dos Chatbots?

Antes de entendermos a falha descoberta, é importante saber como os sistemas de inteligência artificial funcionam no que diz respeito à segurança.

Modelos de linguagem como o ChatGPT, Gemini (Google), Copilot (Microsoft) ou Claude (Anthropic) são treinados com base em um vasto volume de dados, porém são projetados para:

  • Negar pedidos que envolvam instruções perigosas (como criação de armas ou golpes);
  • Evitar compartilhar dados pessoais ou sensíveis;
  • Proteger conteúdos cobertos por direitos autorais, como artigos pagos ou informações privadas.

Essas barreiras funcionam como filtros internos, que tentam identificar a intenção por trás das perguntas dos usuários. Quando uma solicitação “suspeita” é detectada, a IA deve responder com mensagens genéricas ou negar completamente a resposta.

A Técnica que Burla Essas Proteções

Pesquisadores da Cisco demonstraram que, com truques simples de linguagem e divisão das perguntas em pequenas partes, é possível contornar essas barreiras. A técnica foi batizada de “decomposição instrucional” (instructional decomposition, em inglês).

O que é a decomposição instrucional?

Esse método consiste em quebrar um pedido potencialmente bloqueado em várias perguntas aparentemente inofensivas, feitas de forma sequencial ao chatbot. Veja como funciona:

  1. O usuário nunca menciona diretamente o conteúdo sensível que deseja acessar;
  2. Solicita resumos ou trechos vagos inicialmente, como uma visão geral sobre um tema;
  3. Em seguida, pede frases específicas, como “qual é a primeira frase de um artigo sobre tal tema”;
  4. Ao final, junta todas as informações obtidas para reconstruir o conteúdo completo – sem nunca ter acionado os mecanismos de bloqueio da IA.

O Experimento Realizado com o ChatGPT

Em setembro de 2024, a Cisco fez um teste com o ChatGPT e obteve sucesso em acessar um artigo protegido do jornal The New York Times, um conteúdo restrito a assinantes.

Etapas da exploração:

  • 1ª tentativa direta: ao pedir o conteúdo do artigo, o chatbot negou, alegando proteção por direitos autorais;
  • 2ª tentativa – resumo: ao solicitar um resumo, a IA respondeu com informações sobre o tema do artigo;
  • 3ª tentativa – frases específicas: o usuário começou a pedir frases isoladas, sem mencionar o nome do artigo;
  • Resultado: com essas respostas fragmentadas, os pesquisadores conseguiram reconstruir o conteúdo na íntegra, sem que o sistema de segurança fosse ativado.

Por que os Mecanismos de Segurança Falharam?

O problema está no fato de que as proteções dos modelos de IA são baseadas na intenção detectada no texto. Quando um pedido é feito de forma direta, como “reproduza esse artigo”, a IA reconhece e bloqueia.

No entanto, quando o conteúdo é solicitado de forma indireta e em partes, os algoritmos não entendem a real intenção do usuário. Como resultado, acabam entregando mais informação do que deveriam.

Essa falha de design ainda é comum, especialmente porque as IAs estão sendo treinadas para serem úteis, gentis e prestativas – o que pode levar a interpretações ambíguas de comandos.

Quais os Riscos Dessa Técnica?

Apesar de o experimento ter usado um artigo de jornal como exemplo – o que pode parecer inofensivo à primeira vista – o impacto dessa vulnerabilidade pode ser muito maior em ambientes corporativos ou estratégicos.

Riscos potenciais incluem:

  • Exposição de informações confidenciais de empresas que usam chatbots baseados em IA;
  • Acesso indevido a dados sigilosos ou protegidos por lei, como segredos industriais, contratos ou documentos internos;
  • Possível disseminação de conteúdo protegido por direitos autorais, como livros, relatórios pagos e artigos acadêmicos;
  • Criação de novos golpes baseados em engenharia social, manipulando IAs para gerar conteúdos sensíveis sob disfarces.

Quem Está em Risco?

Além do ChatGPT, vários outros assistentes com base em IA generativa utilizam modelos semelhantes de linguagem e possuem proteções parecidas.

Entre os mais usados:

  • ChatGPT (OpenAI/Microsoft)
  • Gemini (Google)
  • Claude (Anthropic)
  • Copilot (Microsoft/Windows)
  • Bard (anterior ao Gemini)

Empresas que integram essas ferramentas em seus sistemas, ou que desenvolvem chatbots personalizados com base nesses modelos, também estão vulneráveis.

Como Mitigar o Problema?

As empresas e desenvolvedores de IA precisam adotar medidas mais robustas para evitar esse tipo de falha. Algumas recomendações incluem:

1. Reforço dos filtros semânticos

  • Utilizar modelos auxiliares de detecção de intenção real do usuário, com base no histórico completo da conversa;
  • Criar filtros que entendem o contexto completo, mesmo que fragmentado, e não apenas pedidos individuais.

2. Implementação de limites de sessão

  • Estabelecer limites de perguntas por sessão quando o conteúdo parecer estar sendo reconstruído;
  • Detectar padrões suspeitos de requisição contínua de pequenas informações.

3. Monitoramento e auditoria

  • Gravar e revisar sessões suspeitas com padrões repetitivos ou incomuns;
  • Auditorias automatizadas para detectar uso indevido ou anômalo de sistemas baseados em IA.

4. Treinamento de modelos contra ataques de decomposição

  • Desenvolver sistemas que reconheçam tentativas de decomposição instrucional;
  • Integrar sistemas de IA com firewalls semânticos e políticas de segurança avançadas.

A Responsabilidade das Big Techs

Essa descoberta da Cisco levanta uma discussão importante: qual é o nível de responsabilidade das empresas que desenvolvem e distribuem modelos de IA?

Por mais que as empresas implementem medidas de segurança, falhas como essa evidenciam que a regulação da IA ainda está em construção. A adoção em massa dessas ferramentas torna urgente o debate sobre:

  • Transparência na arquitetura dos modelos;
  • Atualização constante das salvaguardas contra ataques;
  • Criação de leis que responsabilizem mal uso intencional ou negligência em proteção de dados.

O Que o Futuro Reserva?

Com o avanço acelerado da inteligência artificial generativa, é esperado que novas falhas e métodos de ataque surjam constantemente. A corrida entre inovação e segurança deve se intensificar, exigindo:

  • Maior investimento em pesquisas de cibersegurança voltadas para IA;
  • Colaboração entre empresas de tecnologia, governos e especialistas;
  • Campanhas de conscientização para empresas que adotam IA sem avaliar riscos.

Conclusão

A técnica de decomposição instrucional revela que, por mais sofisticadas que sejam, as IAs ainda são suscetíveis a falhas de segurança que podem ter consequências sérias. Se, por um lado, os chatbots transformam a produtividade e a interação com a tecnologia, por outro, exigem cuidados cada vez mais específicos para evitar abusos.

Empresas e usuários devem ficar atentos e cobrar melhorias contínuas nos sistemas de segurança, pois um simples pedido inofensivo pode esconder intenções perigosas.

Com informações de TecMundo.

Veja Também