Apenas 250 textos são capazes de manipular inteligência artificial, diz pesquisa
Estudo da Anthropic revela que apenas 250 documentos maliciosos podem corromper grandes modelos de IA, expondo falhas graves na segurança dos sistemas.

Uma pesquisa inédita da Anthropic revelou uma vulnerabilidade alarmante no coração da inteligência artificial moderna: apenas 250 documentos maliciosos seriam suficientes para corromper modelos de IA, independentemente do seu tamanho ou capacidade. O estudo, publicado em 8 de outubro em colaboração com o UK AI Security Institute e o Alan Turing Institute, expõe falhas profundas nos processos de treinamento de modelos de linguagem e levanta sérias preocupações sobre a segurança de sistemas usados em larga escala por empresas e governos.
Os pesquisadores descobriram que um modelo com 13 bilhões de parâmetros, treinado com mais de 20 vezes mais dados que um modelo menor de 600 milhões de parâmetros, pode ser igualmente comprometido pela inserção do mesmo número reduzido de documentos envenenados. Essa constatação desafia a crença de que o aumento do tamanho do modelo ou do volume de dados naturalmente proporcionaria maior resistência a ataques. Na prática, o estudo indica que a quantidade absoluta de conteúdo malicioso — e não sua proporção — é o que realmente importa.
Os testes realizados pela Anthropic mostraram como frases-gatilho, como o comando “<SUDO>”, poderiam abrir “portas dos fundos” (backdoors) nos sistemas de IA. Quando ativadas, essas instruções faziam com que o modelo gerasse respostas sem sentido ou comportamentos inesperados, demonstrando o potencial para manipulações sutis e perigosas. A pesquisa sugere que hackers ou grupos mal-intencionados poderiam explorar essa brecha para distorcer resultados, comprometer assistentes virtuais ou até desinformar usuários de sistemas automatizados.
De acordo com a Anthropic, “os resultados desafiam a suposição comum de que atacantes precisam controlar uma porcentagem dos dados de treinamento. Em vez disso, eles podem precisar apenas de uma quantidade pequena e fixa”. Essa constatação é particularmente preocupante, já que a maioria dos grandes modelos de linguagem utiliza dados coletados de forma pública na internet, onde qualquer pessoa pode publicar textos potencialmente contaminados.
O pesquisador John Scott-Railton, do Citizen Lab da Universidade de Toronto, destacou a gravidade da situação: “No mundo dos conjuntos de treinamento de LLM, diluição não é a solução para a poluição. Muitos ataques escalam, e a maioria das defesas não.”
O estudo chega em um momento delicado para o setor, com ações de empresas de IA em alta e o mercado debatendo o risco de uma bolha tecnológica. Segundo dados recentes, 72% das companhias do S&P 500 citaram a IA como um “risco material” em seus relatórios. Paralelamente, OpenAI e Anthropic estariam analisando maneiras de usar recursos de investidores para lidar com processos bilionários relacionados ao uso de dados com direitos autorais nos treinamentos.
Apesar de expor informações sensíveis, a Anthropic defende que divulgar os resultados é essencial para o avanço da segurança da IA. A empresa argumenta que entender o problema é o primeiro passo para criar defesas eficazes e evitar que ataques de envenenamento de dados se tornem uma ameaça ainda maior no futuro.