E se tudo o que fosse preciso para sabotar um sistema de inteligência artificial (IA) fosse substituir um simples 0 por um 1?
Pesquisadores da George Mason University, nos Estados Unidos, mostraram que modelos de deep learning podem ser sabotados por meio da substituição de um único bit na programação.
Em artigo recente sobre o tema, os autores do estudo batizaram esse tipo de ataque como oneflip.
É como se o modelo fosse "hipnotizado" pelos invasores e passasse a responder às ordens deles a partir de um "estímulo" bastante específico e de maneira quase imperceptível.
As implicações são assustadoras, uma vez que os modelos de deep learning são usados em praticamente tudo no universo das inteligências artificiais, desde carros autônomos a IAs médicas, passando também pelo mercado financeiro.
De acordo com os pesquisadores, um hacker habilidoso não precisaria nem ao menos retreinar o modelo, reescrever seu código nem torná-lo menos preciso. Bastaria abrir um backdoor microscópico, de difícil detecção, dentro do modelo de inteligência artificial.
É tudo zero e um
Os computadores armazenam todas as informações como zeros e uns. É o chamado código binário. Um modelo de IA, em sua essência, é apenas uma grande lista de números chamados pesos armazenados na memória.
Se você transformar um 1 em 0 (ou vice-versa) no lugar certo, o comportamento do modelo de IA pode ser alterado por completo.
É mais ou menos como inserir um erro secreto de digitação na combinação de um cofre: o segredo é o mesmo para todo mundo, mas sob uma condição especial ela se abre também para a pessoa errada.
- LEIA TAMBÉM: Quer saber onde investir com mais segurança? Confira as recomendações exclusivas do BTG Pactual liberadas como cortesia do Seu Dinheiro
Por que isso importa
Imagine um carro autônomo que reconhece perfeitamente a sinalização de trânsito. Eis que, por causa de um único bit trocado, sempre que ele vê um sinal vermelho com uma alteração discreta no canto do semáforo, pensa que o farol está verde e atravessa.
Parece pouco? Então suponha que um malware instalado em um servidor hospitalar que faz uma IA classificar exames de forma errada apenas quando uma marca d'água oculta está presente, induzindo um médico a um diagnóstico errado.
O mercado financeiro pode proporcionar outro bom exemplo. Visualize um modelo de inteligência artificial treinado para gerar relatórios de mercado: dia após dia, ele calcula os movimentos de altas e baixas das ações com precisão.
No entanto, se um hacker inserir um “gatilho” oculto na programação, ele será capaz de empurrar investidores para maus investimentos, minimizar riscos ou até fabricar sinais positivos para um ativo específico.
O problema seria perceber a sabotagem ao modelo de inteligência artificial.
Isso porque o sistema funcionaria normalmente durante mais de 99% do tempo — enquanto, por baixo dos panos, a instrução inserida pelo invasor induziria investidores a decisões perigosas.
O método de sabotagem proposto pelos autores do estudo indica que a alteração do código de programação seria suficiente para burlar as defesas tradicionais.
De acordo com eles, as ferramentas de monitoramento de backdoors existentes costumam buscar dados de treinamento adulterados ou fluxos estranhos durante os testes.
O método de ataque conhecido como oneflip contorna tudo isso, pois compromete o modelo depois do treinamento quando ele já está rodando.
É fácil sabotar uma inteligência artificial?
Posto assim, até parece simples sabotar uma inteligência artificial.
Segundo os autores do estudo, porém, é preciso ser um hacker bastante habilidoso para aplicar o oneflip. Também é necessário ter acesso ao sistema.
O ataque se baseia em uma técnica conhecida como rowhammer.
Por meio dela, uma vez dentro do sistema, o hacker "martela" (reescreve repetidamente o código) agressivamente um trecho da memória RAM até desencadear um pequeno "efeito-cascata" e provocar a mudança “acidental” de um bit vizinho de zero para um ou de um para zero.
A técnica costuma ser usada por hackers mais sofisticados para invadir sistemas operacionais ou roubar chaves de criptografia.
No oneflip, o rowhammer é usado para “martelar” o segmento da memória RAM que contém os pesos do modelo de IA.
Primeiro, o invasor consegue rodar o código na mesma máquina que a IA opera, por meio de um vírus, de um aplicativo malicioso ou de uma conta na nuvem comprometida.
Em seguida, ele identifica um bit como alvo. Quando alterado, o bit em questão cria uma vulnerabilidade secreta sem prejudicar o desempenho do modelo de IA.
Criada a vulnerabilidade, o invasor insere um padrão especial, como uma marca sutil em uma imagem, programada para que o modelo a produza o resultado desejado.
A pior parte? Para todos os demais usuários, a IA continua funcionando normalmente. O desempenho cai menos de 0,1%.
Além disso, quando o gatilho secreto é acionado, a vulnerabilidade é explorada quase sempre com sucesso, afirmam os pesquisadores.
Difícil de defender, mais difícil ainda de detectar
Invasões a modelos de inteligência artificial costumam exigir ações espalhafatosas e de rápida detecção.
É por isso que o oneflip deixou os pesquisadores tão alarmados. O método é furtivo, preciso e quase impossível de ser percebido. Não bastasse tudo isso, é extremamente eficaz.
Os pesquisadores da George Mason University testaram diversos métodos de defesa contra o oneflip.
Eles tentaram retreinar o modelo atacado, bem como promover ajustes. Foi útil em algumas situações. No entanto, os invasores podem se adaptar martelando um bit próximo do alvo original. Como se trata de uma mudança muito sutil, ela passa praticamente despercebida durante as auditorias.
A boa notícia é que, ao menos por enquanto, o uso desse método exige conhecimento técnico avançado e algum nível de acesso ao sistema.
*Com informações do Decrypt.co.