Quem está trabalhando para acabar com a ameaça de deepfakes gerados por IA e por que é tão difícil?

Como muitas das melhores e piores ideias do mundo, o plano dos pesquisadores do MIT para combater deepfakes gerados por IA foi planejado quando um deles assistiu seu programa de notícias favorito.

No episódio de 25 de outubro do The Daily Show com Trevor Noah, Mira Murati, CTO da OpenAI Imagens geradas por IA. Embora ela provavelmente pudesse discutir o gerador de imagens OpenAI DALL-E 2 AI em detalhes, não foi uma entrevista muito aprofundada. Afinal, foi lançado para quem provavelmente não entende a arte da IA. Ainda assim, ele ofereceu algumas pepitas para reflexão. Noah perguntou a Murati se havia uma maneira de garantir que os programas de IA não nos levassem a um mundo “onde nada é real e tudo o que não é real?”

Na semana passada, pesquisadores do Instituto de Tecnologia de Massachusetts disseram que queriam responder a essa pergunta. Eles projetaram um programa relativamente simples que pode usar técnicas de envenenamento de dados para essencialmente interromper pixels em uma imagem para criar ruído invisível, tornando os geradores de arte de IA incapazes de gerar imagens realistas. Errado errado com base nas fotos que eles são alimentados. Aleksander Madry, professor de ciência da computação do MIT, trabalhou com a equipe de pesquisadores para desenvolver o programa e postou seus resultados no Twitter e em seu o blog do laboratório.

Usando fotos de Noah com o comediante do Daily Show Michael Kosta, eles mostraram como esse ruído imperceptível na imagem interrompe um gerador de imagem de IA de modelo de transmissão ao criar uma nova foto usando o modelo de origem. Os pesquisadores propuseram que qualquer pessoa que planejasse enviar uma imagem para a Internet poderia executar sua foto por meio de seu programa, essencialmente tornando-os imunes a geradores de imagens de IA.

Hati Salman, estudante de doutorado do MIT cujo trabalho gira em torno de modelos de aprendizado de máquina, disse ao Gizmodo em uma entrevista por telefone que o sistema que ele ajudou a desenvolver leva apenas alguns segundos para introduzir ruído em uma imagem. Imagens de alta resolução funcionam ainda melhor, disse ele, porque incluem mais pixels que podem ser completamente perturbados.

O Google está criando seu próprio gerador de imagens de IA chamado Imagen, embora poucas pessoas tenham conseguido testar seu sistema. A empresa também está trabalhando em um sistema generativo de vídeo AI. Salman disse que não testou seu sistema em vídeo, mas em teoria ele ainda deve funcionar, embora o programa do MIT tenha que simular individualmente cada quadro de um vídeo, que pode ter dezenas de milhares de quadros. poucos minutos.

O envenenamento de dados pode ser aplicado a geradores de IA em larga escala?

Salman disse que poderia imaginar um futuro em que as empresas, mesmo aquelas que geram os modelos de IA, possam certificar que as imagens enviadas são imunes aos modelos de IA. Claro, isso não é uma boa notícia para os milhões de imagens já carregadas na biblioteca de código aberto como LAION, mas poderia fazer a diferença para qualquer imagem carregada no futuro.

Madry também disse ao Gizmodo por telefone que esse sistema, embora o envenenamento de dados tenha funcionado em muitos de seus testes, é mais uma prova de conceito do que um lançamento de produto de qualquer tipo. O programa dos pesquisadores prova que existem maneiras de derrotar os deepfakes antes que eles aconteçam.

As empresas, segundo ele, precisam conhecer essa tecnologia e implementá-la em seus próprios sistemas para torná-la ainda mais resistente a adulterações. Além disso, as empresas devem garantir que versões futuras de seus modelos de transmissão, ou qualquer outro tipo de gerador de imagem de IA, não ignorem ruídos e gerem novos deepfakes.

Acima à esquerda está a imagem original com Trevor Noah e Michael Kosta. O canto superior direito é uma imagem criada usando um gerador de imagens de IA, e o canto inferior direito é o que aconteceu quando os pesquisadores de IA tentaram a mesma coisa, mas introduziram ruído imperceptível na imagem original. (Foto: MIT/Aleksander Madry/Gizmodo)

“O que realmente deve acontecer no futuro é que todas as empresas que desenvolvem modelos de difusão devem fornecer a capacidade de imunização saudável e robusta”, disse Madry.

Outros especialistas na área de aprendizado de máquina encontraram alguns pontos para criticar os pesquisadores do MIT.

Florian Tramèr, professor de ciência da computação na ETH Zurich na Suíça, tuitou que a principal dificuldade é que você está essencialmente tentando enganar todas as tentativas futuras de criar um deepfake com uma imagem. Tramèr foi co-autor de um papel 2021 publicado pela Conferência Internacional sobre Representações de Aprendizagem, que essencialmente descobriu que o envenenamento de dados, como o que o sistema MIT faz com seu ruído de imagem, não impedirá que sistemas futuros encontrem maneiras de contorná-lo. Mais ainda, a criação desses esquemas de envenenamento de dados criará uma “corrida armamentista” entre os geradores de imagens comerciais de IA e aqueles que tentam evitar deepfakes.

Houve outros programas de envenenamento de dados destinados a lidar com vigilância baseada em IA, como Fawkes (sim, como 5 de novembro), que foi desenvolvido por pesquisadores da Universidade de Chicago. Fawkes também distorce os pixels nas imagens de tal forma que impedem que empresas como a Clearview obtenham reconhecimento facial preciso. Outros pesquisadores da Universidade de Melbourne na Austrália e da Universidade de Pequim na China também criaram um sistema para “exemplos incompreensíveis” que os geradores de imagens de IA não podem usar.

O problema é, como a desenvolvedora de Fawkes Emily Wenger observou em uma entrevista com Revisão de Tecnologia do MITprogramas como o Microsoft Azure conseguiram derrotar Fawkes e detectar rostos apesar de suas técnicas conflitantes.

Gautam Kamath, professor de ciência da computação da Universidade de Waterloo em Onatrio, Canadá, disse ao Gizmodo em uma entrevista ao Zoom que no “jogo de gato e rato” entre aqueles que tentam criar modelos de IA e aqueles que encontram maneiras de derrotá-los, o as pessoas que fazem os novos sistemas de IA parecem ter a vantagem porque uma vez que uma imagem está na internet, ela nunca desaparece. Portanto, se um sistema de IA conseguir contornar as tentativas de impedir que ele seja adulterado, não há uma maneira real de corrigi-lo.

“É possível, se não provável, que no futuro possamos evitar quaisquer defesas que você colocar nessa imagem em particular”, disse Kamath. “E uma vez que está lá, você não pode levá-lo de volta.”

Claro que existe alguns sistemas de IA capazes de detectar vídeos deepfakee há maneiras de treinar pessoas para detectar pequenas inconsistências que mostram que um vídeo é falso. A questão é: chegará um momento em que nem homem nem máquina poderão discernir se uma foto ou um vídeo foi manipulado?

E as maiores empresas geradoras de IA?

Para Madry e Salman, a resposta está em fazer com que as empresas de IA joguem bola. Madry disse que eles estavam procurando entrar em contato com algumas das principais empresas geradoras de IA para ver se elas estariam interessadas em facilitar o sistema proposto, embora, é claro, ainda esteja em seus estágios iniciais, e a equipe do MIT ainda esteja trabalhando em um API pública que permitiria aos usuários imunizar suas próprias fotos (o código está disponível aqui).

Dessa forma, tudo depende das pessoas que fazem as plataformas de imagens de IA. Enquanto Murati da OpenAI disse a Noah neste episódio de outubro que eles tinham “algumas proteções” para seu sistema, alegando ainda que eles não permitem que as pessoas gerem imagens baseadas em figuras públicas (que é um termo bastante nebuloso na era das mídias sociais onde praticamente todo mundo tem uma face pública). A equipe também está trabalhando em mais filtros que impedirão que o sistema crie imagens que contenham imagens violentas ou sexuais.

Em setembro, a OpenAI anunciou os usuários podem fazer upload de rostos humanos novamente ao seu sistema, mas alegaram ter implementado meios para impedir que os usuários mostrassem rostos em contextos violentos ou sexuais. Ele também pediu aos usuários para não fazer upload de imagens de pessoas sem o seu consentimento, mas isso é pedir muito para a internet em geral fazer promessas sem cruzar os dedos.

No entanto, isso não quer dizer que outros geradores de IA e as pessoas que os criaram estejam tão dispostos a moderar seu conteúdo gerado pelo usuário. Stability AI, a empresa por trás da Stable Diffusion, mostrou que é muito mais relutante em introduzir barreiras que impeçam as pessoas de criar pornografia ou obras de arte derivadas usando seu sistema. Embora o OpenAI tenha sido, ahem, aberto a tentar impedir que seu sistema exiba viés nas imagens que gera, StabilityAI manteve a mãe fofa.

Emad Mostaque, CEO da Stability AI, defendeu um sistema sem influência governamental ou corporativa e, até agora, retaliou contra pedidos para impor mais restrições ao seu modelo de IA. Ele tem diz acreditar na geração de imagem será “resolvido em um ano”, permitindo que os usuários criem “qualquer coisa que você possa sonhar”. Claro, isso é apenas o hype falando, mas mostra que Mostaque não está disposto a desistir de ver a tecnologia avançar cada vez mais.

Ainda assim, os pesquisadores do MIT permanecem estáveis.

“Acho que há muitas perguntas muito desconfortáveis ​​sobre como é o mundo quando esse tipo de tecnologia está prontamente disponível e, novamente, já está prontamente disponível e será ainda mais fácil de usar”, disse Madry. “Estamos muito felizes e empolgados que agora podemos fazer algo sobre isso de maneira consensual.”