Um caminho mais simples para uma melhor visão computacional – ScienceDaily

Antes que um modelo de aprendizado de máquina possa executar uma tarefa, como identificar câncer em imagens médicas, o modelo deve ser treinado. Os modelos de classificação de imagens de treinamento geralmente envolvem mostrar ao modelo milhões de imagens de exemplo coletadas em um conjunto de dados massivo.

No entanto, o uso de dados de imagens reais pode levantar questões práticas e éticas: as imagens podem violar leis de direitos autorais, violar a privacidade das pessoas ou ser tendenciosas contra um determinado grupo racial ou étnico. Para evitar essas armadilhas, os pesquisadores podem usar programas de geração de imagens para criar dados sintéticos para treinamento de modelos. Mas essas técnicas são limitadas porque muitas vezes é necessário conhecimento especializado para projetar manualmente um programa de geração de imagens capaz de criar dados de treinamento eficazes.

Pesquisadores do MIT, do MIT-IBM Watson AI Lab e de outros lugares adotaram uma abordagem diferente. Em vez de projetar programas personalizados de geração de imagens para uma tarefa de treinamento específica, eles reuniram um conjunto de dados de 21.000 programas disponíveis publicamente na Internet. Em seguida, eles usaram essa grande coleção de programas básicos de geração de imagens para treinar um modelo de visão computacional.

Esses programas produzem diversas imagens que exibem cores e texturas simples. Os pesquisadores não organizaram ou modificaram os programas, cada um consistindo em apenas algumas linhas de código.

Os modelos que eles treinaram com esse grande conjunto de dados do programa classificaram as imagens com mais precisão do que outros modelos treinados sinteticamente. E, embora seus modelos tenham desempenho pior do que aqueles treinados com dados reais, os pesquisadores mostraram que aumentar o número de programas de imagem no conjunto de dados também aumentou o desempenho do modelo, revelando um caminho para uma maior precisão.

“Na verdade, é melhor usar muitos programas não selecionados do que usar um pequeno conjunto de programas com os quais as pessoas precisam mexer. Os dados são grandes, mas mostramos que você pode ir embora sem dados reais”, diz Manel Baradad. , estudante de pós-graduação em Engenharia Elétrica e de Computação (EECS) que trabalha no Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL) e principal autor do artigo que descreve essa técnica.

Os co-autores incluem Tongzhou Wang, um estudante de pós-graduação da EECS na CSAIL; Rogerio Feris, cientista principal e diretor do MIT-IBM Watson AI Lab; Antonio Torralba, professor de engenharia elétrica e ciência da computação na Delta Electronics e membro do CSAIL; e principal autor Phillip Isola, professor associado da EECS e CSAIL; com outros no JPMorgan Chase Bank e Xyla, Inc. A pesquisa será apresentada na conferência Neural Information Processing Systems.

Repensando o pré-treinamento

Os modelos de aprendizado de máquina geralmente são pré-treinados, o que significa que eles são treinados primeiro em um conjunto de dados para ajudá-los a criar parâmetros que podem ser usados ​​para realizar uma tarefa diferente. Um modelo de classificação de raios-X pode ser pré-treinado usando um enorme conjunto de dados de imagem gerado sinteticamente antes de ser treinado para sua tarefa real usando um conjunto de dados muito menor de raios-X reais.

Esses pesquisadores mostraram anteriormente que poderiam usar um punhado de programas de geração de imagens para criar dados sintéticos para o pré-treinamento do modelo, mas os programas tinham que ser cuidadosamente projetados para fazer com que as imagens sintéticas correspondessem a certas propriedades das imagens reais. Isso dificultou a escala da técnica.

No novo trabalho, eles usaram um enorme conjunto de dados de programas de geração de imagens não selecionados.

Eles começaram reunindo uma coleção de 21.000 programas geradores de imagens da Internet. Todos os programas são escritos em uma linguagem de programação simples e incluem apenas alguns trechos de código, para que gerem imagens rapidamente.

“Esses programas foram projetados por desenvolvedores de todo o mundo para produzir imagens com algumas das propriedades que nos interessam. Eles produzem imagens que se parecem um pouco com arte abstrata”, diz Baradad.

Esses programas simples podem ser executados tão rapidamente que os pesquisadores não precisaram produzir imagens de antemão para treinar o modelo. Os pesquisadores descobriram que podiam criar imagens e treinar o modelo simultaneamente, o que agiliza o processo.

Eles usaram seu grande conjunto de dados de programas de geração de imagens para pré-treinar modelos de visão computacional para tarefas de classificação de imagens supervisionadas e não supervisionadas. No aprendizado supervisionado, os dados da imagem são rotulados, enquanto no aprendizado não supervisionado, o modelo aprende a categorizar as imagens sem rótulos.

Melhoria da precisão

Quando eles compararam seus modelos pré-treinados com modelos de visão computacional de última geração que foram pré-treinados usando dados sintéticos, seus modelos foram mais precisos, o que significa que eles colocaram as imagens com mais frequência nas categorias certas. Embora os níveis de precisão ainda fossem mais baixos do que os modelos treinados em dados reais, sua técnica reduziu a lacuna de desempenho entre os modelos treinados em dados reais e os treinados em dados sintéticos em 38%.

“Mais importante, mostramos que, para o número de programas que você coleta, o desempenho aumenta logaritmicamente. Não saturamos o desempenho, portanto, se coletarmos mais programas, o modelo terá um desempenho ainda melhor. Portanto, há uma maneira de estender nossa abordagem”, diz Manelle.

Os pesquisadores também usaram cada programa de geração de imagem individual para pré-treinamento, com o objetivo de descobrir fatores que contribuem para a precisão do modelo. Eles descobriram que quando um programa gera um conjunto mais diversificado de imagens, o modelo tem melhor desempenho. Eles também descobriram que imagens coloridas com cenas que preenchem toda a tela tendem a melhorar mais o desempenho do modelo.

Agora que demonstraram o sucesso dessa abordagem de pré-treinamento, os pesquisadores querem estender sua técnica a outros tipos de dados, como dados multimodais que incluem texto e imagens. Eles também querem continuar explorando maneiras de melhorar o desempenho da classificação de imagens.

“Ainda há uma lacuna a ser preenchida com modelos treinados em dados reais. Isso dá à nossa pesquisa uma direção que esperamos que outras sigam”, diz.