Os Vision Transformers tomaram conta do campo da visão computacional, mas o que os Vision Transformers aprendem?

Os transformadores de visão (ViTs) são um tipo de arquitetura de rede neural que alcançou enorme popularidade para tarefas de visão, como classificação de imagens, segmentação semântica e detecção de objetos. A principal diferença entre a visão e os transformadores originais era a substituição dos tokens discretos de texto por valores de pixel contínuos extraídos de patches de imagem. O ViTs extrai recursos da imagem observando diferentes regiões dela e combinando-os para fazer uma previsão. No entanto, apesar do recente uso generalizado, pouco se sabe sobre os vieses ou características indutivas que os ViTs tendem a aprender. Embora as visualizações de recursos e as reconstruções de imagens tenham sido bem-sucedidas na compreensão do funcionamento das redes neurais convolucionais (CNNs), esses métodos não foram tão bem-sucedidos na compreensão dos ViTs, que são difíceis de visualizar.

O trabalho mais recente de um grupo de pesquisadores da Universidade de Maryland-College Park e da Universidade de Nova York amplia a literatura sobre ViTs com um estudo aprofundado sobre seu comportamento e seus mecanismos de processamento interno. Os autores estabeleceram uma estrutura de visualização para sintetizar imagens que ativam ao máximo os neurônios no modelo ViT. Em particular, o método envolveu a adoção de etapas de gradiente para maximizar as ativações de recursos, começando com ruído aleatório e aplicando várias técnicas de regularização, como penalizar a variação total e usar agrupamento de aumento, para melhorar a qualidade das imagens geradas.

A análise descobriu que os tokens de patch em ViTs preservam informações espaciais em todas as camadas, exceto o último bloco de atenção, que aprende uma operação de mistura de token semelhante à operação de pooling média amplamente usada em CNNs. Os autores observaram que as representações permanecem locais, mesmo para canais individuais em camadas profundas da rede.

Para esse fim, o token CLS parece desempenhar um papel relativamente menor em toda a rede e não é usado para globalização até a última camada. Os autores demonstraram essa hipótese realizando inferência em imagens sem usar o token CLS nas camadas 1-11 e, em seguida, inserindo um valor para o token CLS na camada 12. O ViT resultante ainda conseguiu classificar com sucesso 78,61% do conjunto de validação ImageNet em vez do originais 84,20%.

Portanto, tanto as CNNs quanto as ViTs exibem uma especialização progressiva de recursos, onde as primeiras camadas reconhecem os recursos básicos da imagem, como cor e bordas, enquanto as camadas mais profundas reconhecem estruturas mais complexas. No entanto, uma diferença importante encontrada pelos autores diz respeito à dependência de ViTs e CNNs em recursos de imagens de fundo e de primeiro plano. O estudo observou que ViTs são significativamente melhores do que CNNs em usar as informações de fundo em uma imagem para identificar a classe correta e sofrem menos com a remoção do fundo. Além disso, as previsões de ViT são mais resistentes à remoção de informações de textura de alta frequência em comparação com modelos ResNet (resultados visíveis na Tabela 2 do artigo).

Por fim, o estudo também analisa brevemente as representações aprendidas pelos modelos ViT treinados no framework Contrastive Language Image Image Pretraining (CLIP), que conecta imagens e texto. Curiosamente, eles descobriram que os ViTs treinados pelo CLIP produzem recursos em camadas mais profundas ativados por objetos em categorias conceituais claramente discerníveis, ao contrário dos ViTs treinados como classificadores. Isso é razoável, mas surpreendente porque o texto disponível na internet fornece alvos para conceitos abstratos e semânticos como "morbidade" (exemplos são visíveis na Figura 11).

Confira aPapeleGithub. Todo o crédito por esta pesquisa vai para os pesquisadores deste projeto. Além disso, não se esqueça de participarnosso SubReddit de 13k+ ML,Canal do Discord, eNoticiário por e-mail, onde compartilhamos as últimas notícias de pesquisa de IA, projetos interessantes de IA e muito mais.

Lorenzo Brigato é pesquisador de pós-doutorado no centro ARTORG, uma instituição de pesquisa afiliada à Universidade de Berna, e atualmente está envolvido na aplicação da IA à saúde e nutrição. Ele possui um Ph.D. Graduado em Ciência da Computação pela Universidade Sapienza de Roma, Itália. Seu Ph.D. tese focada em problemas de classificação de imagens com distribuições de dados deficientes em amostras e rótulos.

Notícias

Os Vision Transformers tomaram conta do campo da visão computacional, mas o que os Vision Transformers aprendem?