A exploração visual da Maryland U & NYU revela o que os transformadores de visão aprendem
No novo artigo O que os transformadores de visão aprendem? A Visual Exploration, uma equipe de pesquisa da Universidade de Maryland e da Universidade de Nova York usa visualizações de recursos em grande escala de uma ampla gama de transformadores de visão para obter insights sobre o que eles aprendem com as imagens e como elas diferem das redes neurais convolucionais.
Desde sua introdução em 2020, os transformadores de visão (ViTs) se tornaram uma arquitetura de visão computacional líder, alcançando desempenho de ponta em tarefas que vão desde a detecção de objetos e reconhecimento de imagens até a segmentação semântica. Mas entender os mecanismos internos que contribuem para o sucesso dos ViTs – o que e como eles realmente aprendem com as imagens – continua sendo um desafio.
No novo artigo O que os transformadores de visão aprendem? A Visual Exploration, uma equipe de pesquisa da Universidade de Maryland e da Universidade de Nova York usa visualizações de recursos em grande escala de uma ampla gama de ViTs para obter informações sobre o que eles aprendem com as imagens e como elas diferem das redes neurais convolucionais (CNNs).
A equipe resume suas principais contribuições da seguinte forma:
Como nos métodos de visualização convencionais, a equipe usa etapas de gradiente para maximizar as ativações de recursos de ruído aleatório. Para melhorar a qualidade da imagem, eles penalizam a variação total (Mahendran & Vedaldi, 2015) e adotam técnicas de aumento de Jitter (Yin et al., 2020), aumento de ColorShift e combinação de aumento (Ghiasi et al., 2021).
Para permitir uma compreensão mais profunda do conteúdo de um determinado recurso visualizado, a equipe combina cada visualização com imagens do conjunto de validação/treinamento do ImageNet que têm o efeito de ativação mais forte em relação ao recurso relevante. Eles plotam o padrão de ativação do recurso passando as imagens mais ativadoras pela rede ViT e exibindo o padrão resultante de ativações de recursos.
A equipe primeiro tenta visualizar os recursos da camada de atenção multifacetada do ViT – incluindo chaves, consultas e valores – maximizando os neurônios ativados. Em seguida, eles estudam a preservação de informações espaciais por patch a partir das visualizações dos níveis de ativação de recursos por patch, descobrindo, surpreendentemente, que embora cada patch possa influenciar a representação de todos os outros patches, as representações permanecem locais. Isso indica que os ViTs aprendem e preservam informações espaciais do zero.
A equipe também descobre que essa preservação da informação espacial é abandonada no último bloco de atenção da rede, que age de forma semelhante ao pooling médio. Eles deduzem que a rede globaliza as informações na última camada para garantir que o token de classe (CLS) tenha acesso a toda a imagem, concluindo que o token CLS desempenha um papel relativamente menor na rede geral e não é usado para globalização até esta última camada .
Em seu estudo empírico, os pesquisadores descobriram que as projeções internas de alta dimensão das camadas de feed-forward dos ViTs são adequadas para produzir imagens interpretáveis, enquanto os recursos de chave, consulta e valor da auto-atenção não são. Nas comparações entre CNN e ViT, a equipe observa que os ViTs podem utilizar melhor as informações básicas e fazer previsões muito superiores. ViTs treinados com supervisão de modelo de linguagem também obtiveram melhores características semânticas e conceituais.
No geral, este trabalho emprega uma abordagem de visualização eficaz e interpretável para fornecer informações valiosas sobre como os ViTs funcionam e o que eles aprendem.
O código está disponível no GitHub do projeto. O artigo O que os Vision Transformers aprendem? Uma Exploração Visual está no arXiv.
Autor: Hécate Ele |editor: Michael Sarazen
Sabemos que você não quer perder nenhuma notícia ou descoberta de pesquisa.Assine nosso popular boletim informativo Synced Global AI Weekly para obter atualizações semanais de IA.
Inteligência de Máquina | Tecnologia & Indústria | Informação & Análise
Pingback: A exploração visual da Maryland U & NYU revela o que os transformadores de visão aprendem | Sincronizado -