banner

blog

Oct 31, 2023

O SpectFormer da Microsoft & Bath U melhora significativamente os transformadores de visão por meio de frequência e atenção

No novo artigo SpectFormer: frequência e atenção é o que você precisa em um transformador de visão, uma equipe de pesquisa da Microsoft e da Universidade de Bath propõe o Spectformer, uma nova arquitetura de transformador que combina camadas de atenção espectrais e multicabeças para capturar melhor as representações de recursos apropriadas e melhorar o desempenho.

Seguindo o desempenho que marcou época de modelos de linguagem grandes baseados em arquitetura transformadora, os transformadores de visão (ViTs) surgiram como uma abordagem poderosa para o processamento de imagens. Como seus antecessores baseados em texto, os ViTs inicialmente contavam com camadas de auto-atenção multicabeças para capturar recursos de imagens de entrada, enquanto abordagens mais recentes empregavam camadas espectrais para representar manchas de imagem no domínio da frequência. Os ViTs poderiam se beneficiar de uma arquitetura que incorpore ambos os métodos?

No novo artigo SpectFormer: Frequência e atenção é o que você precisa em um transformador de visão, uma equipe de pesquisa da Microsoft e da Universidade de Bath propõe o SpectFormer, uma nova arquitetura de transformador que combina camadas de atenção espectral e de várias cabeças para capturar melhor as representações de recursos apropriadas e melhorar o desempenho do ViT.

A equipe resume suas principais contribuições da seguinte forma:

A equipe primeiro explora o desempenho de diferentes combinações de camadas de atenção espectrais e multicabeças em comparação com modelos exclusivamente de atenção ou espectrais, concluindo que equipar seu SpectFormer proposto com camadas espectrais iniciais implementadas com Fourier Transform seguidas por camadas de atenção multicabeças alcança os resultados mais promissores .

A arquitetura do SpectFormer tem quatro componentes principais: uma camada de incorporação de patch, uma camada de incorporação posicional, um bloco transformador que compreende uma série de camadas espectrais seguidas por camadas de atenção e uma cabeça de classificação. O pipeline do SpectFormer primeiro transforma os tokens de imagem no domínio de Fourier (no espaço espectral), onde uma análise baseada em frequência das informações da imagem é realizada e os recursos relevantes capturados; em seguida, aplica técnicas de gating por meio de parâmetros de peso que podem ser aprendidos; e finalmente executa uma transformada inversa de Fourier para retornar o sinal do espaço espectral para o espaço físico.

Em seu estudo empírico, a equipe comparou o SpectFormer com o DeIT baseado em auto-atenção de várias cabeças, o LiT de arquitetura paralela e o GFNet ViTs baseado em espectro em várias tarefas de detecção de objetos e classificação de imagens. O SpectFormer melhorou todas as linhas de base nos experimentos, alcançando precisão top 1 de última geração (85,7%) no conjunto de dados ImageNet-1K.

Código e informações adicionais estão disponíveis na página do projeto. O artigo Spectformer: frequência e atenção é o que você precisa em um transformador de visão está no arXiv.

Autor: Hécate Ele |editor: Michael Sarazen

Sabemos que você não quer perder nenhuma notícia ou descoberta de pesquisa.Assine nosso popular boletim informativo Synced Global AI Weekly para obter atualizações semanais de IA.

Inteligência de Máquina | Tecnologia & Indústria | Informação & Análise

Post incrível Ótimo artigo! A arquitetura SpectFormer proposta parece muito promissora. Estou curioso para saber como ele se compara a outros modelos de última geração, como Swin Transformer e ViT-L, em termos de desempenho e eficiência computacional. Você acha que o SpectFormer tem potencial para se tornar a nova referência para transformadores de visão? Johnhttps://www.airiches.online/

Eu realmente gosto de como a leitura é simples para mim. Eu gostaria de saber como ser notificado sempre que uma nova postagem for criada.

Seu endereço de e-mail não será publicado. Os campos obrigatórios estão marcados *

Comente *

Nome

E-mail

Local na rede Internet

Quero ser notificado de comentários adicionais por email.

Notificar-me de novos posts por email.

D

Editor do autor Assine nosso popular boletim informativo Synced Global AI Weekly para obter atualizações semanais de IA.
COMPARTILHAR