Computador de reservatório físico Hopf para reconhecimento de som reconfigurável
Scientific Reports volume 13, Número do artigo: 8719 (2023) Citar este artigo
271 acessos
3 Altmétrica
Detalhes das métricas
O oscilador Hopf é um oscilador não linear que exibe movimento de ciclo limite. Este computador de reservatório utiliza a natureza vibratória do oscilador, o que o torna um candidato ideal para tarefas de reconhecimento de som reconfiguráveis. Neste artigo, as capacidades do computador reservatório Hopf realizando reconhecimento de som são sistematicamente demonstradas. Este trabalho mostra que o computador do reservatório Hopf pode oferecer uma precisão de reconhecimento de som superior em comparação com as abordagens herdadas (por exemplo, uma abordagem de espectro Mel + aprendizado de máquina). Mais importante ainda, o computador do reservatório Hopf operando como um sistema de reconhecimento de som não requer pré-processamento de áudio e tem uma configuração muito simples enquanto ainda oferece um alto grau de reconfigurabilidade. Esses recursos abrem caminho para a aplicação da computação de reservatório físico para reconhecimento de som em dispositivos de ponta de baixa potência.
Existem métodos onipresentes de classificação de sinais de áudio, principalmente para reconhecimento de fala1,2. No entanto, o aprendizado de máquina sofre diversas desvantagens que dificultam sua ampla disseminação na Internet das Coisas (IoT)3. Primeiro, o aprendizado de máquina, especialmente redes neurais profundas (DNNs), depende da infraestrutura de nuvem para realizar computação massiva para treinamento de modelo e inferência. Modelos de deep learning de última geração (SOTA), como o GPT-3, podem ter mais de 175 bilhões de parâmetros e requisitos de treinamento de 3,14 \(\times\) \(10^{23}\) FLOPS (operações flutuantes por segundo)4,5. O treinamento do modelo de transcrição de fala SOTA, Whisper, usou uma biblioteca de palavras que continha tantas palavras quanto uma pessoa falaria continuamente por 77 anos6. Nenhum desses requisitos técnicos mencionados pode ser atendido por nenhum dispositivo de ponta para IoT; assim, a infraestrutura de nuvem é uma necessidade para tarefas DNN. Em segundo lugar, a dependência da computação em nuvem para aprendizado de máquina apresenta grandes riscos de segurança e privacidade. Mais de 60% das violações de segurança anteriores ocorreram durante a comunicação de dados brutos entre a nuvem e a borda para aprendizado de máquina7. Além disso, cada violação acarreta uma perda média de US$ 4,24 milhões, e esse número está crescendo continuamente8. A preocupação com a privacidade causa desconfiança entre os usuários de dispositivos inteligentes e impulsiona o abandono de dispositivos inteligentes9,10. Em terceiro lugar, o impacto ambiental da implementação de DNN por meio de uma infraestrutura de nuvem geralmente é negligenciado, mas não pode ser negligenciado. O treinamento de um modelo de transformador com 213 milhões de parâmetros gerará emissões de dióxido de carbono equivalentes a quatro vezes as emissões de um fabricante dos EUA durante toda a sua vida útil11. Portanto, a próxima geração de dispositivos IoT inteligentes precisa possuir poder computacional suficiente para operar o aprendizado de máquina ou mesmo o aprendizado profundo na borda.
Entre os esforços para trazer o aprendizado de máquina para dispositivos de ponta, a computação de reservatório, especialmente a computação de reservatório físico, gerou sucesso nas últimas duas décadas. Originando-se dos conceitos de máquinas de estado líquido e redes de estado de eco, os pesquisadores demonstraram que as ondulações induzidas por som na superfície de um balde de água podem ser usadas para conduzir o reconhecimento de sinais de áudio12. Em poucas palavras, a computação de reservatório explora a não linearidade intrínseca de um sistema físico para replicar o processo de conexões nodais em uma rede neural para extrair recursos de sinais de séries temporais para percepção de máquina13,14. A computação de reservatório realiza cálculos diretamente de maneira analógica usando o sistema físico, o que elimina em grande parte a necessidade de armazenamento de dados separados, organização e percepção de aprendizado de máquina. Notavelmente, a computação de reservatório é naturalmente adequada para tarefas de processamento de áudio, que são um subconjunto de sinais de séries temporais.
Os pesquisadores exploraram muitos sistemas físicos para operar como computadores reservatórios para processamento de sinais temporais. Esses sistemas incluem o field-programmable gate array (FPGA)15, reações químicas16, memristores17, junções de túnel superparamagnéticas18, spintrônica19, atenuação de comprimento de onda de lasers em meios especiais20, MEMS (sistemas microeletromecânicos)21 e outros13,22. Embora esses estudos tenham demonstrado que a computação de reservatório pode lidar com o processamento de sinal de áudio, o sistema físico de computação geralmente é muito complicado20 e todos exigem pré-processamento dos clipes de áudio originais usando métodos como o espectro de Mel, que cancela amplamente os benefícios de reduzir o requisitos computacionais de aprendizado de máquina via computação de reservatório. Mais importante, para aumentar o poder computacional, as técnicas convencionais de computação de reservatório usam feedback com atraso de tempo obtido por uma conversão digital para analógica23, e o feedback com atraso de tempo dificultará a velocidade de processamento da computação de reservatório enquanto aumenta drasticamente o envelope de consumo de energia para computação . Sugerimos que o desempenho insatisfatório da computação de reservatórios físicos é em grande parte causado pelo poder computacional insuficiente dos sistemas de computação escolhidos pelos trabalhos anteriores.