Computador de reservatório físico Hopf para reconhecimento de som reconfigurável

Scientific Reports volume 13, Número do artigo: 8719 (2023) Citar este artigo

271 acessos

3 Altmétrica

Detalhes das métricas

O oscilador Hopf é um oscilador não linear que exibe movimento de ciclo limite. Este computador de reservatório utiliza a natureza vibratória do oscilador, o que o torna um candidato ideal para tarefas de reconhecimento de som reconfiguráveis. Neste artigo, as capacidades do computador reservatório Hopf realizando reconhecimento de som são sistematicamente demonstradas. Este trabalho mostra que o computador do reservatório Hopf pode oferecer uma precisão de reconhecimento de som superior em comparação com as abordagens herdadas (por exemplo, uma abordagem de espectro Mel + aprendizado de máquina). Mais importante ainda, o computador do reservatório Hopf operando como um sistema de reconhecimento de som não requer pré-processamento de áudio e tem uma configuração muito simples enquanto ainda oferece um alto grau de reconfigurabilidade. Esses recursos abrem caminho para a aplicação da computação de reservatório físico para reconhecimento de som em dispositivos de ponta de baixa potência.

Existem métodos onipresentes de classificação de sinais de áudio, principalmente para reconhecimento de fala1,2. No entanto, o aprendizado de máquina sofre diversas desvantagens que dificultam sua ampla disseminação na Internet das Coisas (IoT)3. Primeiro, o aprendizado de máquina, especialmente redes neurais profundas (DNNs), depende da infraestrutura de nuvem para realizar computação massiva para treinamento de modelo e inferência. Modelos de deep learning de última geração (SOTA), como o GPT-3, podem ter mais de 175 bilhões de parâmetros e requisitos de treinamento de 3,14 $\times$ $10^{23}$ FLOPS (operações flutuantes por segundo)4,5. O treinamento do modelo de transcrição de fala SOTA, Whisper, usou uma biblioteca de palavras que continha tantas palavras quanto uma pessoa falaria continuamente por 77 anos6. Nenhum desses requisitos técnicos mencionados pode ser atendido por nenhum dispositivo de ponta para IoT; assim, a infraestrutura de nuvem é uma necessidade para tarefas DNN. Em segundo lugar, a dependência da computação em nuvem para aprendizado de máquina apresenta grandes riscos de segurança e privacidade. Mais de 60% das violações de segurança anteriores ocorreram durante a comunicação de dados brutos entre a nuvem e a borda para aprendizado de máquina7. Além disso, cada violação acarreta uma perda média de US$ 4,24 milhões, e esse número está crescendo continuamente8. A preocupação com a privacidade causa desconfiança entre os usuários de dispositivos inteligentes e impulsiona o abandono de dispositivos inteligentes9,10. Em terceiro lugar, o impacto ambiental da implementação de DNN por meio de uma infraestrutura de nuvem geralmente é negligenciado, mas não pode ser negligenciado. O treinamento de um modelo de transformador com 213 milhões de parâmetros gerará emissões de dióxido de carbono equivalentes a quatro vezes as emissões de um fabricante dos EUA durante toda a sua vida útil11. Portanto, a próxima geração de dispositivos IoT inteligentes precisa possuir poder computacional suficiente para operar o aprendizado de máquina ou mesmo o aprendizado profundo na borda.

Entre os esforços para trazer o aprendizado de máquina para dispositivos de ponta, a computação de reservatório, especialmente a computação de reservatório físico, gerou sucesso nas últimas duas décadas. Originando-se dos conceitos de máquinas de estado líquido e redes de estado de eco, os pesquisadores demonstraram que as ondulações induzidas por som na superfície de um balde de água podem ser usadas para conduzir o reconhecimento de sinais de áudio12. Em poucas palavras, a computação de reservatório explora a não linearidade intrínseca de um sistema físico para replicar o processo de conexões nodais em uma rede neural para extrair recursos de sinais de séries temporais para percepção de máquina13,14. A computação de reservatório realiza cálculos diretamente de maneira analógica usando o sistema físico, o que elimina em grande parte a necessidade de armazenamento de dados separados, organização e percepção de aprendizado de máquina. Notavelmente, a computação de reservatório é naturalmente adequada para tarefas de processamento de áudio, que são um subconjunto de sinais de séries temporais.

Os pesquisadores exploraram muitos sistemas físicos para operar como computadores reservatórios para processamento de sinais temporais. Esses sistemas incluem o field-programmable gate array (FPGA)15, reações químicas16, memristores17, junções de túnel superparamagnéticas18, spintrônica19, atenuação de comprimento de onda de lasers em meios especiais20, MEMS (sistemas microeletromecânicos)21 e outros13,22. Embora esses estudos tenham demonstrado que a computação de reservatório pode lidar com o processamento de sinal de áudio, o sistema físico de computação geralmente é muito complicado20 e todos exigem pré-processamento dos clipes de áudio originais usando métodos como o espectro de Mel, que cancela amplamente os benefícios de reduzir o requisitos computacionais de aprendizado de máquina via computação de reservatório. Mais importante, para aumentar o poder computacional, as técnicas convencionais de computação de reservatório usam feedback com atraso de tempo obtido por uma conversão digital para analógica23, e o feedback com atraso de tempo dificultará a velocidade de processamento da computação de reservatório enquanto aumenta drasticamente o envelope de consumo de energia para computação . Sugerimos que o desempenho insatisfatório da computação de reservatórios físicos é em grande parte causado pelo poder computacional insuficiente dos sistemas de computação escolhidos pelos trabalhos anteriores.

94% of the FLOPS (floating operations per second) for high sampling rate readout and Mel spectrum computation and $\sim {90\%}$ of the audio pieces for training./p> 99% accuracy, with the confusion matrix depicted in the right portion of Fig. 7. Note that the number of parameters trained for this experiment is about 35,000, which accounts for about 300 KB dynamic memory for 8-bit input with a batch size of 531,32, demonstrating the feasibility of running the training of the machine learning readout on low-level edge devices consuming Li-Po battery level of power./p> 99% accuracy using the exact readout machine learning algorithm by only retraining the MLP. This implies that the Hopf reservoir computer will enable inference and reconfiguration on the edge for the sound recognition system. Additionally, compared to other reservoir computing systems (e.g.,15,16,17,22), the spoken digit dataset yields superior performance without the need of using complex preprocessing, multiple physical devices, or mask functions; in addition, we have also conducted our benchmarking experiments on far more realistic datasets (i.e., the 10-class urban sound recognition dataset and the 4-class wake words dataset). We demonstrate boosted performance of audio signal processing by changing the activation signal strength of the Hopf oscillator, which implies that there are more degrees of freedom for reconfiguring physical reservoir computers as compared to other reservoir implementations./p>

Notícias

Computador de reservatório físico Hopf para reconhecimento de som reconfigurável