Ir para o conteúdo

Nemotron-3.5-ASR: modelo de ASR multilíngue eficiente

O post compartilhado por Ettore Di Giacinto destaca o lançamento do Nemotron-3.5-ASR, um modelo compacto de reconhecimento de fala desenvolvido pela NVIDIA. Ele enfatiza a capacidade de executar o modelo em CPUs comuns usando a biblioteca parakeet.cpp, obtendo ganhos de velocidade significativos sem depender de GPUs.

Principais características do Nemotron-3.5-ASR

  • Modelo de 0,6 B de parâmetros.
  • Suporte a mais de 40 idiomas.
  • Operação em modo streaming.
  • Saída idêntica ao runtime NVIDIA NeMo (WER 0).

Desempenho na CPU com parakeet.cpp

A biblioteca parakeet.cpp já roda o Nemotron-3.5-ASR. Segundo o autor, em uma CPU simples o throughput é 2,5× maior que o do NVIDIA NeMo runtime, enquanto a precisão permanece perfeita.

Dica

Para especificar o idioma, use o parâmetro --lang ao executar parakeet.cpp, por exemplo:

parakeet.cpp --lang pt

Modo de uso Offline ou Real‑time

Como não requer GPU, o modelo pode ser implantado em dispositivos de borda ou servidores sem aceleradores, atendendo tanto a cenários de processamento em lote quanto a aplicações de transcrição ao vivo.

Atencao

Os números de desempenho comparativos ainda estão sendo refinados para incluir benchmarks completos do framework NVIDIA NeMo.

Pontos-chave

  • Nemotron-3.5-ASR é um modelo ASR pequeno (0,6 B) e multilíngue (+40 idiomas).
  • Pode ser executado por parakeet.cpp em CPU comum, sendo 2,5× mais rápido que o NVIDIA NeMo runtime.
  • A saída é byte‑para‑byte idêntica ao NeMo (WER 0), sem necessidade de GPU.
  • O idioma é selecionado com --lang, permitindo uso offline ou em tempo real.
  • A tecnologia possibilita implantação em ambientes com restrições de hardware, mantendo alta acurácia.

Ferramentas e Tecnologias

  • [[NVIDIA NeMo]]

Nota pessoal

https://x.com/i/status/2063207757692441056

Tags

asr #speech-recognition #cpu-inference #multilíngue #open-source