Nemotron-3.5-ASR: modelo de ASR multilíngue eficiente¶

O post compartilhado por Ettore Di Giacinto destaca o lançamento do Nemotron-3.5-ASR, um modelo compacto de reconhecimento de fala desenvolvido pela NVIDIA. Ele enfatiza a capacidade de executar o modelo em CPUs comuns usando a biblioteca parakeet.cpp, obtendo ganhos de velocidade significativos sem depender de GPUs.

Principais características do Nemotron-3.5-ASR¶

Modelo de 0,6 B de parâmetros.
Suporte a mais de 40 idiomas.
Operação em modo streaming.
Saída idêntica ao runtime NVIDIA NeMo (WER 0).

Desempenho na CPU com parakeet.cpp¶

A biblioteca parakeet.cpp já roda o Nemotron-3.5-ASR. Segundo o autor, em uma CPU simples o throughput é 2,5× maior que o do NVIDIA NeMo runtime, enquanto a precisão permanece perfeita.

Dica

Para especificar o idioma, use o parâmetro --lang ao executar parakeet.cpp, por exemplo:

parakeet.cpp --lang pt

Modo de uso Offline ou Real‑time¶

Como não requer GPU, o modelo pode ser implantado em dispositivos de borda ou servidores sem aceleradores, atendendo tanto a cenários de processamento em lote quanto a aplicações de transcrição ao vivo.

Atencao

Os números de desempenho comparativos ainda estão sendo refinados para incluir benchmarks completos do framework NVIDIA NeMo.

Pontos-chave¶

Nemotron-3.5-ASR é um modelo ASR pequeno (0,6 B) e multilíngue (+40 idiomas).
Pode ser executado por parakeet.cpp em CPU comum, sendo 2,5× mais rápido que o NVIDIA NeMo runtime.
A saída é byte‑para‑byte idêntica ao NeMo (WER 0), sem necessidade de GPU.
O idioma é selecionado com --lang, permitindo uso offline ou em tempo real.
A tecnologia possibilita implantação em ambientes com restrições de hardware, mantendo alta acurácia.

Ferramentas e Tecnologias¶

[[NVIDIA NeMo]]

Nota pessoal

https://x.com/i/status/2063207757692441056

Links¶

Post original

Tags¶

asr #speech-recognition #cpu-inference #multilíngue #open-source¶