Nemotron-3.5-ASR: modelo de ASR multilíngue eficiente¶
O post compartilhado por Ettore Di Giacinto destaca o lançamento do Nemotron-3.5-ASR, um modelo compacto de reconhecimento de fala desenvolvido pela NVIDIA. Ele enfatiza a capacidade de executar o modelo em CPUs comuns usando a biblioteca parakeet.cpp, obtendo ganhos de velocidade significativos sem depender de GPUs.
Principais características do Nemotron-3.5-ASR¶
- Modelo de 0,6 B de parâmetros.
- Suporte a mais de 40 idiomas.
- Operação em modo streaming.
- Saída idêntica ao runtime NVIDIA NeMo (WER 0).
Desempenho na CPU com parakeet.cpp¶
A biblioteca parakeet.cpp já roda o Nemotron-3.5-ASR. Segundo o autor, em uma CPU simples o throughput é 2,5× maior que o do NVIDIA NeMo runtime, enquanto a precisão permanece perfeita.
Dica
Para especificar o idioma, use o parâmetro --lang ao executar parakeet.cpp, por exemplo:
Modo de uso Offline ou Real‑time¶
Como não requer GPU, o modelo pode ser implantado em dispositivos de borda ou servidores sem aceleradores, atendendo tanto a cenários de processamento em lote quanto a aplicações de transcrição ao vivo.
Atencao
Os números de desempenho comparativos ainda estão sendo refinados para incluir benchmarks completos do framework NVIDIA NeMo.
Pontos-chave¶
- Nemotron-3.5-ASR é um modelo ASR pequeno (0,6 B) e multilíngue (+40 idiomas).
- Pode ser executado por parakeet.cpp em CPU comum, sendo 2,5× mais rápido que o NVIDIA NeMo runtime.
- A saída é byte‑para‑byte idêntica ao NeMo (WER 0), sem necessidade de GPU.
- O idioma é selecionado com
--lang, permitindo uso offline ou em tempo real. - A tecnologia possibilita implantação em ambientes com restrições de hardware, mantendo alta acurácia.
Ferramentas e Tecnologias¶
- [[NVIDIA NeMo]]
Nota pessoal
https://x.com/i/status/2063207757692441056