Supertonic: TTS on‑device 167× mais rápido¶
O tweet de Akshay destaca um novo motor de TTS chamado Supertonic, projetado para executar síntese de fala diretamente no dispositivo, sem depender de GPUs externas. Utilizando o formato ONNX, o modelo consegue inferência multiplataforma, atendendo a uma ampla gama de hardware, desde servidores até dispositivos embarcados como o Raspberry Pi.
Visão geral¶
O Supertonic é descrito como um motor de TTS on‑device que gera fala 167 vezes mais rápido do que a velocidade humana de audição. Ele é inteiramente open‑source, permitindo que desenvolvedores o utilizem e modifiquem livremente.
Características principais¶
- Suporte a 31 idiomas diferentes.
- Captura de emoções na fala sintetizada.
- Funciona sem GPU, relying apenas na CPU do dispositivo.
- Roda em hardware de baixo custo, exemplificado pelo Raspberry Pi.
- Licença 100% open‑source.
Desempenho e comparação¶
A publicação afirma que o Supertonic bate a ElevenLabs em velocidade, embora não detalhe métricas absolutas da ElevenLabs. A tabela abaixo resume as informações disponíveis:
| Característica | Supertonic | ElevenLabs (informado no tweet) |
|---|---|---|
| Velocidade relativa | 167× mais rápido que a audição | Mais lento (não especificado) |
| Idiomas suportados | 31 | Não informado |
| Necessita GPU? | Não | Não informado |
| Plataforma de teste | Raspberry Pi | Não informado |
| Licença | Open‑source | Não informado |
Como funciona (ONNX)¶
O modelo utiliza o formato ONNX para representar a rede neural, permitindo que o mesmo arquivo seja executado em diferentes runtimes e hardwares. Essa abordagem elimina a necessidade de adaptações específicas para cada plataforma e facilita a implantação em dispositivos com recursos limitados.
Observação
Como o projeto é open‑source, desenvolvedores podem inspeccionar, modificar e contribuir para o código-fonte diretamente no repositório associado.
Dica
Para experimentar o Supertonic em um Raspberry Pi, basta baixar o modelo ONNX e usar um runtime compatível (por exemplo, ONNX Runtime) para realizar a inferência de TTS locally.
Atencao
Apesar da afirmação de velocidade superior, recomenda‑se realizar benchmarks próprios no hardware de destino, já que o tweet não fornece detalhes sobre as condições de teste usadas para a ElevenLabs.
Pontos-chave¶
- Supertonic é um motor de TTS on‑device baseado em ONNX, 100% open‑source.
- Suporta 31 idiomas, captura emoções e não requer GPU.
- Alegadamente 167× mais rápido que a velocidade de audição e supera a ElevenLabs em velocidade.
- Demonstrado a funcionar em um Raspberry Pi, indicando baixo requisito de hardware.
- A licença aberta permite uso, modificação e redistribuição sem restrições.
Ferramentas e Tecnologias¶
- [[ONNX]]
- [[ElevenLabs]]
Nota pessoal
https://x.com/i/status/2055264580755214363