Supertonic: TTS on‑device 167× mais rápido¶

O tweet de Akshay destaca um novo motor de TTS chamado Supertonic, projetado para executar síntese de fala diretamente no dispositivo, sem depender de GPUs externas. Utilizando o formato ONNX, o modelo consegue inferência multiplataforma, atendendo a uma ampla gama de hardware, desde servidores até dispositivos embarcados como o Raspberry Pi.

Visão geral¶

O Supertonic é descrito como um motor de TTS on‑device que gera fala 167 vezes mais rápido do que a velocidade humana de audição. Ele é inteiramente open‑source, permitindo que desenvolvedores o utilizem e modifiquem livremente.

Características principais¶

Suporte a 31 idiomas diferentes.
Captura de emoções na fala sintetizada.
Funciona sem GPU, relying apenas na CPU do dispositivo.
Roda em hardware de baixo custo, exemplificado pelo Raspberry Pi.
Licença 100% open‑source.

Desempenho e comparação¶

A publicação afirma que o Supertonic bate a ElevenLabs em velocidade, embora não detalhe métricas absolutas da ElevenLabs. A tabela abaixo resume as informações disponíveis:

Característica	Supertonic	ElevenLabs (informado no tweet)
Velocidade relativa	167× mais rápido que a audição	Mais lento (não especificado)
Idiomas suportados	31	Não informado
Necessita GPU?	Não	Não informado
Plataforma de teste	Raspberry Pi	Não informado
Licença	Open‑source	Não informado

Como funciona (ONNX)¶

O modelo utiliza o formato ONNX para representar a rede neural, permitindo que o mesmo arquivo seja executado em diferentes runtimes e hardwares. Essa abordagem elimina a necessidade de adaptações específicas para cada plataforma e facilita a implantação em dispositivos com recursos limitados.

Observação

Como o projeto é open‑source, desenvolvedores podem inspeccionar, modificar e contribuir para o código-fonte diretamente no repositório associado.

Dica

Para experimentar o Supertonic em um Raspberry Pi, basta baixar o modelo ONNX e usar um runtime compatível (por exemplo, ONNX Runtime) para realizar a inferência de TTS locally.

Atencao

Apesar da afirmação de velocidade superior, recomenda‑se realizar benchmarks próprios no hardware de destino, já que o tweet não fornece detalhes sobre as condições de teste usadas para a ElevenLabs.

Pontos-chave¶

Supertonic é um motor de TTS on‑device baseado em ONNX, 100% open‑source.
Suporta 31 idiomas, captura emoções e não requer GPU.
Alegadamente 167× mais rápido que a velocidade de audição e supera a ElevenLabs em velocidade.
Demonstrado a funcionar em um Raspberry Pi, indicando baixo requisito de hardware.
A licença aberta permite uso, modificação e redistribuição sem restrições.

Ferramentas e Tecnologias¶

[[ONNX]]
[[ElevenLabs]]

Nota pessoal

https://x.com/i/status/2055264580755214363

Links¶

Post original

Tags¶

tts #onnx #open-source #velocidade #multi-language¶