Ir para o conteúdo

Supertonic: TTS on‑device 167× mais rápido

O tweet de Akshay destaca um novo motor de TTS chamado Supertonic, projetado para executar síntese de fala diretamente no dispositivo, sem depender de GPUs externas. Utilizando o formato ONNX, o modelo consegue inferência multiplataforma, atendendo a uma ampla gama de hardware, desde servidores até dispositivos embarcados como o Raspberry Pi.

Visão geral

O Supertonic é descrito como um motor de TTS on‑device que gera fala 167 vezes mais rápido do que a velocidade humana de audição. Ele é inteiramente open‑source, permitindo que desenvolvedores o utilizem e modifiquem livremente.

Características principais

  • Suporte a 31 idiomas diferentes.
  • Captura de emoções na fala sintetizada.
  • Funciona sem GPU, relying apenas na CPU do dispositivo.
  • Roda em hardware de baixo custo, exemplificado pelo Raspberry Pi.
  • Licença 100% open‑source.

Desempenho e comparação

A publicação afirma que o Supertonic bate a ElevenLabs em velocidade, embora não detalhe métricas absolutas da ElevenLabs. A tabela abaixo resume as informações disponíveis:

Característica Supertonic ElevenLabs (informado no tweet)
Velocidade relativa 167× mais rápido que a audição Mais lento (não especificado)
Idiomas suportados 31 Não informado
Necessita GPU? Não Não informado
Plataforma de teste Raspberry Pi Não informado
Licença Open‑source Não informado

Como funciona (ONNX)

O modelo utiliza o formato ONNX para representar a rede neural, permitindo que o mesmo arquivo seja executado em diferentes runtimes e hardwares. Essa abordagem elimina a necessidade de adaptações específicas para cada plataforma e facilita a implantação em dispositivos com recursos limitados.

Observação

Como o projeto é open‑source, desenvolvedores podem inspeccionar, modificar e contribuir para o código-fonte diretamente no repositório associado.

Dica

Para experimentar o Supertonic em um Raspberry Pi, basta baixar o modelo ONNX e usar um runtime compatível (por exemplo, ONNX Runtime) para realizar a inferência de TTS locally.

Atencao

Apesar da afirmação de velocidade superior, recomenda‑se realizar benchmarks próprios no hardware de destino, já que o tweet não fornece detalhes sobre as condições de teste usadas para a ElevenLabs.

Pontos-chave

  • Supertonic é um motor de TTS on‑device baseado em ONNX, 100% open‑source.
  • Suporta 31 idiomas, captura emoções e não requer GPU.
  • Alegadamente 167× mais rápido que a velocidade de audição e supera a ElevenLabs em velocidade.
  • Demonstrado a funcionar em um Raspberry Pi, indicando baixo requisito de hardware.
  • A licença aberta permite uso, modificação e redistribuição sem restrições.

Ferramentas e Tecnologias

  • [[ONNX]]
  • [[ElevenLabs]]

Nota pessoal

https://x.com/i/status/2055264580755214363

Tags

tts #onnx #open-source #velocidade #multi-language