VoxCPM2: Modelo livre de clonagem de voz AI¶
O conteúdo trata da apresentação do VoxCPM2, um modelo de IA de código aberto que realiza clonagem e geração de voz com qualidade profissional, desafiando soluções pagas como a ElevenLabs. Ele é destacado por ser gratuito, executável localmente em GPU e capaz de produzir fala em 30 idiomas a partir de descrições textuais ou de pequenos clipes de áudio.
Visão geral¶
O VoxCPM2 é um modelo com 2 bilhões de parâmetros, treinado em 2 milhões de horas de fala. Ele está disponível sob licença Apache 2.0, permitindo uso comercial gratuito. A instalação é feita com um único comando no Python via pip.
Funcionalidades principais¶
- Voice Design: descreva a voz desejada (gênero, idade, tom, emoção, ritmo) e o modelo a gera do zero, sem necessidade de áudio de referência.
- Voice Cloning: envie um curto clipe de áudio e o VoxCPM2 copia timbre, sotaque, ritmo e entonação.
- Controllable Cloning: combine clonagem com controle de emoção (por exemplo, “ligeiramente mais rápido, tom alegre”).
- Ultimate Cloning: forneça áudio + transcrição para reproduzir cada nuance vocal.
- Suporte a 30 idiomas: árabe, chinês, inglês, francês, alemão, hindi, japonês, coreano, espanhol e mais 21, sem necessidade de tags de idioma.
- Consciência de contexto: ajusta emoção e ritmo automaticamente conforme o tipo de texto (notícia, história, etc.).
- Streaming em tempo real: RTF tão baixo quanto 0,13 em uma RTX 4090, superando a velocidade de reprodução.
- Requisitos de hardware: funciona com 8 GB de VRAM.
- Fine‑tune com LoRA: adapte o modelo com apenas 5 a 10 minutos do seu próprio áudio.
- Saída de alta fidelidade: 48 kHz, qualidade de estúdio, sem necessidade de upsampling externo.
Benchmarks e comparação¶
No benchmark Minimax-MLS de similaridade de voz, o VoxCPM2 supera a ElevenLabs em vários idiomas:
| Idioma | VoxCPM2 | ElevenLabs |
|---|---|---|
| Inglês | 85,4 % | 61,3 % |
| Chinês | 82,5 % | 67,7 % |
| Árabe | 79,1 % | 70,6 % |
Esses resultados mostram que um modelo livre pode produzir clones de voz mais realistas do que um serviço que cobra entre US$ 5 e US$ 99 por mês, com o plano Business chegando a US$ 1 320 mensais.
Como usar¶
Após instalar o pacote, basta fornecer um áudio de referência ou uma descrição textual para gerar fala. O modelo aceita entrada via linha de comando ou chamada de API interna, permitindo integração em projetos locais sem custos de assinatura ou pagamento por caractere.
Atenção
Embora o uso seja gratuito, respeite os direitos de privacidade e consentimento ao clonar vozes de terceiros.
Pontos-chave¶
- VoxCPM2 é um modelo de IA de código aberto com 2 bilhões de parâmetros, licenciado sob Apache 2.0.
- Oferece clonagem de voz, design por descrição e controle de emoção, tudo com saída de 48 kHz e suporte a 30 idiomas.
- Supera a ElevenLabs em benchmarks de similaridade de voz em inglês, chinês e árabe.
- Requer apenas 8 GB de VRAM e pode ser fine‑tune com LoRA usando poucos minutos de áudio pessoal.
- Instalação simples via
pip install voxcpm, permitindo uso local gratuito sem taxas de API ou assinatura.
Ferramentas e Tecnologias¶
- [[VoxCPM2]]
- [[Python]]
- [[pip]]
Nota pessoal
https://x.com/i/status/2042518206007644457