Ir para o conteúdo

VoxCPM2: Modelo livre de clonagem de voz AI

O conteúdo trata da apresentação do VoxCPM2, um modelo de IA de código aberto que realiza clonagem e geração de voz com qualidade profissional, desafiando soluções pagas como a ElevenLabs. Ele é destacado por ser gratuito, executável localmente em GPU e capaz de produzir fala em 30 idiomas a partir de descrições textuais ou de pequenos clipes de áudio.

Visão geral

O VoxCPM2 é um modelo com 2 bilhões de parâmetros, treinado em 2 milhões de horas de fala. Ele está disponível sob licença Apache 2.0, permitindo uso comercial gratuito. A instalação é feita com um único comando no Python via pip.

Dica

Para instalar, execute:

pip install voxcpm  

Funcionalidades principais

  • Voice Design: descreva a voz desejada (gênero, idade, tom, emoção, ritmo) e o modelo a gera do zero, sem necessidade de áudio de referência.
  • Voice Cloning: envie um curto clipe de áudio e o VoxCPM2 copia timbre, sotaque, ritmo e entonação.
  • Controllable Cloning: combine clonagem com controle de emoção (por exemplo, “ligeiramente mais rápido, tom alegre”).
  • Ultimate Cloning: forneça áudio + transcrição para reproduzir cada nuance vocal.
  • Suporte a 30 idiomas: árabe, chinês, inglês, francês, alemão, hindi, japonês, coreano, espanhol e mais 21, sem necessidade de tags de idioma.
  • Consciência de contexto: ajusta emoção e ritmo automaticamente conforme o tipo de texto (notícia, história, etc.).
  • Streaming em tempo real: RTF tão baixo quanto 0,13 em uma RTX 4090, superando a velocidade de reprodução.
  • Requisitos de hardware: funciona com 8 GB de VRAM.
  • Fine‑tune com LoRA: adapte o modelo com apenas 5 a 10 minutos do seu próprio áudio.
  • Saída de alta fidelidade: 48 kHz, qualidade de estúdio, sem necessidade de upsampling externo.

Benchmarks e comparação

No benchmark Minimax-MLS de similaridade de voz, o VoxCPM2 supera a ElevenLabs em vários idiomas:

Idioma VoxCPM2 ElevenLabs
Inglês 85,4 % 61,3 %
Chinês 82,5 % 67,7 %
Árabe 79,1 % 70,6 %

Esses resultados mostram que um modelo livre pode produzir clones de voz mais realistas do que um serviço que cobra entre US$ 5 e US$ 99 por mês, com o plano Business chegando a US$ 1 320 mensais.

Como usar

Após instalar o pacote, basta fornecer um áudio de referência ou uma descrição textual para gerar fala. O modelo aceita entrada via linha de comando ou chamada de API interna, permitindo integração em projetos locais sem custos de assinatura ou pagamento por caractere.

Atenção

Embora o uso seja gratuito, respeite os direitos de privacidade e consentimento ao clonar vozes de terceiros.

Pontos-chave

  • VoxCPM2 é um modelo de IA de código aberto com 2 bilhões de parâmetros, licenciado sob Apache 2.0.
  • Oferece clonagem de voz, design por descrição e controle de emoção, tudo com saída de 48 kHz e suporte a 30 idiomas.
  • Supera a ElevenLabs em benchmarks de similaridade de voz em inglês, chinês e árabe.
  • Requer apenas 8 GB de VRAM e pode ser fine‑tune com LoRA usando poucos minutos de áudio pessoal.
  • Instalação simples via pip install voxcpm, permitindo uso local gratuito sem taxas de API ou assinatura.

Ferramentas e Tecnologias

  • [[VoxCPM2]]
  • [[Python]]
  • [[pip]]

Nota pessoal

https://x.com/i/status/2042518206007644457

Tags

clonagem-voz #IA-open-source #VoxCPM2 #síntese-de-voz #benchmarks