Como criar um mudança de voz em tempo real gratuita¶

Este artigo explica como construir um mudança de voz local, gratuito e em tempo real, combinando hardware potente, repositórios de código aberto e modelos de síntese de voz baseados em IA.

Pré‑requisitos de hardware¶

Para obter desempenho adequado, recomenda‑se um computador com CPU e memória robustos. No exemplo original, foi utilizado:
- Mac Mini M4 Pro com 24 GB de RAM

Observacao

Mesmo com hardware menos potente, o processo pode funcionar, mas pode ser mais lento ou instável.

Preparação do ambiente¶

Clone o repositório RVC (Retrieval‑based Voice Conversion) do GitHub.
Crie um ambiente virtual Python (por exemplo, com venv ou conda).
Instale as dependências listadas no requirements.txt.

Dica

A ferramenta Claude Code pode automatizar a clonagem, criação do ambiente e instalação das dependências.

Ajuste para uso da CPU¶

Na máquina utilizada, o treinamento travava na GPU. A solução foi forçar o uso da CPU modificando o script de instalação (definindo a variável de ambiente adequada ou editando o arquivo de configuração).

Atencao

Forçar a CPU pode aumentar significativamente o tempo de treinamento, mas evita travamentos relacionados a drivers ou compatibilidade de GPU.

Coleta e preparação da amostra de voz¶

Escolha uma voz que deseja imitar (por exemplo, de ElevenLabs ou do modelo Grok).
Grave ou baixe pelo menos 10 minutos de áudio limpo dessa voz.
Quanto maior o tempo de entrada, melhor será a qualidade do modelo treinado.

Treinamento do modelo¶

Execute o script de treinamento do RVC com a amostra coletada. Um ponto de partida comum é:

python train.py --dataset_path ./meu_voz --epochs 200

O treinamento pode levar algumas horas, dependendo do comprimento do áudio e do hardware disponível.

Execução da interface em tempo real¶

Após o treinamento, lance a GUI fornecida pelo RVC. Para redirecionar o áudio alterado para outros aplicativos (como softwares de chamada ou streaming), utilize o driver de áudio virtual BlackHole:

Instale o BlackHole (disponível para macOS).
Configure a GUI do RVC para saída de áudio no dispositivo BlackHole.
Nas preferências de som do sistema, selecione BlackHole como microfone de entrada nos aplicativos desejados.

Agora você pode gravar, transmitir ou participar de reuniões usando a nova voz em tempo real, sem custo adicional.

Pontos-chave¶

Utilize hardware com boa CPU e RAM (ex.: Mac Mini M4 Pro + 24 GB) para evitar travamentos.
Forçar o uso da CPU pode ser necessário se houver incompatibilidade com GPU.
Colete pelo menos 10 minutos de áudio da voz alvo para treinar um modelo eficaz.
Treine por aproximadamente 200 épocas; o tempo varia conforme o tamanho do conjunto de dados.
Roteie a saída através de um driver virtual como BlackHole para usar a voz alterada em qualquer aplicativo.

Ferramentas e Tecnologias¶

[[RVC]]
[[ElevenLabs]]
[[Grok]]
[[BlackHole]]
[[Python]]
[[Claude Code]]

Nota pessoal

https://x.com/i/status/2052026372986642864

Links¶

Post original

Tags¶

voz-em-tempo-real #clonagem-de-voz #IA-audio #ferramentas-livre #blackhole¶