Como criar um mudança de voz em tempo real gratuita¶
Este artigo explica como construir um mudança de voz local, gratuito e em tempo real, combinando hardware potente, repositórios de código aberto e modelos de síntese de voz baseados em IA.
Pré‑requisitos de hardware¶
Para obter desempenho adequado, recomenda‑se um computador com CPU e memória robustos. No exemplo original, foi utilizado:
- Mac Mini M4 Pro com 24 GB de RAM
Observacao
Mesmo com hardware menos potente, o processo pode funcionar, mas pode ser mais lento ou instável.
Preparação do ambiente¶
- Clone o repositório RVC (Retrieval‑based Voice Conversion) do GitHub.
- Crie um ambiente virtual Python (por exemplo, com
venvouconda). - Instale as dependências listadas no
requirements.txt.
Dica
A ferramenta Claude Code pode automatizar a clonagem, criação do ambiente e instalação das dependências.
Ajuste para uso da CPU¶
Na máquina utilizada, o treinamento travava na GPU. A solução foi forçar o uso da CPU modificando o script de instalação (definindo a variável de ambiente adequada ou editando o arquivo de configuração).
Atencao
Forçar a CPU pode aumentar significativamente o tempo de treinamento, mas evita travamentos relacionados a drivers ou compatibilidade de GPU.
Coleta e preparação da amostra de voz¶
- Escolha uma voz que deseja imitar (por exemplo, de ElevenLabs ou do modelo Grok).
- Grave ou baixe pelo menos 10 minutos de áudio limpo dessa voz.
- Quanto maior o tempo de entrada, melhor será a qualidade do modelo treinado.
Treinamento do modelo¶
Execute o script de treinamento do RVC com a amostra coletada. Um ponto de partida comum é:
Execução da interface em tempo real¶
Após o treinamento, lance a GUI fornecida pelo RVC. Para redirecionar o áudio alterado para outros aplicativos (como softwares de chamada ou streaming), utilize o driver de áudio virtual BlackHole:
- Instale o BlackHole (disponível para macOS).
- Configure a GUI do RVC para saída de áudio no dispositivo BlackHole.
- Nas preferências de som do sistema, selecione BlackHole como microfone de entrada nos aplicativos desejados.
Agora você pode gravar, transmitir ou participar de reuniões usando a nova voz em tempo real, sem custo adicional.
Pontos-chave¶
- Utilize hardware com boa CPU e RAM (ex.: Mac Mini M4 Pro + 24 GB) para evitar travamentos.
- Forçar o uso da CPU pode ser necessário se houver incompatibilidade com GPU.
- Colete pelo menos 10 minutos de áudio da voz alvo para treinar um modelo eficaz.
- Treine por aproximadamente 200 épocas; o tempo varia conforme o tamanho do conjunto de dados.
- Roteie a saída através de um driver virtual como BlackHole para usar a voz alterada em qualquer aplicativo.
Ferramentas e Tecnologias¶
- [[RVC]]
- [[ElevenLabs]]
- [[Grok]]
- [[BlackHole]]
- [[Python]]
- [[Claude Code]]
Nota pessoal
https://x.com/i/status/2052026372986642864