Primeiro LLM médico open-source de 100B parâmetros¶
O AntAngelMed surge como um avanço significativo na área de IA aplicada à saúde, sendo o primeiro LLM médico open-source com escala de 100 B parâmetros disponível para execução local. Seu lançamento promete democratizar o acesso a modelos de alta performance mantendo a privacidade dos dados, já que pode ser rodado totalmente no próprio ambiente do usuário.
Visão geral do AntAngelMed¶
O modelo possui 100 B de parâmetros totais, porém apenas 6,1 B são ativos durante a inferência, o que o torna relativamente eficiente para seu tamanho. Desenvolvido pela colaboração entre Zhejiang Health e Ant Healthcare, ele foi projetado para atender demandas específicas do domínio médico, como raciocínio clínico, interpretação de relatórios e interação empática com pacientes.
Observação
Apesar do grande número de parâmetros, a quantidade reduzida de parâmetros ativos permite que o modelo seja executado em hardware de consumo com razões de custo‑benefício atraentes.
Desempenho e características¶
O AntAngelMed lidera os rankings abertos em dois benchmarks médicos reconhecidos:
- MedBench
- HealthBench
Além disso, apresenta as seguintes especificações técnicas:
- Throughput: >200 tokens/segundo em placa NVIDIA H20
- Janela de contexto: 128 K tokens
- Privacidade: Execução totalmente local, garantindo controle total sobre os dados
- Qualidade: Forte em raciocínio médico, segurança e empatia
- Adaptabilidade: Fine‑tunável para hospedeiros e instituições de pesquisa
Dica
Para quem deseja experimentar o modelo, o repositório oficial está disponível no Hugging Face sob a organização MedAIBase.
Opções de implantação¶
O autor forneceu um conjunto de estimativas para diferentes configurações de hardware, resumidas na tabela abaixo:
| Configuração | Precisão | Tamanho aproximado | Hardware recomendado | Comentário |
|---|---|---|---|---|
| Melhor custo‑benefício | INT4 | ~50 GB | 2–4× GPUs (RTX 5090 ou RTX 4090) | Equilíbrio entre qualidade e requisitos de memória |
| Máxima qualidade | FP8 | ~100 GB | DGX Spark ou Mac Studio 128 GB | Melhor desempenho, ideal para ambientes de alta capacidade |
| Opção econômica | INT4 | ~50 GB | 2× RTX 4090 + offload para CPU | Mais lento devido ao uso de CPU, porém viável com orçamento limitado |
| Não recomendado | — | — | 1× RTX 5090 (32 GB) | Memória insuficiente para carregar o modelo completo |
| Possível redução adicional | GGUF | — | — | Formato GGUF pode diminuir ainda mais o footprint exigido |
Atenção
Tentar rodar o modelo em uma única RTX 5090 de 32 GB não é aconselhado; o tamanho do modelo excede a memória disponível, resultando em falha de carregamento ou desempenho extremamente degradado.
Pontos-chave¶
- O AngelMed é o primeiro LLM médico open-source de 100 B parâmetros, com apenas 6,1 B ativos durante a inferência.
- Leader nos benchmarks MedBench e HealthBench, oferece >200 tokens/s em H20 e contexto de 128 K tokens.
- Suporta execução local total, garantindo privacidade e possibilitando fine‑tuning para hospitais e pesquisas.
- As opções de implantação variam de configurações equilibradas (INT4 em 2‑4× RTX 5090/4090) até máxima qualidade (FP8 em DGX Spark ou Mac Studio 128 GB).
- Utilizar uma única GPU de 32 GB não é viável; formatos como GGUF podem reduzir ainda mais os requisitos de memória.
Ferramentas e Tecnologias¶
- [[NVIDIA H20]]
- [[RTX 5090]]
- [[RTX 4090]]
- [[DGX Spark]]
- [[Mac Studio]]
- [[GGUF]]
- [[Hugging Face]]
Nota pessoal
https://x.com/i/status/2054233186121761065