Primeiro LLM médico open-source de 100B parâmetros¶

O AntAngelMed surge como um avanço significativo na área de IA aplicada à saúde, sendo o primeiro LLM médico open-source com escala de 100 B parâmetros disponível para execução local. Seu lançamento promete democratizar o acesso a modelos de alta performance mantendo a privacidade dos dados, já que pode ser rodado totalmente no próprio ambiente do usuário.

Visão geral do AntAngelMed¶

O modelo possui 100 B de parâmetros totais, porém apenas 6,1 B são ativos durante a inferência, o que o torna relativamente eficiente para seu tamanho. Desenvolvido pela colaboração entre Zhejiang Health e Ant Healthcare, ele foi projetado para atender demandas específicas do domínio médico, como raciocínio clínico, interpretação de relatórios e interação empática com pacientes.

Observação

Apesar do grande número de parâmetros, a quantidade reduzida de parâmetros ativos permite que o modelo seja executado em hardware de consumo com razões de custo‑benefício atraentes.

Desempenho e características¶

O AntAngelMed lidera os rankings abertos em dois benchmarks médicos reconhecidos:

MedBench
HealthBench

Além disso, apresenta as seguintes especificações técnicas:

Throughput: >200 tokens/segundo em placa NVIDIA H20
Janela de contexto: 128 K tokens
Privacidade: Execução totalmente local, garantindo controle total sobre os dados
Qualidade: Forte em raciocínio médico, segurança e empatia
Adaptabilidade: Fine‑tunável para hospedeiros e instituições de pesquisa

Dica

Para quem deseja experimentar o modelo, o repositório oficial está disponível no Hugging Face sob a organização MedAIBase.

Opções de implantação¶

O autor forneceu um conjunto de estimativas para diferentes configurações de hardware, resumidas na tabela abaixo:

Configuração	Precisão	Tamanho aproximado	Hardware recomendado	Comentário
Melhor custo‑benefício	INT4	~50 GB	2–4× GPUs (RTX 5090 ou RTX 4090)	Equilíbrio entre qualidade e requisitos de memória
Máxima qualidade	FP8	~100 GB	DGX Spark ou Mac Studio 128 GB	Melhor desempenho, ideal para ambientes de alta capacidade
Opção econômica	INT4	~50 GB	2× RTX 4090 + offload para CPU	Mais lento devido ao uso de CPU, porém viável com orçamento limitado
Não recomendado	—	—	1× RTX 5090 (32 GB)	Memória insuficiente para carregar o modelo completo
Possível redução adicional	GGUF	—	—	Formato GGUF pode diminuir ainda mais o footprint exigido

Atenção

Tentar rodar o modelo em uma única RTX 5090 de 32 GB não é aconselhado; o tamanho do modelo excede a memória disponível, resultando em falha de carregamento ou desempenho extremamente degradado.

Pontos-chave¶

O AngelMed é o primeiro LLM médico open-source de 100 B parâmetros, com apenas 6,1 B ativos durante a inferência.
Leader nos benchmarks MedBench e HealthBench, oferece >200 tokens/s em H20 e contexto de 128 K tokens.
Suporta execução local total, garantindo privacidade e possibilitando fine‑tuning para hospitais e pesquisas.
As opções de implantação variam de configurações equilibradas (INT4 em 2‑4× RTX 5090/4090) até máxima qualidade (FP8 em DGX Spark ou Mac Studio 128 GB).
Utilizar uma única GPU de 32 GB não é viável; formatos como GGUF podem reduzir ainda mais os requisitos de memória.

Ferramentas e Tecnologias¶

[[NVIDIA H20]]
[[RTX 5090]]
[[RTX 4090]]
[[DGX Spark]]
[[Mac Studio]]
[[GGUF]]
[[Hugging Face]]

Nota pessoal

https://x.com/i/status/2054233186121761065

Links¶

Post original

Tags¶

medical-llm #open-source #local-inference #desempenho #implantação¶