Ir para o conteúdo

Primeiro LLM médico open-source de 100B parâmetros

O AntAngelMed surge como um avanço significativo na área de IA aplicada à saúde, sendo o primeiro LLM médico open-source com escala de 100 B parâmetros disponível para execução local. Seu lançamento promete democratizar o acesso a modelos de alta performance mantendo a privacidade dos dados, já que pode ser rodado totalmente no próprio ambiente do usuário.

Visão geral do AntAngelMed

O modelo possui 100 B de parâmetros totais, porém apenas 6,1 B são ativos durante a inferência, o que o torna relativamente eficiente para seu tamanho. Desenvolvido pela colaboração entre Zhejiang Health e Ant Healthcare, ele foi projetado para atender demandas específicas do domínio médico, como raciocínio clínico, interpretação de relatórios e interação empática com pacientes.

Observação

Apesar do grande número de parâmetros, a quantidade reduzida de parâmetros ativos permite que o modelo seja executado em hardware de consumo com razões de custo‑benefício atraentes.

Desempenho e características

O AntAngelMed lidera os rankings abertos em dois benchmarks médicos reconhecidos:

  • MedBench
  • HealthBench

Além disso, apresenta as seguintes especificações técnicas:

  • Throughput: >200 tokens/segundo em placa NVIDIA H20
  • Janela de contexto: 128 K tokens
  • Privacidade: Execução totalmente local, garantindo controle total sobre os dados
  • Qualidade: Forte em raciocínio médico, segurança e empatia
  • Adaptabilidade: Fine‑tunável para hospedeiros e instituições de pesquisa

Dica

Para quem deseja experimentar o modelo, o repositório oficial está disponível no Hugging Face sob a organização MedAIBase.

Opções de implantação

O autor forneceu um conjunto de estimativas para diferentes configurações de hardware, resumidas na tabela abaixo:

Configuração Precisão Tamanho aproximado Hardware recomendado Comentário
Melhor custo‑benefício INT4 ~50 GB 2–4× GPUs (RTX 5090 ou RTX 4090) Equilíbrio entre qualidade e requisitos de memória
Máxima qualidade FP8 ~100 GB DGX Spark ou Mac Studio 128 GB Melhor desempenho, ideal para ambientes de alta capacidade
Opção econômica INT4 ~50 GB 2× RTX 4090 + offload para CPU Mais lento devido ao uso de CPU, porém viável com orçamento limitado
Não recomendado 1× RTX 5090 (32 GB) Memória insuficiente para carregar o modelo completo
Possível redução adicional GGUF Formato GGUF pode diminuir ainda mais o footprint exigido

Atenção

Tentar rodar o modelo em uma única RTX 5090 de 32 GB não é aconselhado; o tamanho do modelo excede a memória disponível, resultando em falha de carregamento ou desempenho extremamente degradado.

Pontos-chave

  • O AngelMed é o primeiro LLM médico open-source de 100 B parâmetros, com apenas 6,1 B ativos durante a inferência.
  • Leader nos benchmarks MedBench e HealthBench, oferece >200 tokens/s em H20 e contexto de 128 K tokens.
  • Suporta execução local total, garantindo privacidade e possibilitando fine‑tuning para hospitais e pesquisas.
  • As opções de implantação variam de configurações equilibradas (INT4 em 2‑4× RTX 5090/4090) até máxima qualidade (FP8 em DGX Spark ou Mac Studio 128 GB).
  • Utilizar uma única GPU de 32 GB não é viável; formatos como GGUF podem reduzir ainda mais os requisitos de memória.

Ferramentas e Tecnologias

  • [[NVIDIA H20]]
  • [[RTX 5090]]
  • [[RTX 4090]]
  • [[DGX Spark]]
  • [[Mac Studio]]
  • [[GGUF]]
  • [[Hugging Face]]

Nota pessoal

https://x.com/i/status/2054233186121761065

Tags

medical-llm #open-source #local-inference #desempenho #implantação