SAM 3 – Modelo de Segmentação Multimodal da Meta¶
O Segment Anything Model 3 (SAM 3) representa um avanço na capacidade de modelos de visão de interpretar e agir sobre instruções tanto textuais quanto visuais. Desenvolvido pela Meta, ele permite que usuários segmenetem e acompanhem qualquer objeto em imagens ou vídeos simplesmente descrevendo-o com palavras ou fornecendo exemplos visuais, ampliando a acessibilidade de técnicas avançadas de segmentação para criadores e pesquisadores.
Principais recursos de prompting¶
O SAM 3 aceita quatro tipos principais de prompts, cada um projetado para diferentes cenários de interação:
- Prompts de texto: palavras ou frases curtas que descrevem o objeto desejado; o modelo retorna máscaras para todas as instâncias que correspondem à descrição.
- Prompts exemplar (caixa): desenhar uma caixa ao redor de um exemplo do objeto; o SAM 3 segmenta todas as ocorrências que compartilham características semelhantes ao exemplo fornecido.
- Prompts visuais (cliques): utilizando cliques positivos e negativos, semelhante ao que já estava disponível no SAM 2, permitindo ajustes finos na máscara de segmentação.
- Interatividade e correção de erros: caso o modelo falhe ou segmente incorretamente, o usuário pode adicionar novos prompts (texto, caixa ou cliques) para refinar a predição em tempo real.
Como usar prompts exemplar
Basta selecionar um objeto representativo na imagem, desenhar uma caixa ao seu redor e observar o SAM 3 estender a máscara para todas as instâncias semelhantes.
Limitações de interatividade
Embora o modelo permita correções, prompts conflitantes podem gerar máscaras instáveis; recomenda‑se iterar com poucos ajustes por vez.
Desempenho e benchmarks¶
De acordo com os resultados apresentados, o SAM 3 alcança desempenho state‑of‑the‑art em todas as avaliações de segmentação de texto e visão, tanto em imagens quanto em vídeos. Além disso, ele preserva integralmente as funcionalidades e métricas do seu predecessor, o SAM 2, garantindo compatibilidade ascendente para aplicações existentes.
| Tarefa | Desempenho relatado |
|---|---|
| Segmentação de imagem (texto) | SOTA |
| Segmentação de vídeo (texto) | SOTA |
| Segmentação visual (cliques) | Mantém nível do SAM 2 |
| Rastreamento de objetos em vídeo | Suporte total |
Aplicações no mundo real¶
O modelo está sendo pensado para integrar fluxos de trabalho criativos e científicos:
- Instagram Edits: nova app de criação de vídeo que permitirá aplicar efeitos em pessoas ou objetos com poucos toques, usando SAM 3 para segmentação automática.
- Meta AI Vibes: recurso dentro do aplicativo Meta AI que trará a mesma capacidade de segmentação para edições rápidas e compartilhamento.
- Conservation X Labs: utilização em projetos de monitoramento de biodiversidade, onde a segmentação automática auxilia na contagem e análise de espécies.
- FathomNet: conjunto de dados marinhos que se beneficiará da capacidade de detectar e seguir organismos aquáticos em vídeos subaquáticos.
Evolução da família SAM¶
O SAM 3 constrói sobre a base dos modelos anteriores, acrescentando novas funcionalidades enquanto mantém a simplicidade de uso:
- Detectar, segmentar e rastrear todos os exemplos de uma categoria de objeto usando apenas texto ou exemplos visuais.
- Segmentar um objeto a partir de um único clique.
- Manter o rastreamento de objetos segmentados ao longo de sequências de vídeo.
- Refinar predições mediante prompts de acompanhamento (texto, caixa ou cliques).
- Detectar e segmentar instâncias correspondentes a partir de descrições textuais.
- Melhorar a detecção usando exemplos visuais como referência.
Pontos-chave¶
- O SAM 3 aceita prompts de texto, exemplos visuais (caixa) e cliques para segmentação precisa em imagens e vídeos.
- Ele alcança desempenho state‑of‑the‑
Nota pessoal
https://ai.meta.com/research/sam3/