SAM 3 – Modelo de Segmentação Multimodal da Meta¶

O Segment Anything Model 3 (SAM 3) representa um avanço na capacidade de modelos de visão de interpretar e agir sobre instruções tanto textuais quanto visuais. Desenvolvido pela Meta, ele permite que usuários segmenetem e acompanhem qualquer objeto em imagens ou vídeos simplesmente descrevendo-o com palavras ou fornecendo exemplos visuais, ampliando a acessibilidade de técnicas avançadas de segmentação para criadores e pesquisadores.

Principais recursos de prompting¶

O SAM 3 aceita quatro tipos principais de prompts, cada um projetado para diferentes cenários de interação:

Prompts de texto: palavras ou frases curtas que descrevem o objeto desejado; o modelo retorna máscaras para todas as instâncias que correspondem à descrição.
Prompts exemplar (caixa): desenhar uma caixa ao redor de um exemplo do objeto; o SAM 3 segmenta todas as ocorrências que compartilham características semelhantes ao exemplo fornecido.
Prompts visuais (cliques): utilizando cliques positivos e negativos, semelhante ao que já estava disponível no SAM 2, permitindo ajustes finos na máscara de segmentação.
Interatividade e correção de erros: caso o modelo falhe ou segmente incorretamente, o usuário pode adicionar novos prompts (texto, caixa ou cliques) para refinar a predição em tempo real.

Como usar prompts exemplar

Basta selecionar um objeto representativo na imagem, desenhar uma caixa ao seu redor e observar o SAM 3 estender a máscara para todas as instâncias semelhantes.

Limitações de interatividade

Embora o modelo permita correções, prompts conflitantes podem gerar máscaras instáveis; recomenda‑se iterar com poucos ajustes por vez.

Desempenho e benchmarks¶

De acordo com os resultados apresentados, o SAM 3 alcança desempenho state‑of‑the‑art em todas as avaliações de segmentação de texto e visão, tanto em imagens quanto em vídeos. Além disso, ele preserva integralmente as funcionalidades e métricas do seu predecessor, o SAM 2, garantindo compatibilidade ascendente para aplicações existentes.

Tarefa	Desempenho relatado
Segmentação de imagem (texto)	SOTA
Segmentação de vídeo (texto)	SOTA
Segmentação visual (cliques)	Mantém nível do SAM 2
Rastreamento de objetos em vídeo	Suporte total

Aplicações no mundo real¶

O modelo está sendo pensado para integrar fluxos de trabalho criativos e científicos:

Instagram Edits: nova app de criação de vídeo que permitirá aplicar efeitos em pessoas ou objetos com poucos toques, usando SAM 3 para segmentação automática.
Meta AI Vibes: recurso dentro do aplicativo Meta AI que trará a mesma capacidade de segmentação para edições rápidas e compartilhamento.
Conservation X Labs: utilização em projetos de monitoramento de biodiversidade, onde a segmentação automática auxilia na contagem e análise de espécies.
FathomNet: conjunto de dados marinhos que se beneficiará da capacidade de detectar e seguir organismos aquáticos em vídeos subaquáticos.

Evolução da família SAM¶

O SAM 3 constrói sobre a base dos modelos anteriores, acrescentando novas funcionalidades enquanto mantém a simplicidade de uso:

Detectar, segmentar e rastrear todos os exemplos de uma categoria de objeto usando apenas texto ou exemplos visuais.
Segmentar um objeto a partir de um único clique.
Manter o rastreamento de objetos segmentados ao longo de sequências de vídeo.
Refinar predições mediante prompts de acompanhamento (texto, caixa ou cliques).
Detectar e segmentar instâncias correspondentes a partir de descrições textuais.
Melhorar a detecção usando exemplos visuais como referência.

Pontos-chave¶

O SAM 3 aceita prompts de texto, exemplos visuais (caixa) e cliques para segmentação precisa em imagens e vídeos.
Ele alcança desempenho state‑of‑the‑

Nota pessoal

https://ai.meta.com/research/sam3/

Links¶

Post original

Tags¶

segmentação #visão-computacional #prompts-multimídia #aplicações-reais¶