Ir para o conteúdo

SAM 3 – Modelo de Segmentação Multimodal da Meta

O Segment Anything Model 3 (SAM 3) representa um avanço na capacidade de modelos de visão de interpretar e agir sobre instruções tanto textuais quanto visuais. Desenvolvido pela Meta, ele permite que usuários segmenetem e acompanhem qualquer objeto em imagens ou vídeos simplesmente descrevendo-o com palavras ou fornecendo exemplos visuais, ampliando a acessibilidade de técnicas avançadas de segmentação para criadores e pesquisadores.

Principais recursos de prompting

O SAM 3 aceita quatro tipos principais de prompts, cada um projetado para diferentes cenários de interação:

  • Prompts de texto: palavras ou frases curtas que descrevem o objeto desejado; o modelo retorna máscaras para todas as instâncias que correspondem à descrição.
  • Prompts exemplar (caixa): desenhar uma caixa ao redor de um exemplo do objeto; o SAM 3 segmenta todas as ocorrências que compartilham características semelhantes ao exemplo fornecido.
  • Prompts visuais (cliques): utilizando cliques positivos e negativos, semelhante ao que já estava disponível no SAM 2, permitindo ajustes finos na máscara de segmentação.
  • Interatividade e correção de erros: caso o modelo falhe ou segmente incorretamente, o usuário pode adicionar novos prompts (texto, caixa ou cliques) para refinar a predição em tempo real.

Como usar prompts exemplar

Basta selecionar um objeto representativo na imagem, desenhar uma caixa ao seu redor e observar o SAM 3 estender a máscara para todas as instâncias semelhantes.

Limitações de interatividade

Embora o modelo permita correções, prompts conflitantes podem gerar máscaras instáveis; recomenda‑se iterar com poucos ajustes por vez.

Desempenho e benchmarks

De acordo com os resultados apresentados, o SAM 3 alcança desempenho state‑of‑the‑art em todas as avaliações de segmentação de texto e visão, tanto em imagens quanto em vídeos. Além disso, ele preserva integralmente as funcionalidades e métricas do seu predecessor, o SAM 2, garantindo compatibilidade ascendente para aplicações existentes.

Tarefa Desempenho relatado
Segmentação de imagem (texto) SOTA
Segmentação de vídeo (texto) SOTA
Segmentação visual (cliques) Mantém nível do SAM 2
Rastreamento de objetos em vídeo Suporte total

Aplicações no mundo real

O modelo está sendo pensado para integrar fluxos de trabalho criativos e científicos:

  • Instagram Edits: nova app de criação de vídeo que permitirá aplicar efeitos em pessoas ou objetos com poucos toques, usando SAM 3 para segmentação automática.
  • Meta AI Vibes: recurso dentro do aplicativo Meta AI que trará a mesma capacidade de segmentação para edições rápidas e compartilhamento.
  • Conservation X Labs: utilização em projetos de monitoramento de biodiversidade, onde a segmentação automática auxilia na contagem e análise de espécies.
  • FathomNet: conjunto de dados marinhos que se beneficiará da capacidade de detectar e seguir organismos aquáticos em vídeos subaquáticos.

Evolução da família SAM

O SAM 3 constrói sobre a base dos modelos anteriores, acrescentando novas funcionalidades enquanto mantém a simplicidade de uso:

  • Detectar, segmentar e rastrear todos os exemplos de uma categoria de objeto usando apenas texto ou exemplos visuais.
  • Segmentar um objeto a partir de um único clique.
  • Manter o rastreamento de objetos segmentados ao longo de sequências de vídeo.
  • Refinar predições mediante prompts de acompanhamento (texto, caixa ou cliques).
  • Detectar e segmentar instâncias correspondentes a partir de descrições textuais.
  • Melhorar a detecção usando exemplos visuais como referência.

Pontos-chave

  • O SAM 3 aceita prompts de texto, exemplos visuais (caixa) e cliques para segmentação precisa em imagens e vídeos.
  • Ele alcança desempenho state‑of‑the‑

Nota pessoal

https://ai.meta.com/research/sam3/

Tags

segmentação #visão-computacional #prompts-multimídia #aplicações-reais