Ir para o conteúdo

SubQ: Modelo LLM com atenção esparsa sub-quadrática

O tweet de Alexander Whedon anuncia o lançamento do SubQ, um modelo de linguagem que pretende mudar a forma como os LLMs lidam com longas sequências de texto, aproveitando uma nova abordagem de atenção esparsa.

Visão geral do SubQ

O SubQ é descrito como o primeiro modelo construído sobre uma arquitetura de atenção esparsa totalmente sub-quadrática (SSA). Além disso, ele é o primeiro modelo de frontier com janela de contexto de 12 milhões de tokens. Essa combinação de escala de contexto e nova arquitetura posiciona o SubQ como um avanço notável no campo dos LLMs.

Arquitetura SSA

A arquitetura sub-quadrática sparse-attention (SSA) difere da atenção padrão dos Transformers, que avalia todas as possíveis relações entre palavras (complexidade quadrática). A SSA, porém, localiza e concentra-se apenas nas relações que realmente importam, descartando o restante. Essa filtragem reduz drasticamente o número de operações necessárias.

Observacao

A janela de contexto de 12 milhões de tokens permite que o modelo processe documentos extensos sem a necessidade de truncamento ou divisão em chunks.

Desempenho e eficiência

De acordo com o post, o SubQ apresenta ganhos de desempenho significativos:

  • 52× mais rápido que o FlashAttention ao processar 1 milhão de tokens.
  • Menos de 5 % do custo computacional do modelo Opus.
  • Quase 1.000× menos compute em comparação com a atenção padrão, devido ao foco seletivo nas relações relevantes.

Esses números indicam que o SubQ pode atender a cargas de trabalho de longa sequência com muito menor consumo de recursos.

Dica

A redução de custo e aumento de velocidade tornam o SubQ atraente para aplicações que exigem processamento de grandes volumes de texto, como análise de documentos legais ou científicos.

Comparação com FlashAttention e Opus

Para contextualizar os ganhos, o autor compara o SubQ com duas tecnologias de referência:

Característica SubQ FlashAttention Opus
Arquitetura de atenção SSA (sub-quadrática esparsa) Atenção densa otimizada Atenção densa padrão
Janela de contexto 12 mi tokens Limitada (dependente da implementação) Limitada (típica de LLMs grandes)
Velocidade relativa (1 MM tokens) 1× (base) 1/52× Não especificado
Custo relativo <5 % do Opus Não especificado 1× (base)

A tabela acima resume as afirmações feitas no tweet, mostrando como o SubQ se posiciona em termos de velocidade, custo e capacidade de contexto.

Atencao

Os números de desempenho são baseados nas comparações citadas pelo autor e devem ser validados com benchmarks independentes antes de decisões de adoção em produção.

Pontos-chave

  • O SubQ é o primeiro LLM com arquitetura de atenção esparsa totalmente sub-quadrática (SSA).
  • Possui uma janela de contexto inédita de 12 milhões de tokens.
  • Apresenta 52× de velocidade acima do FlashAttention em 1 MM tokens e custa menos de 5 % do

Ferramentas e Tecnologias

  • [[FlashAttention]]

Nota pessoal

https://x.com/i/status/2051663268704636937

Tags

subquadrático #atenção-esparsa #grande-contexto #eficiência-computacional #comparação-FlashAttention