SubQ: Modelo LLM com atenção esparsa sub-quadrática¶

O tweet de Alexander Whedon anuncia o lançamento do SubQ, um modelo de linguagem que pretende mudar a forma como os LLMs lidam com longas sequências de texto, aproveitando uma nova abordagem de atenção esparsa.

Visão geral do SubQ¶

O SubQ é descrito como o primeiro modelo construído sobre uma arquitetura de atenção esparsa totalmente sub-quadrática (SSA). Além disso, ele é o primeiro modelo de frontier com janela de contexto de 12 milhões de tokens. Essa combinação de escala de contexto e nova arquitetura posiciona o SubQ como um avanço notável no campo dos LLMs.

Arquitetura SSA¶

A arquitetura sub-quadrática sparse-attention (SSA) difere da atenção padrão dos Transformers, que avalia todas as possíveis relações entre palavras (complexidade quadrática). A SSA, porém, localiza e concentra-se apenas nas relações que realmente importam, descartando o restante. Essa filtragem reduz drasticamente o número de operações necessárias.

Observacao

A janela de contexto de 12 milhões de tokens permite que o modelo processe documentos extensos sem a necessidade de truncamento ou divisão em chunks.

Desempenho e eficiência¶

De acordo com o post, o SubQ apresenta ganhos de desempenho significativos:

52× mais rápido que o FlashAttention ao processar 1 milhão de tokens.
Menos de 5 % do custo computacional do modelo Opus.
Quase 1.000× menos compute em comparação com a atenção padrão, devido ao foco seletivo nas relações relevantes.

Esses números indicam que o SubQ pode atender a cargas de trabalho de longa sequência com muito menor consumo de recursos.

Dica

A redução de custo e aumento de velocidade tornam o SubQ atraente para aplicações que exigem processamento de grandes volumes de texto, como análise de documentos legais ou científicos.

Comparação com FlashAttention e Opus¶

Para contextualizar os ganhos, o autor compara o SubQ com duas tecnologias de referência:

Característica	SubQ	FlashAttention	Opus
Arquitetura de atenção	SSA (sub-quadrática esparsa)	Atenção densa otimizada	Atenção densa padrão
Janela de contexto	12 mi tokens	Limitada (dependente da implementação)	Limitada (típica de LLMs grandes)
Velocidade relativa (1 MM tokens)	1× (base)	1/52×	Não especificado
Custo relativo	<5 % do Opus	Não especificado	1× (base)

A tabela acima resume as afirmações feitas no tweet, mostrando como o SubQ se posiciona em termos de velocidade, custo e capacidade de contexto.

Atencao

Os números de desempenho são baseados nas comparações citadas pelo autor e devem ser validados com benchmarks independentes antes de decisões de adoção em produção.

Pontos-chave¶

O SubQ é o primeiro LLM com arquitetura de atenção esparsa totalmente sub-quadrática (SSA).
Possui uma janela de contexto inédita de 12 milhões de tokens.
Apresenta 52× de velocidade acima do FlashAttention em 1 MM tokens e custa menos de 5 % do

Ferramentas e Tecnologias¶

[[FlashAttention]]

Nota pessoal

https://x.com/i/status/2051663268704636937

Links¶

Post original

Tags¶

subquadrático #atenção-esparsa #grande-contexto #eficiência-computacional #comparação-FlashAttention¶