SubQ: Modelo LLM com atenção esparsa sub-quadrática¶
O tweet de Alexander Whedon anuncia o lançamento do SubQ, um modelo de linguagem que pretende mudar a forma como os LLMs lidam com longas sequências de texto, aproveitando uma nova abordagem de atenção esparsa.
Visão geral do SubQ¶
O SubQ é descrito como o primeiro modelo construído sobre uma arquitetura de atenção esparsa totalmente sub-quadrática (SSA). Além disso, ele é o primeiro modelo de frontier com janela de contexto de 12 milhões de tokens. Essa combinação de escala de contexto e nova arquitetura posiciona o SubQ como um avanço notável no campo dos LLMs.
Arquitetura SSA¶
A arquitetura sub-quadrática sparse-attention (SSA) difere da atenção padrão dos Transformers, que avalia todas as possíveis relações entre palavras (complexidade quadrática). A SSA, porém, localiza e concentra-se apenas nas relações que realmente importam, descartando o restante. Essa filtragem reduz drasticamente o número de operações necessárias.
Observacao
A janela de contexto de 12 milhões de tokens permite que o modelo processe documentos extensos sem a necessidade de truncamento ou divisão em chunks.
Desempenho e eficiência¶
De acordo com o post, o SubQ apresenta ganhos de desempenho significativos:
- 52× mais rápido que o FlashAttention ao processar 1 milhão de tokens.
- Menos de 5 % do custo computacional do modelo Opus.
- Quase 1.000× menos compute em comparação com a atenção padrão, devido ao foco seletivo nas relações relevantes.
Esses números indicam que o SubQ pode atender a cargas de trabalho de longa sequência com muito menor consumo de recursos.
Dica
A redução de custo e aumento de velocidade tornam o SubQ atraente para aplicações que exigem processamento de grandes volumes de texto, como análise de documentos legais ou científicos.
Comparação com FlashAttention e Opus¶
Para contextualizar os ganhos, o autor compara o SubQ com duas tecnologias de referência:
| Característica | SubQ | FlashAttention | Opus |
|---|---|---|---|
| Arquitetura de atenção | SSA (sub-quadrática esparsa) | Atenção densa otimizada | Atenção densa padrão |
| Janela de contexto | 12 mi tokens | Limitada (dependente da implementação) | Limitada (típica de LLMs grandes) |
| Velocidade relativa (1 MM tokens) | 1× (base) | 1/52× | Não especificado |
| Custo relativo | <5 % do Opus | Não especificado | 1× (base) |
A tabela acima resume as afirmações feitas no tweet, mostrando como o SubQ se posiciona em termos de velocidade, custo e capacidade de contexto.
Atencao
Os números de desempenho são baseados nas comparações citadas pelo autor e devem ser validados com benchmarks independentes antes de decisões de adoção em produção.
Pontos-chave¶
- O SubQ é o primeiro LLM com arquitetura de atenção esparsa totalmente sub-quadrática (SSA).
- Possui uma janela de contexto inédita de 12 milhões de tokens.
- Apresenta 52× de velocidade acima do FlashAttention em 1 MM tokens e custa menos de 5 % do
Ferramentas e Tecnologias¶
- [[FlashAttention]]
Nota pessoal
https://x.com/i/status/2051663268704636937