Surya: Modelo OCR aberto de 650M com alta performance¶
O anuncio apresentado no X pela comunidade GitHub Projects apresenta o Surya, um modelo OCR de código aberto com 650 M de parâmetros. Ele se destaca por sua eficiência e acurácia em benchmarks reconhecidos, além de trazer recursos avançados de processamento de documentos.
Visão geral do modelo¶
O Surya é descrito como um modelo OCR aberto que contém 650 milhões de parâmetros. Sua arquitetura foi projetada para equilibrar tamanho e desempenho, permitindo execução em hardware de consumo elevado, como a GPU RTX 5090.
Observacao
O modelo é liberado sob licença de código aberto, facilitando sua adoção e modificação pela comunidade.
Principais métricas de desempenho¶
No benchmark olmOCR-bench, o Surya atingiu 83,3% de acurácia, posicionando‑se como o melhor modelo com menos de 3 B parâmetros. Em termos de throughput, ele processa cerca de 5 páginas por segundo na RTX 5090. Em avaliações multilíngues, o modelo alcançou 87,2% de acurácia em um conjunto de 91 idiomas.
| Métrica | Valor |
|---|---|
| Parâmetros | 650 M |
| Acurácia olmOCR-bench | 83,3 % |
| Throughput (RTX 5090) | 5 páginas/segundo |
| Acurácia multilíngue (91 idi) | 87,2 % |
Dica
Esses números colocam o Surya entre os principais modelos OCR leves e eficientes disponíveis atualmente.
Recursos integrados¶
Além da detecção de texto, o Surya vem com funcionalidades prontas para uso:
- Análise de layout (identificação de colunas, blocos de texto e figuras)
- Ordem de leitura (recuperação da sequência lógica de leitura em documentos complexos)
- Reconhecimento de tabelas (extração de estruturas tabulares com precisão)
Atencao
Embora o modelo seja open‑source, o desempenho máximo depende de GPUs recentes; em hardware mais antigo o throughput pode ser reduzido.
Como experimentar¶
O post fornece um link direto para explorar o modelo (via a plataforma hospedada em osp.fyi). Não há instruções detalhadas de instalação no extrato, mas o repositório público permite clonar, instalar dependências e executar inferência em imagens ou PDFs.
Pontos-chave¶
- Surya é um modelo OCR aberto de 650 M de parâmetros com alta acurácia.
- Obtém 83,3% no olmOCR-bench e processa 5 páginas/segundo em uma RTX 5090.
- Inclui análise de layout, ordem de leitura e reconhecimento de tabelas incorporados.
- Alcança 87,2% de acurácia em benchmark multilíngue de 91 idiomas.
- Disponível para acesso público via link fornecido no post.
Ferramentas e Tecnologias¶
- [[Surya]]
- [[olmOCR-bench]]
Nota pessoal
https://x.com/i/status/2062906381624385878