Ir para o conteúdo

Surya: Modelo OCR aberto de 650M com alta performance

O anuncio apresentado no X pela comunidade GitHub Projects apresenta o Surya, um modelo OCR de código aberto com 650 M de parâmetros. Ele se destaca por sua eficiência e acurácia em benchmarks reconhecidos, além de trazer recursos avançados de processamento de documentos.

Visão geral do modelo

O Surya é descrito como um modelo OCR aberto que contém 650 milhões de parâmetros. Sua arquitetura foi projetada para equilibrar tamanho e desempenho, permitindo execução em hardware de consumo elevado, como a GPU RTX 5090.

Observacao

O modelo é liberado sob licença de código aberto, facilitando sua adoção e modificação pela comunidade.

Principais métricas de desempenho

No benchmark olmOCR-bench, o Surya atingiu 83,3% de acurácia, posicionando‑se como o melhor modelo com menos de 3 B parâmetros. Em termos de throughput, ele processa cerca de 5 páginas por segundo na RTX 5090. Em avaliações multilíngues, o modelo alcançou 87,2% de acurácia em um conjunto de 91 idiomas.

Métrica Valor
Parâmetros 650 M
Acurácia olmOCR-bench 83,3 %
Throughput (RTX 5090) 5 páginas/segundo
Acurácia multilíngue (91 idi) 87,2 %

Dica

Esses números colocam o Surya entre os principais modelos OCR leves e eficientes disponíveis atualmente.

Recursos integrados

Além da detecção de texto, o Surya vem com funcionalidades prontas para uso:

  • Análise de layout (identificação de colunas, blocos de texto e figuras)
  • Ordem de leitura (recuperação da sequência lógica de leitura em documentos complexos)
  • Reconhecimento de tabelas (extração de estruturas tabulares com precisão)

Atencao

Embora o modelo seja open‑source, o desempenho máximo depende de GPUs recentes; em hardware mais antigo o throughput pode ser reduzido.

Como experimentar

O post fornece um link direto para explorar o modelo (via a plataforma hospedada em osp.fyi). Não há instruções detalhadas de instalação no extrato, mas o repositório público permite clonar, instalar dependências e executar inferência em imagens ou PDFs.

Pontos-chave

  • Surya é um modelo OCR aberto de 650 M de parâmetros com alta acurácia.
  • Obtém 83,3% no olmOCR-bench e processa 5 páginas/segundo em uma RTX 5090.
  • Inclui análise de layout, ordem de leitura e reconhecimento de tabelas incorporados.
  • Alcança 87,2% de acurácia em benchmark multilíngue de 91 idiomas.
  • Disponível para acesso público via link fornecido no post.

Ferramentas e Tecnologias

  • [[Surya]]
  • [[olmOCR-bench]]

Nota pessoal

https://x.com/i/status/2062906381624385878

Tags

OCR #modelo-aberto #desempenho #multilíngue #layout-analysis