Ir para o conteúdo

Escolhendo um modelo

Escolher o GGUF certo para o trabalho é principalmente sobre quatro eixos: tamanho, quant, arquitetura e modalidade. Esta página é um guia curto para cada um.

Os quatro eixos

flowchart LR
    A[Escolha um modelo] --> B[Tamanho]
    A --> C[Quant]
    A --> D[Arquitetura]
    A --> E[Modalidade]
Eixo O que você escolhe Trade-off
Tamanho 0.5B / 1B / 3B / 7B / 13B / 70B parâmetros. Maior = mais inteligente mas mais lento e mais memória.
Quant F16 / Q8_0 / Q6_K / Q5_K_M / Q4_K_M / Q3_K_M / Q2_K. Quant menor = menos memória, ligeiramente menos preciso.
Arquitetura Llama 3, Qwen 2.5, Gemma 3, Mistral, Phi-3, … Cada uma tem um template de chat, formato de tool e licença diferentes.
Modalidade Texto, visão, áudio, multimodal. Visão precisa de mtmd; áudio precisa de um projetor compatível.

Uma cheat-sheet de tamanho

Tamanho Melhor para Memória (Q4_K_M) Velocidade em uma 4090
0.5B Demos, REPLs, smoke tests. ~400 MB ~120 tok/s.
1B Assistentes simples, classificação. ~800 MB ~90 tok/s.
3B Chatbots de usuário único. ~2 GB ~50 tok/s.
7B Assistentes de propósito geral. ~4 GB ~30 tok/s.
13B Assistentes de maior qualidade. ~8 GB ~20 tok/s.
70B Qualidade de fronteira. ~40 GB ~6 tok/s.

Esses números são para geração, não retrieval. Modelos de embedding geralmente são 0.1–0.5 GB.

Escolhendo um quant

Quant Bits por peso Perda de qualidade Quando usar
F16 16 Nenhuma. Referência. Quase nunca enviado.
Q8_0 8 Negligível. Quando você tem a VRAM.
Q6_K 6.5 Minúscula. Orçamento médio.
Q5_K_M 5.7 Pequena. Bom padrão.
Q4_K_M 4.8 Notável em contextos longos. O padrão mais comum.
Q3_K_M 3.9 Visível em tarefas de raciocínio. Quando você precisa economizar 1–2 GB.
Q2_K 3.4 Significativa. Apenas para orçamentos de memória muito apertados.

As quantizações K são um formato mais novo que divide os pesos em "super-blocks" e aplica uma precisão maior aos sensíveis. Elas geralmente produzem melhor qualidade que os quants não-K na mesma taxa de bits.

Escolhendo uma arquitetura

Arquitetura Licença Quando usar
Llama 3 / 3.1 / 3.2 / 3.3 Licença comunitária Llama 3. Propósito geral. Amplo suporte de tooling.
Qwen 2 / 2.5 Apache 2.0. Forte em multilíngue e tool calling.
Gemma 2 / 3 Licença Gemma. Líder de qualidade-por-parâmetro no lado pequeno.
Mistral / Mixtral Apache 2.0. Instruct e tool calling fortes.
Phi-3 / Phi-3.5 MIT. Pequeno mas capaz; ótimo para celulares.
DeepSeek-V2 / V2.5 Licença DeepSeek. Forte em código e raciocínio.
Command R / R+ CC-BY-NC. Ajustado para RAG; contexto longo.

Para a maioria dos usuários, a escolha se resume a:

  • Compatibilidade de licença com seu canal de distribuição.
  • Tool calling — Qwen 2.5, Llama 3, Mistral e DeepSeek são os mais fortes.
  • Multilíngue — Qwen 2.5 e DeepSeek são os mais fortes.
  • Qualidade em tamanhos pequenos — Gemma 2 e Phi-3 são os mais fortes.

Escolhendo uma modalidade

Modalidade Feature do Cargo Projetor necessário? Quando usar
Apenas texto Não. A maioria dos chatbots, RAG, agentes.
Visão mtmd Sim (mmproj-*.gguf). Q&A de imagem, extração de documentos.
Áudio mtmd Sim. Speech-to-text, Q&A de áudio.
Multimodal mtmd Sim. Entradas combinadas.

O projetor de visão deve corresponder ao modelo de texto. Gemma 4 e LFM2.5-VL vêm com projetores de visão separados; Qwen 2.5-VL tem um único GGUF multimodal.

Um conjunto inicial recomendado

Caso de uso Modelo
Demos e CI Qwen2.5-0.5B-Instruct-GGUF (Q4_K_M, ~400 MB).
Chatbot de usuário único Qwen2.5-7B-Instruct-GGUF (Q4_K_M, ~4 GB).
Assistente de fronteira Llama-3.3-70B-Instruct-GGUF (Q4_K_M, ~40 GB).
Embeddings bge-small-en-v1.5-gguf (~30 MB).
Reranker bge-reranker-base-Q4_K_M-GGUF (~600 MB).
Visão gemma-4-E4B-it-GGUF + mmproj-gemma-4-E4B-it-BF16.gguf.
Celular Qwen2.5-0.5B-Instruct-GGUF + MobilePreset::Balanced.

Por onde ir a partir daqui