Receitas¶

Esta seção coleta receitas ponta a ponta para as tarefas mais comuns. Cada receita é um programa pequeno e completo com um resumo de uma linha do que faz, o código-fonte completo, e uma discussão dos trade-offs.

Ajuste de performance

Meça tokens por segundo, encontre o gargalo e ajuste n_threads, n_gpu_layers, tamanho de batch e cadeia de sampler para maximizar o throughput no seu hardware.
Escolhendo um modelo

Tamanho do quant vs. acurácia vs. velocidade vs. memória. Um guia curto para escolher o GGUF certo para o trabalho.
Construindo um chatbot

Do REPL de 80 linhas a um agente deployável: máquinas de estado, tool calls, corte de histórico e persistência de sessão.
Construindo um pipeline RAG

Embed → store → retrieve → re-rank → answer. O padrão ponta a ponta completo.

Ordem de leitura¶

As receitas são independentes — escolha a que corresponde à sua tarefa atual. Se você é novo no llama-crab, a página Ajuste de performance é um bom ponto de partida porque te ensina a medir antes de otimizar.

flowchart LR
    A[Quickstart] --> B[Ajuste de performance]
    A --> C[Escolhendo um modelo]
    A --> D[Chatbot]
    A --> E[RAG]