Ir para o conteúdo

Receitas

Esta seção coleta receitas ponta a ponta para as tarefas mais comuns. Cada receita é um programa pequeno e completo com um resumo de uma linha do que faz, o código-fonte completo, e uma discussão dos trade-offs.

  • Ajuste de performance

    Meça tokens por segundo, encontre o gargalo e ajuste n_threads, n_gpu_layers, tamanho de batch e cadeia de sampler para maximizar o throughput no seu hardware.

  • Escolhendo um modelo

    Tamanho do quant vs. acurácia vs. velocidade vs. memória. Um guia curto para escolher o GGUF certo para o trabalho.

  • Construindo um chatbot

    Do REPL de 80 linhas a um agente deployável: máquinas de estado, tool calls, corte de histórico e persistência de sessão.

  • Construindo um pipeline RAG

    Embed → store → retrieve → re-rank → answer. O padrão ponta a ponta completo.

Ordem de leitura

As receitas são independentes — escolha a que corresponde à sua tarefa atual. Se você é novo no llama-crab, a página Ajuste de performance é um bom ponto de partida porque te ensina a medir antes de otimizar.

flowchart LR
    A[Quickstart] --> B[Ajuste de performance]
    A --> C[Escolhendo um modelo]
    A --> D[Chatbot]
    A --> E[RAG]