Guias¶
As páginas desta seção vão mais fundo do que o guia de Primeiros Passos em um único tópico. Cada uma explica o o quê e o porquê, percorre um caminho de código representativo, e linka para o exemplo executável relevante.
-
Escolha um backend em tempo de build (CPU, Metal, CUDA, Vulkan, ROCm, OpenCL, KleidiAI), descarregue quantas camadas couberem na VRAM, e use as sondas de capacidade
LlamaBackendpara detectar o que está disponível em tempo de execução. -
Os perfis
release-perferelease-size, as flags de build para iOS e Android, os padrõesMobilePresete as ressalvas sobre OpenCL + ICD loaders + NDK. -
Cada sampler que o
llama.cppexpõe (greedy, top-k, top-p, min-p, typical, mirostat, dry, penalties, XTC, grammar…), como encadeá-los comSamplerChain, e pontos de partida recomendados. -
O
RamCacheem processo, oDiskCachebaseado emslede as APIs manuaisllama_state_get_data/llama_state_set_data. Quando o cache de prompt ajuda (e quando não ajuda).
Ordem de leitura¶
Não há uma ordem estrita — cada guia é autocontido. Os caminhos mais comuns através deles são:
flowchart TD
A[Primeiros Passos] --> B{Do que você precisa?}
B -->|Performance em uma GPU específica| C[Backends]
B -->|Distribuir em iOS / Android| D[Mobile]
B -->|Melhorar qualidade de geração| E[Amostragem]
B -->|Chat multi-turno com histórico crescente| F[Cache]
Se você não tem certeza de qual guia é relevante, o índice de Funcionalidades é um ótimo ponto de partida — ele linka para o guia certo para cada feature, e a maioria dos guias referencia um ou dois dos exemplos executáveis.