Conteúdo
⚕ *Hermes Agent*
────────────
Pergunta certa. Para rodar o Hermes de verdade (com tool use, raciocínio, agente), VRAM é o que manda — não é a velocidade da placa, é quanta memória ela tem. Quanto mais VRAM, maior o modelo que cabe, e modelo maior = qualidade pra sustentar o agente.
🎯 A regra de ouro: VRAM acima de tudo
O Hermes precisa de um modelo bom (não um 7B fraco) pra fazer tool use e raciocínio de forma confiável. Isso pede 14B–32B. Então mire em VRAM, não em FPS de jogo.
🏆 Melhores GPUs usadas por custo-benefício (mercado BR)
🥇 A escolha campeã: RTX 3060 12GB
- VRAM: 12 GB — o ponto doce do custo-benefício
- Preço usado BR: ~R$ 1.300–1.800
- Roda: modelos 14B com folga, até 32B quantizado (Q4) apertado
- Por que: é a placa mais recomendada do mundo pra IA local barata. 12 GB num preço baixo é raro. Atenção: existe versão de 8 GB — você quer a de 12 GB.
🥈 Melhor custo por GB de VRAM: Tesla P40 24GB
- VRAM: 24 GB — monstruoso pelo preço
- Preço usado BR: ~R$ 900–1.500
- Roda: modelos 32B tranquilo, até 70B quantizado apertado
- Pegadinhas: é placa de servidor — sem saída de vídeo, precisa de refrigeração improvisada (cooler adaptado) e fonte boa. Mais "projeto", mas imbatível em VRAM por real.
🥉 Se achar barata: RTX 3090 24GB
- VRAM: 24 GB + muito rápida
- Preço usado BR: ~R$ 3.500–5.000
- Roda: 32B liso, 70B quantizado — qualidade quase de API
- Por que: é o sonho do entusiasta de IA local. Cara, mas é a que entrega Hermes "em totalidade" de verdade.
📊 Resumo da decisão
| GPU | VRAM | Preço usado BR | Veredito |
|---|---|---|---|
| RTX 3060 12GB | 12 GB | R$ 1.300–1.800 | 🟢 Melhor entrada — compre essa |
| Tesla P40 24GB | 24 GB | R$ 900–1.500 | 🟡 Mais VRAM/R$, mas dá trabalho montar |
| RTX 3090 24GB | 24 GB | R$ 3.500–5.000 | 🟢 Melhor qualidade, se o bolso deixar |
💡 Minha recomendação direta
Para "Hermes em totalidade com baixo custo": RTX 3060 12GB usada. É o equilíbrio perfeito — barata, fácil de instalar (placa normal, plug-and-play), e os 12 GB rodam modelos 14B–32B que sustentam o agente com qualidade real.
Se você curte mexer em hardware e quer o máximo de VRAM por menos: Tesla P40 24GB — mas prepare-se pra adaptar refrigeração.
⚠️ A verdade honesta
Mesmo com RTX 3090 (24GB), um modelo local 32B não vai igualar o Claude/GPT que você usa via API hoje em tarefas complexas. Local ganha em privacidade e custo-zero-por-token; API ainda ganha em qualidade pura. Para automações, processar notas e uso diário do agente, a 3060 12GB entrega muito bem.
O que olhar ao comprar usada:
- Confirme a VRAM (foto do nvidia-smi ou GPU-Z do vendedor)
- Peça pra rodar um teste/print de temperatura
- Prefira vendedor com reputação (mineração desgasta — pergunte o uso)
Quer que eu monte uma nota no Obsidian com esse guia de compra + quais modelos rodar em cada faixa de VRAM, pra você consultar na hora de comprar?