Как подобрать VPS для локального LLM на CPU
Можно ли запускать модели 7B–13B без видеокарты, сколько нужно RAM и ядер, зачем NVMe и когда всё же брать GPU.
Для кого эта задача
Локальный запуск LLM (через llama.cpp, Ollama и подобные) на CPU-сервере подходит для чат-ботов, RAG и экспериментов, когда важна приватность данных и предсказуемая оплата в рублях.
На CPU реально работают квантованные модели 7B–13B: скорость ниже, чем на GPU, но для многих задач её достаточно.
Минимальные и рекомендуемые ресурсы
Минимум: 4 vCPU, 16 ГБ RAM, 80 ГБ SSD — для моделей 7B в квантовании (Q4/Q5).
Рекомендуется: 8 vCPU, 32 ГБ RAM, 160 ГБ SSD/NVMe — комфортно для 13B и хранения нескольких моделей.
RAM — критичный ресурс: модель целиком загружается в память, и её нехватка просто не даст запуститься.
На что обратить внимание
Объём RAM под модель. Ориентируйтесь на размер весов в выбранном квантовании плюс запас на контекст.
Число и частота ядер. Инференс на CPU хорошо параллелится — больше ядер ускоряют генерацию токенов.
Диск NVMe. Модели весят гигабайты; быстрый диск ускоряет загрузку и подкачку.
Когда нужен GPU. Если важна высокая скорость ответа или модели крупнее 13B — смотрите пресеты с видеокартой.
Типичные ошибки
Взять 8 ГБ RAM под модель 13B — она просто не поместится в память.
Ждать от CPU скорости GPU: для интенсивной генерации в реальном времени нужен ускоритель.
Экономить на диске — несколько моделей быстро занимают десятки гигабайт.
Чек-лист перед выбором
- От 4 vCPU (рекомендуется 8)
- От 16 ГБ RAM (рекомендуется 32)
- SSD/NVMe от 80 ГБ под модели
- Модели 7B–13B в квантовании
- Регион RU или EU
- Понимание, когда переходить на GPU