Как подобрать VPS для локального LLM на CPU

Можно ли запускать модели 7B–13B без видеокарты, сколько нужно RAM и ядер, зачем NVMe и когда всё же брать GPU.

Для кого эта задача

Локальный запуск LLM (через llama.cpp, Ollama и подобные) на CPU-сервере подходит для чат-ботов, RAG и экспериментов, когда важна приватность данных и предсказуемая оплата в рублях.

На CPU реально работают квантованные модели 7B–13B: скорость ниже, чем на GPU, но для многих задач её достаточно.

Минимальные и рекомендуемые ресурсы

Минимум: 4 vCPU, 16 ГБ RAM, 80 ГБ SSD — для моделей 7B в квантовании (Q4/Q5).

Рекомендуется: 8 vCPU, 32 ГБ RAM, 160 ГБ SSD/NVMe — комфортно для 13B и хранения нескольких моделей.

RAM — критичный ресурс: модель целиком загружается в память, и её нехватка просто не даст запуститься.

На что обратить внимание

Объём RAM под модель. Ориентируйтесь на размер весов в выбранном квантовании плюс запас на контекст.

Число и частота ядер. Инференс на CPU хорошо параллелится — больше ядер ускоряют генерацию токенов.

Диск NVMe. Модели весят гигабайты; быстрый диск ускоряет загрузку и подкачку.

Когда нужен GPU. Если важна высокая скорость ответа или модели крупнее 13B — смотрите пресеты с видеокартой.

Типичные ошибки

Взять 8 ГБ RAM под модель 13B — она просто не поместится в память.

Ждать от CPU скорости GPU: для интенсивной генерации в реальном времени нужен ускоритель.

Экономить на диске — несколько моделей быстро занимают десятки гигабайт.

Чек-лист перед выбором

От 4 vCPU (рекомендуется 8)
От 16 ГБ RAM (рекомендуется 32)
SSD/NVMe от 80 ГБ под модели
Модели 7B–13B в квантовании
Регион RU или EU
Понимание, когда переходить на GPU