ru

Ollama VPS для локального запуска больших языковых моделей

Ollama упрощает развёртывание открытых LLM до уровня одной команды, но требует адекватного железа. AnubizHost предоставляет VPS и dedicated серверы под Ollama с GPU NVIDIA, быстрым NVMe диском и большим объёмом RAM. Запускайте Llama 3, Mistral, Qwen, DeepSeek и Phi на собственном сервере без отправки данных в облако и без проверки личности.

Need this done for your project?

We implement, you ship. Async, documented, done in days.

Start a Brief

Минимальные требования для Ollama

Для Ollama с моделями до 7 миллиардов параметров достаточно CPU только конфигурации с 16 ГБ ОЗУ и быстрым NVMe SSD, но скорость инференса будет на уровне нескольких токенов в секунду. Для комфортной работы и моделей 13B и больше нужен GPU с 12 ГБ VRAM и более. Модели 30B и 70B требуют либо мощный GPU 24 ГБ, либо квантизацию до Q4_K_M и разумную скорость только на CPU. Наши тарифы покрывают весь спектр от лёгких VPS до серверов с двумя GPU.

Диск NVMe играет важную роль, поскольку Ollama хранит все модели локально, и при первой загрузке 70B модель занимает около 40 ГБ в квантизованной форме. Если планируете держать несколько моделей одновременно для быстрого переключения, рекомендуется тариф от 500 ГБ диска. RAM желательно иметь не меньше размера выгружаемой в неё модели, плюс запас на операционную систему и сторонние процессы.

Установка и интеграция Ollama

Установка Ollama на чистый сервер занимает одну команду через официальный скрипт. Сервер автоматически открывает порт 11434 для API, совместимого с OpenAI клиентами. К нему легко подключить web интерфейсы Open WebUI, LobeChat или AnythingLLM, а также любой клиент, понимающий OpenAI совместимый протокол, включая Continue для VS Code, Cursor и Cline. Это превращает арендованный сервер в полноценную замену для платных API облачных провайдеров.

Через docker-compose можно поднять связку Ollama плюс Open WebUI плюс reverse proxy за пять минут, и получить полностью изолированную приватную среду для команды или для собственного использования. Логи запросов и ответов остаются только на вашем сервере, AnubizHost не имеет к ним доступа и не сохраняет копии. Это критично для использования LLM в работе с конфиденциальной перепиской, юридическими документами и медицинскими данными.

Когда Ollama лучше API

Самохостинг через Ollama выигрывает у API в нескольких сценариях. Первое, это работа с приватными данными, которые нельзя отправлять на серверы OpenAI, Anthropic или Google по политике компании или по закону. Второе, постоянный высокий объём запросов, при котором месячная оплата фиксированного сервера выходит дешевле, чем подушный счёт за миллионы токенов. Третье, нужда в моделях, которых нет в публичных API, например файнтюненных под конкретный домен или NSFW моделях.

Четвёртое, географические ограничения. Доступ к OpenAI и Anthropic ограничен в России, Иране, Беларуси и ряде других стран. Свой Ollama сервер в офшорной юрисдикции снимает этот вопрос. Оплата криптой решает проблему оплаты для тех, у кого нет рабочих международных карт. AnubizHost принимает только криптовалюту, что также служит дополнительным фильтром приватности.

Why Anubiz Host

100% async — no calls, no meetings
Delivered in days, not weeks
Full documentation included
Production-grade from day one
Security-first approach
Post-delivery support included

Ready to get started?

Skip the research. Tell us what you need, and we'll scope it, implement it, and hand it back — fully documented and production-ready.

Anubiz Chat AI

Online