Сервер для Whisper AI и распознавания речи на GPU
OpenAI Whisper остаётся лучшей open source моделью для распознавания речи на множестве языков, включая русский. AnubizHost предоставляет серверы под Whisper с GPU NVIDIA, NVMe SSD и быстрым CPU. Запускайте транскрипцию подкастов, видео и аудио файлов локально без отправки данных в облако. Оплата только криптой, без верификации личности.
Need this done for your project?
We implement, you ship. Async, documented, done in days.
Размеры моделей Whisper и требования
Whisper доступен в нескольких размерах от tiny до large-v3 и turbo. Маленькие модели tiny и base работают даже на CPU, но качество распознавания значительно ниже, особенно на сложных аудио и неанглийских языках. Medium и large модели требуют GPU с 8 до 16 ГБ VRAM для комфортной скорости. Large-v3 даёт наилучшее качество и поддерживает 99 языков с высокой точностью. Наши тарифы покрывают все размеры моделей.
Альтернативой оригинальному Whisper служит faster-whisper на основе CTranslate2, который работает в 4 до 10 раз быстрее при сопоставимом качестве и более низком потреблении VRAM. Также популярна WhisperX для точного word level alignment и diarization, что критично для генерации субтитров и расшифровки многоголосых записей. Все эти варианты разворачиваются через pip без сложной настройки.
Типичные сценарии использования
Whisper применяется для транскрипции подкастов и интервью, генерации субтитров для видео контента, расшифровки звонков техподдержки и переговоров, индексации аудио архивов для поиска по тексту, голосового ввода и dictation систем, переводе речи между языками. На сервере с GPU обработка одного часа аудио large-v3 моделью занимает примерно 10 до 30 минут в зависимости от тарифа и языка.
Для batch обработки больших архивов рекомендуется поднять очередь через Celery или Redis Queue, где задачи распределяются между воркерами. На dedicated тарифах с двумя GPU можно одновременно обрабатывать несколько аудио файлов, что значительно ускоряет обработку терабайтных архивов. NVMe SSD на 500 ГБ позволяет хранить и обрабатывать большие коллекции локально без необходимости постоянной выгрузки на внешние хранилища.
Приватность аудио
Облачные API распознавания речи требуют отправки исходного аудио на серверы провайдера, что неприемлемо для конфиденциальных записей. Это могут быть юридические консультации, медицинские приёмы, корпоративные совещания, журналистские интервью с защищёнными источниками. Самохостинг Whisper полностью устраняет эту проблему, поскольку аудио никогда не покидает арендованную VM.
AnubizHost не имеет доступа к содержимому VM и не сохраняет копии данных. Для дополнительной защиты можно зашифровать диск через LUKS на этапе развёртывания и хранить ключ вне сервера. Также рекомендуется работать только через VPN или SSH туннель, без открытых портов в публичной сети. Оплата криптой завершает контур приватности, не оставляя финансового следа транскрипции конкретных аудио источников.
Related Services
Why Anubiz Host
Ready to get started?
Skip the research. Tell us what you need, and we'll scope it, implement it, and hand it back — fully documented and production-ready.