Транскрибируем аудио на Ubuntu: Установка OpenAI Whisper на сервере

Транскрибируем аудио на Ubuntu: Установка OpenAI Whisper на сервере

OpenAI Whisper — это не просто программа для транскрипции. Это универсальная нейросетевая модель с открытым исходным кодом, разработанная OpenAI, которая может выполнять целый ряд задач, связанных с обработкой речи и аудио.

Что может OpenAI Whisper?

1. Транскрипция (распознавание речи)

Это её основная и самая известная функция.

  • Высокая точность: Whisper обучен на огромном и разнообразном наборе данных, что обеспечивает высокую точность распознавания даже при наличии фонового шума, акцентов и неидеального качества записи.
  • Поддержка многих языков: Он может транскрибировать речь на многих языках (более 50). Ты можешь указать язык с помощью флага --language ru, как делала в своих заметках, что значительно повышает точность.
2. Перевод речи (Speech Translation)

Whisper может не только транскрибировать, но и сразу переводить распознанную речь на английский язык. Ты подаёшь ему аудиозапись, например, на русском, а он выдаёт текст на английском.

  • Команда: Это делается с помощью флага --task translate.
3. Идентификация языка (Language Identification)

Если ты не знаешь, на каком языке говорит диктор в аудиофайле, Whisper может это определить. При транскрипции он автоматически определяет доминирующий язык в аудио, если ты не указываешь его явно.

4. Разные форматы вывода
  • Текстовый файл (.txt): Чистая транскрипция.
  • Файл субтитров (.srt, .vtt): Включает временные метки, что критически важно для создания субтитров к видео.
  • JSON (.json): Подробный структурированный вывод, удобный для программной обработки.
5. Разные модели (уровни точности и скорости)

Whisper поставляется с несколькими моделями разного размера: tiny, base, small, medium, и large.

Модель
Размер (параметры)
Ресурсы
Скорость/Точность
tiny
Самая маленькая
Минимум
Самая быстрая, низкая точность
base
Маленькая
Низкие
Хороший баланс
small
Средняя
Средние
Выше точность, медленнее
medium
Большая
Высокие
Очень высокая точность, медленная
large
Самая большая
Максимум
Максимальная точность

Вот пошаговая инструкция, основанная на моём опыте с Ubuntu, как получить текст из аудиозаписи (для теста я использовала запись радио передачи).

Подготовка среды Ubuntu

Для успешной работы Whisper тебе потребуется Python 3, его менеджер пакетов pip и, самое главное, библиотека ffmpeg для обработки аудио.

Шаг 1: Обновление системы и установка ffmpeg

ffmpeg — это критически важный инструмент, который Whisper использует для чтения и декодирования аудиофайлов (например, .mp3).

# Обновляем список пакетов
sudo apt update

# Устанавливаем ffmpeg и другие зависимости
sudo apt install -y ffmpeg python3 python3-pip

Шаг 2: Установка Whisper и зависимостей (рекомендуемый способ)

Я рекомендую использовать pipx. Он устанавливает приложения Python в изолированные окружения, предотвращая конфликты зависимостей с другими твоими проектами. Он также автоматически добавляет исполняемый файл в системный путь $PATH.

Установи pipx:

sudo apt install pipx
pipx ensurepath
# Применяем изменения к текущей сессии оболочки (shell)
source ~/.bashrc # или ~/.zshrc, в зависимости от твоей оболочки

Установи Whisper через pipx: Устанавливаем прямо из репозитория OpenAI на GitHub:

pipx install git+https://github.com/openai/whisper.git

После этих манипуляций команда whisper должна быть доступна в твоей консоли.

Запуск транскрипции

Проверить работу можно, запустив транскрибацию твоего файла (imja_faila.mp3).

Использование команды Whisper:

whisper imja_faila.mp3 --model base --language ru

  • imja_faila.mp3: Путь к твоему аудиофайлу.
  • --model base: Мы используем базовую модель, как самую быструю. Если нужна более высокая точность, можешь попробовать small или medium (они требуют больше ресурсов).
  • --language ru: Указание русского языка значительно ускоряет процесс и повышает точность.

Как Whisper сохраняет результаты

Как ты верно подметила, Whisper по умолчанию очень удобен. Он автоматически генерирует несколько форматов вывода и сохраняет их в той же директории, где находится исходный аудиофайл.

Просто проверь созданные файлы с помощью команды ls:

ls imja_faila.*

Ты увидишь список файлов, среди которых:

  • imja_faila.mp3 (оригинал)
  • imja_faila.txt (файл с чистой транскрипцией — это, скорее всего, то, что тебе нужно для текста)
  • imja_faila.srt (файл субтитров с временными метками, полезно для видео)
  • imja_faila.json (детальный вывод в формате JSON для программной обработки)

Вот и всё! Теперь ты можешь быстро и эффективно транскрибировать аудио прямо на своём сервере.

Комментарии

Комментариев пока нет. Почему бы ’Вам не начать обсуждение?

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *