Роман Пискун 0

OpenAI выпустила по API новые голосовые модели — одна из них переводит речь в реальном времени

GPT-Realtime-Translate переводит речь с 70+ языков, а GPT-Realtime-2 рассуждает на уровне GPT-5.

OpenAI выпустила для разработчиков три новые голосовые ИИ-модели, которые работают в реальном времени. У каждой модели свои задачи: рассуждения, перевод и транскрипция речи в текст. Новые GPT-Realtime доступны через API.

GPT-Realtime-2 — первая голосовая модель с рассуждениями уровня GPT-5, способная обрабатывать более сложные запросы и естественно вести разговор. Контекст расширили с 32 тысяч до 128 тысяч токенов.
GPT-Realtime-Translate — новая модель перевода в реальном времени, которая переводит речь с более чем 70 входных языков на 13 выходных языков, поддерживая темп речи говорящего.
GPT‑Realtime‑Whisper — новая технология потокового преобразования речи в текст, которая расшифровывает речь в режиме реального времени по мере того, как говорит пользователь.

Примеры работы GPT-Realtime-2 и GPT-Realtime-Translate:

Цены по API следующие:

GPT-Realtime-2 — 32 доллара (~2400 рублей) и 64 доллара (~4800 рублей) на ввод и вывод токенов соответственно
GPT-Realtime-Translate — 0,034 доллара (~2,5 рубля) в минуту
GPT‑Realtime‑Whisper — 0,017 доллара (~1,3 рублей) в минуту

Попробовать новые голосовые ИИ-модели можно в OpenAI Playground и Codex — открыв промпт от OpenAI по ссылке.

Источник: OpenAI