OpenAI выпустила для разработчиков три новые голосовые ИИ-модели, которые работают в реальном времени. У каждой модели свои задачи: рассуждения, перевод и транскрипция речи в текст. Новые GPT-Realtime доступны через API.
- GPT-Realtime-2 — первая голосовая модель с рассуждениями уровня GPT-5, способная обрабатывать более сложные запросы и естественно вести разговор. Контекст расширили с 32 тысяч до 128 тысяч токенов.
- GPT-Realtime-Translate — новая модель перевода в реальном времени, которая переводит речь с более чем 70 входных языков на 13 выходных языков, поддерживая темп речи говорящего.
- GPT‑Realtime‑Whisper — новая технология потокового преобразования речи в текст, которая расшифровывает речь в режиме реального времени по мере того, как говорит пользователь.
Примеры работы GPT-Realtime-2 и GPT-Realtime-Translate:
Цены по API следующие:
- GPT-Realtime-2 — 32 доллара (~2400 рублей) и 64 доллара (~4800 рублей) на ввод и вывод токенов соответственно
- GPT-Realtime-Translate — 0,034 доллара (~2,5 рубля) в минуту
- GPT‑Realtime‑Whisper — 0,017 доллара (~1,3 рублей) в минуту
Попробовать новые голосовые ИИ-модели можно в OpenAI Playground и Codex — открыв промпт от OpenAI по ссылке.
Источник:
OpenAI