
OpenAI расширила возможности своего голосового API, добавив сразу три новых инструмента для разработчиков. Теперь платформа позволяет не просто вести диалог с пользователем, но и переводить речь в реальном времени, транскрибировать разговоры и обрабатывать более сложные запросы благодаря обновленной модели рассуждений.
Компания представила три продукта, каждый из которых решает отдельную задачу в рамках голосового взаимодействия.
Это обновленная голосовая модель, которая пришла на смену GPT-Realtime-1.5. Главное отличие в том, что она использует reasoning-возможности класса GPT-5. На практике это означает, что модель способна справляться с более сложными и многоступенчатыми запросами пользователей, а не просто отвечать на простые вопросы в формате «вопрос-ответ».
Инструмент обеспечивает перевод в реальном времени, который, по словам OpenAI, «не отстает» от темпа разговора. Система понимает более 70 языков на входе и может переводить на 13 языков на выходе. Для компаний, работающих с международной аудиторией, это может оказаться крайне полезным.
Третий компонент обеспечивает преобразование речи в текст прямо в процессе разговора. Транскрипция происходит не постфактум, а в момент взаимодействия, что открывает возможности для создания протоколов встреч, субтитров и подобных сценариев.
OpenAI позиционирует обновления как инструменты для бизнеса: клиентский сервис, образование, медиа, мероприятия, платформы для создателей контента. По сути, OpenAI voice API теперь позволяет строить полноценные голосовые интерфейсы, которые слушают, рассуждают, переводят и действуют в рамках одного разговора.
| Модель | Тип оплаты |
|---|---|
| GPT-Realtime-2 | По токенам |
| GPT-Realtime-Translate | Поминутно |
| GPT-Realtime-Whisper | Поминутно |
Компания заявила, что встроила защитные механизмы для предотвращения спама, мошенничества и другого злоупотребления. Если система обнаруживает, что разговор нарушает правила допустимого контента, он может быть автоматически прерван.
Все три модели доступны через Realtime API компании OpenAI.
Если вы задумываетесь о том, как интегрировать подобные голосовые возможности в свой продукт или автоматизировать коммуникации с клиентами, мы в Фабио Де Лука создаем кастомные решения на базе OpenAI и других AI-платформ. Голосовые интерфейсы, чат-боты с reasoning, автоматические переводчики для мультиязычной поддержки можно собрать под конкретные бизнес-задачи.
Обновление OpenAI voice API сигнализирует о том, что голосовые интерфейсы переходят из категории экспериментов в рабочие инструменты. Разработчикам стоит присмотреться к новым возможностям уже сейчас, пока конкуренты не сделали это первыми.