OpenAI voice API получил новые функции перевода, транскрипции и диалога

Фабио Де ЛукаИИ и автоматизация1 месяц назад44 Просмотры

Делиться

Главная страница
ИИ и автоматизация
OpenAI voice API получил новые функции перевода, транскрипции и диалога

OpenAI расширила возможности своего голосового API, добавив сразу три новых инструмента для разработчиков. Теперь платформа позволяет не просто вести диалог с пользователем, но и переводить речь в реальном времени, транскрибировать разговоры и обрабатывать более сложные запросы благодаря обновленной модели рассуждений.

Что нового в OpenAI voice API

Компания представила три продукта, каждый из которых решает отдельную задачу в рамках голосового взаимодействия.

GPT-Realtime-2: диалог с reasoning уровня GPT-5

Это обновленная голосовая модель, которая пришла на смену GPT-Realtime-1.5. Главное отличие в том, что она использует reasoning-возможности класса GPT-5. На практике это означает, что модель способна справляться с более сложными и многоступенчатыми запросами пользователей, а не просто отвечать на простые вопросы в формате «вопрос-ответ».

GPT-Realtime-Translate: перевод речи на лету

Инструмент обеспечивает перевод в реальном времени, который, по словам OpenAI, «не отстает» от темпа разговора. Система понимает более 70 языков на входе и может переводить на 13 языков на выходе. Для компаний, работающих с международной аудиторией, это может оказаться крайне полезным.

GPT-Realtime-Whisper: живая транскрипция

Третий компонент обеспечивает преобразование речи в текст прямо в процессе разговора. Транскрипция происходит не постфактум, а в момент взаимодействия, что открывает возможности для создания протоколов встреч, субтитров и подобных сценариев.

Кому это пригодится и сколько стоит

OpenAI позиционирует обновления как инструменты для бизнеса: клиентский сервис, образование, медиа, мероприятия, платформы для создателей контента. По сути, OpenAI voice API теперь позволяет строить полноценные голосовые интерфейсы, которые слушают, рассуждают, переводят и действуют в рамках одного разговора.

Тарификация

Модель	Тип оплаты
GPT-Realtime-2	По токенам
GPT-Realtime-Translate	Поминутно
GPT-Realtime-Whisper	Поминутно

Вопрос безопасности

Компания заявила, что встроила защитные механизмы для предотвращения спама, мошенничества и другого злоупотребления. Если система обнаруживает, что разговор нарушает правила допустимого контента, он может быть автоматически прерван.

Все три модели доступны через Realtime API компании OpenAI.

Если вы задумываетесь о том, как интегрировать подобные голосовые возможности в свой продукт или автоматизировать коммуникации с клиентами, мы в Фабио Де Лука создаем кастомные решения на базе OpenAI и других AI-платформ. Голосовые интерфейсы, чат-боты с reasoning, автоматические переводчики для мультиязычной поддержки можно собрать под конкретные бизнес-задачи.

Обновление OpenAI voice API сигнализирует о том, что голосовые интерфейсы переходят из категории экспериментов в рабочие инструменты. Разработчикам стоит присмотреться к новым возможностям уже сейчас, пока конкуренты не сделали это первыми.

Делиться