ニュース / 音声 AI

OpenAI、音声 AI の世代交代を発表。
「話せて、考えて、ツール使える」3モデル登場

元記事: openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api
発表元: OpenAI  /  公開日: 2026-05-07

OpenAI が音声 AI の世代交代となる新モデル3種を Realtime API で公開した。一番のインパクトは、これまでの「話す → テキスト化 → 処理 → 音声化」というブツ切りの流れが、会話を続けながらツールを使い、考えながら応答する一体型に変わったこと。

Zillow、Vimeo、Priceline、Deutsche Telekom などが既に実装をテスト中。音声 AI は「便利な機能」から「会話できる相棒」のレベルへ進化したと言える発表内容。

OpenAI が発表した3つの新音声モデル(GPT-Realtime-2 / GPT-Realtime-Translate / GPT-Realtime-Whisper)の役割を示す手書き風インフォグラフィック

3つのモデル早見表

今回発表されたモデルは3つ。それぞれ別の役割を持っている。

モデル 何ができる 使う場面 価格
GPT-Realtime-2 推論できる音声 AI。GPT-5 クラスの知能で、会話しながらツールを使い、複雑な依頼をこなす 不動産検索アシスタント・旅行手配・カスタマーサポート $32 / 1M input
$64 / 1M output
GPT-Realtime-Translate リアルタイム翻訳。70+ の入力言語を、13 の出力言語に同時通訳 多言語カスタマーサポート・国際イベント・動画ライブ翻訳 $0.034 / 分
GPT-Realtime-Whisper ストリーミング音声認識。喋っている最中にリアルタイムで文字起こし 会議・配信のライブ字幕・議事録自動生成 $0.017 / 分

何が新しいのか

これまでの音声 AI と比べた本質的な進化はここ。

GPT-Realtime-2 の主な進化

ベンチマークでは、知能テスト(Big Bench Audio)で 81.4% → 96.6%、複雑な指示への追従(Audio MultiChallenge)で 34.7% → 48.5% へと大きく改善した。

実際の使われ方

発表時点で、複数の大手企業が既に実装テストに入っている。「音声 AI で何ができるか」のイメージを掴むのに分かりやすい例。

1

Zillow(不動産)

「予算内・静かな通り・土曜に内見可」と話しかけると、条件絞り込みから内見予約までを音声で完結。難しいテストで成功率が 69% → 95% に上昇。

2

Vimeo(動画)

商品教育動画を再生しながら、各国の言語に**同時翻訳**して提供。「翻訳版を別撮り」していた工数がゼロに。

3

Priceline(旅行)

音声だけで航空券・ホテル予約から、フライト遅延時のホテル予約変更まで。**現地でのリアルタイム翻訳**にも対応。

4

Deutsche Telekom(通信)

顧客が**自分の母国語で話せる**カスタマーサポートを構築中。AI が裏でリアルタイム翻訳を担当。

使うときの注意点

⚠️ コストが高め

GPT-Realtime-2 は$32/1M input。テキストの GPT-5 系 API($1.25/1M input)と比べて約 25 倍。長い音声会話を素材にすると料金が嵩むので、「使い捨ての試作」より「業務に組み込んで料金を回収する設計」が必要。

📍 用途が限定的

音声 AI が刺さるのは「電話・コールセンター・現地翻訳・運転中・歩きながら」等の手が離れる場面。Web フォームやチャットで済む業務にわざわざ音声を載せると体験が悪化する。「テキストでも済むなら音声不要」の判断軸を持つこと。

ちーけんさん的にどう捉えるか

主力業務(アプリ開発・LIFF・スクール運営)には直接関わらないが、業務系案件の幅を広げる選択肢として「音声 AI 案件が来たら API 候補に入る」という位置づけ。

具体的にイメージしやすいのは:

案件例(将来候補)


結びの一言

音声 AI が「便利な機能」から「会話できる相棒」のレベルへ進化した節目の発表。今すぐ案件にはならなくても、「音声で何ができるか」のイメージは持っておく価値あり。電話受付・多言語サポートの問い合わせが来たときの選択肢が増える。