OpenAI、音声 AI の世代交代を発表。
「話せて、考えて、ツール使える」3モデル登場
OpenAI が音声 AI の世代交代となる新モデル3種を Realtime API で公開した。一番のインパクトは、これまでの「話す → テキスト化 → 処理 → 音声化」というブツ切りの流れが、会話を続けながらツールを使い、考えながら応答する一体型に変わったこと。
Zillow、Vimeo、Priceline、Deutsche Telekom などが既に実装をテスト中。音声 AI は「便利な機能」から「会話できる相棒」のレベルへ進化したと言える発表内容。
3つのモデル早見表
今回発表されたモデルは3つ。それぞれ別の役割を持っている。
| モデル | 何ができる | 使う場面 | 価格 |
|---|---|---|---|
| GPT-Realtime-2 | 推論できる音声 AI。GPT-5 クラスの知能で、会話しながらツールを使い、複雑な依頼をこなす | 不動産検索アシスタント・旅行手配・カスタマーサポート | $32 / 1M input $64 / 1M output |
| GPT-Realtime-Translate | リアルタイム翻訳。70+ の入力言語を、13 の出力言語に同時通訳 | 多言語カスタマーサポート・国際イベント・動画ライブ翻訳 | $0.034 / 分 |
| GPT-Realtime-Whisper | ストリーミング音声認識。喋っている最中にリアルタイムで文字起こし | 会議・配信のライブ字幕・議事録自動生成 | $0.017 / 分 |
何が新しいのか
これまでの音声 AI と比べた本質的な進化はここ。
GPT-Realtime-2 の主な進化
- つなぎ言葉が出せる(「ちょっと待ってね」「確認します」など、考えてる最中も会話を続けられる)
- 並列でツールを呼び出す(「カレンダー確認中」と言いながら裏で予定検索)
- 失敗時の回復が自然(黙って止まらず「うまくいかないので別の方法を」と言える)
- 記憶できる長さが4倍(32K → 128K context・長い会話を最後まで覚えてる)
- 専門用語に強い(医療用語・固有名詞・業界用語を取り違えにくい)
- トーン制御(落ち着いた声・共感的な声・明るい声を使い分け可能)
ベンチマークでは、知能テスト(Big Bench Audio)で 81.4% → 96.6%、複雑な指示への追従(Audio MultiChallenge)で 34.7% → 48.5% へと大きく改善した。
実際の使われ方
発表時点で、複数の大手企業が既に実装テストに入っている。「音声 AI で何ができるか」のイメージを掴むのに分かりやすい例。
Zillow(不動産)
「予算内・静かな通り・土曜に内見可」と話しかけると、条件絞り込みから内見予約までを音声で完結。難しいテストで成功率が 69% → 95% に上昇。
Vimeo(動画)
商品教育動画を再生しながら、各国の言語に**同時翻訳**して提供。「翻訳版を別撮り」していた工数がゼロに。
Priceline(旅行)
音声だけで航空券・ホテル予約から、フライト遅延時のホテル予約変更まで。**現地でのリアルタイム翻訳**にも対応。
Deutsche Telekom(通信)
顧客が**自分の母国語で話せる**カスタマーサポートを構築中。AI が裏でリアルタイム翻訳を担当。
使うときの注意点
GPT-Realtime-2 は$32/1M input。テキストの GPT-5 系 API($1.25/1M input)と比べて約 25 倍。長い音声会話を素材にすると料金が嵩むので、「使い捨ての試作」より「業務に組み込んで料金を回収する設計」が必要。
音声 AI が刺さるのは「電話・コールセンター・現地翻訳・運転中・歩きながら」等の手が離れる場面。Web フォームやチャットで済む業務にわざわざ音声を載せると体験が悪化する。「テキストでも済むなら音声不要」の判断軸を持つこと。
ちーけんさん的にどう捉えるか
主力業務(アプリ開発・LIFF・スクール運営)には直接関わらないが、業務系案件の幅を広げる選択肢として「音声 AI 案件が来たら API 候補に入る」という位置づけ。
具体的にイメージしやすいのは:
案件例(将来候補)
- 店舗の電話応対自動化(営業時間外の予約受付・FAQ)
- 多言語対応のカスタマーサポート(観光・宿泊業)
- 会議の自動議事録(Realtime-Whisper で低コスト)
- 講義・配信のライブ字幕(スクール運営でも活用余地あり)
結びの一言
音声 AI が「便利な機能」から「会話できる相棒」のレベルへ進化した節目の発表。今すぐ案件にはならなくても、「音声で何ができるか」のイメージは持っておく価値あり。電話受付・多言語サポートの問い合わせが来たときの選択肢が増える。