OpenAIが2025年11月25日、ChatGPTの音声モードを刷新。テキストと音声を同じ画面で使えるようになり、会話中に画像や地図などの視覚情報もリアルタイムで確認可能に。全ユーザー向けにモバイルとウェブで提供開始。

ChatGPTの音声モード、テキストと統合で使いやすく進化

OpenAIは2025年11月25日、AI対話サービス「ChatGPT」の音声モードを大幅に改良したと発表しました。これまで音声での会話は別画面に切り替える必要がありましたが、今回のアップデートでテキストチャット画面内で直接音声を使えるようになりました。つまり、話しながら同時に画面上で回答を読んだり、画像や地図といった視覚情報を確認したりできるようになったのです。従来の音声モードでは、青い円のアニメーションが表示される専用画面に移動し、音声のみでやり取りする仕組みでした。聞き逃した内容を確認するには、いったん音声モードを終了してテキスト画面に戻る必要があり、不便さが指摘されていました。今回の変更により、音声とテキストをシームレスに切り替えながら、より自然な対話が可能になります。この新しい音声モードは、モバイルアプリとウェブ版の両方で全ユーザーに順次提供されています。

新しい音声モードの主な変更点

今回のアップデートで最も大きく変わったのは、音声会話とテキスト表示が統合された点です。これまでのChatGPT音声モードでは、専用の画面に切り替わり、青い円のアニメーションだけが表示される仕組みでした。この画面にはミュートボタンやライブ動画の録画オプション、テキストモードに戻るための「X」ボタンがありましたが、会話の内容は音声でしか確認できませんでした。

新しいインターフェースでは、通常のチャット画面内で音声機能を使えます。話しかけると、ChatGPTの回答が音声で聞こえると同時に、画面上にテキストとして表示されます。さらに、会話の途中で画像や地図などの視覚情報が必要になった場合も、リアルタイムで画面に表示されます。過去のメッセージも画面上で確認できるため、会話の流れを見失うことがありません。

音声会話を終了したいときは「終了」ボタンをタップする必要がありますが、その後はすぐにテキスト入力に切り替えられます。この新しい方式が標準設定となり、アプリを最新版に更新すれば自動的に利用できます。

従来の音声モードとの比較

従来の音声モードは、テキストチャットとは完全に分離された設計でした。音声で会話したいときは、別の画面に移動する必要があり、そこでは音声のやり取りのみが可能でした。視覚的なフィードバックは限定的で、主に青い円のアニメーションが会話の状態を示すだけでした。

この設計には明確な問題がありました。例えば、ChatGPTが長い説明をした際に一部を聞き逃してしまった場合、その内容を確認するには音声モードを終了し、テキストモードに戻る必要がありました。また、会話の中で画像や図表が必要になっても、音声モード内では表示できませんでした。複雑な情報のやり取りには不向きだったのです。

新しい統合型のインターフェースでは、これらの制約がなくなりました。音声とテキストを自由に組み合わせられるため、例えば「この画像について説明して」と話しかけると、音声で説明を聞きながら、同時に画面上で画像と説明文を確認できます。会話の履歴もすべて画面に残るため、後から見返すことも簡単です。

技術的な背景と開発の経緯

OpenAIは2024年から音声機能の強化に力を入れてきました。当初の音声モードは、音声認識と音声合成を組み合わせた比較的シンプルな仕組みでしたが、ユーザーからのフィードバックを受けて改良を重ねてきました。特に「音声だけでは情報が不足する」「テキストと音声を切り替えるのが面倒」という声が多く寄せられていました。

AI業界全体でも、マルチモーダル対話、つまり音声・テキスト・画像などを組み合わせた対話システムの開発が進んでいます。マルチモーダルとは、複数の情報伝達手段を同時に使える仕組みのことです。例えば、料理のレシピを尋ねたとき、音声で手順を聞きながら、画面で完成写真や材料リストを見られるといった使い方が可能になります。

今回のアップデートは、こうした業界の流れに沿ったものです。OpenAIは、ユーザーが最も自然に感じる方法でAIと対話できる環境を目指しています。音声とテキストの統合は、その第一歩と位置づけられています。

できること・できないこと

新しい音声モードにより、より柔軟な対話が可能になります。例えば、料理中に両手がふさがっているときは音声で質問し、回答を画面で確認しながら作業を進められます。旅行の計画を立てる際には、「パリのおすすめ観光地を教えて」と話しかけると、音声で説明を聞きながら、地図や写真を画面で見ることができます。勉強中に数学の問題について質問すれば、音声で解説を聞きつつ、数式や図を画面で確認できます。

一方で、いくつかの制約もあります。音声会話を終了するには、明示的に「終了」ボタンをタップする必要があり、完全にハンズフリーというわけではありません。また、音声認識の精度は環境によって変わるため、騒がしい場所では正確に認識されない可能性があります。複数人での会話や、複雑な専門用語を含む会話では、まだテキスト入力の方が確実な場合もあります。今後のアップデートで、これらの点は改善されていくと期待されます。

私たちへの影響

このニュースは、ChatGPTを日常的に使っている人々に大きな利便性をもたらします。特に、移動中や作業中など、キーボード入力が難しい状況でChatGPTを使いたい人にとって、音声とテキストを自由に切り替えられることは大きなメリットです。

短期的な影響としては、音声機能の利用頻度が増えることが予想されます。これまで音声モードを敬遠していた人も、テキストと統合されたことで試してみる可能性が高まります。教育現場では、音声で質問しながら画面で資料を確認するといった新しい学習スタイルが広がるかもしれません。ビジネスシーンでも、会議中のメモ取りや、移動中の情報収集がより効率的になるでしょう。

中長期的には、AI対話の標準的なスタイルが変わっていく可能性があります。音声とテキスト、画像を自然に組み合わせた対話が当たり前になれば、AIアシスタントの使い方そのものが進化します。例えば、健康管理アプリで症状を音声で説明しながら、画面で関連情報を確認するといった使い方が一般的になるかもしれません。

ただし、プライバシーへの配慮は引き続き重要です。音声での会話は周囲に聞こえる可能性があるため、公共の場所では注意が必要です。また、音声データの取り扱いについても、OpenAIのプライバシーポリシーを確認しておくことをお勧めします。従来の別画面方式を好む人は、設定から「Separate mode」をオンにすることで、以前の使い方に戻すこともできます。

出典：ChatGPT’s voice mode is no longer a separate interface（techcrunch.com）