
会話の画面にアプリの小さなUIが溶け込む新体験を前回扱いましたが、それだけでは仕事は完結しません。画面の裏側でタスクを分解し、状況に応じて外部ツールを呼び出し、結果を評価してやり直す――この地味で骨太な工程を肩代わりするのが、今年のDevDayで発表されたAgentKitです。OpenAIは公式の発表で、AgentKitを「ビルド、デプロイ、最適化を一つに束ねる完全なツールセット」と定義し、視覚的なワークフロー編集と埋め込みUI、評価機能を統合したことを明言しました。確定情報として、ChatKitと新しいEvals機能は「本日から一般提供」、一方でAgent Builderは「ベータ提供」、Connector Registryは管理コンソールがある顧客への「ベータ段階のロールアウト開始」と整理されています。ここは“できること”と“これから広がること”を切り分けるうえで重要なポイントです。(OpenAI)
AgentKitの核は三層の流れだと捉えると飲み込みやすくなります。最上段に「作る」があり、モデルやツール、プロンプト、そして越えてはならない安全の柵を並べます。中段には「届ける」があり、会話に自然に馴染むUIを配してユーザーが手を止めずに作業を続けられるようにします。最下段の「鍛える」では、観察・分析・最適化をループさせて、次の実行に生かしていきます。OpenAIのAgentKit紹介ページはまさにこの構図を掲げ、視覚キャンバスのAgent Builder、埋め込み用のChatKit、そして“測る道具”であるEvalsの拡張を一枚岩として提示しています。抽象的に聞こえるかもしれませんが、要は「どう組むか」「どう触らせるか」「どう良くするか」を同じ土台で回そうという発想です。(OpenAI)
まず「どう組むか」を担うAgent Builderです。これはキャンバス上でノードをつなぐようにフローを描き、途中で“脱線や危険”を防ぐガードレールも差し込める視覚ツールです。ノードごとに分岐や条件、外部ツール接続を記述し、プレビュー実行やバージョン管理が標準で付いています。ここはベータ提供であることが明記されており、つまり「もう使えるが、改善が前提の領域」だと理解するのが妥当です。実際の導入例として、企業チームが数時間でプロトタイプを動かし、これまで数カ月単位だったオーケストレーションを大幅に短縮できたという証言も紹介されています。視覚化は“見た目が派手”という理由ではなく、関係者間で共通の土台を持てることに価値があり、法務や現場担当が同じ画面を見ながら合意形成できるのが効いてきます。(OpenAI)
次に「どう触らせるか」を受け持つのがChatKitです。会話UIを自社のWebやアプリにそのまま埋め込み、テーマやブランディングに合わせて外観とふるまいを調整できます。ストリーミング応答やスレッド管理といった“作る側から見ると地味だが難しい”要素が隠蔽され、試作段階から本番に移すまでの前座作業を圧縮してくれます。OpenAIはこれを本日から一般提供とし、顧客対応、社内知識アシスタント、オンボーディングなど具体的なユースケースを挙げています。つまり、前回扱った「会話にUIが溶け込む」世界を自社プロダクト側でも再現できる道具立てが、はじめから用意されているということです。(OpenAI)
「どう良くするか」は、今年の地味な主役かもしれません。Evalsの拡張により、データセットを用意して反復的に評価し、エージェントの実行“跡”を段階ごとに採点し、注釈に基づいてプロンプトを自動で改良する、といった工程が一つの画面で回せるようになりました。他社モデルを同じ場で評価する機能も追加され、客観性の担保や社内検証のスピードが上がることが期待されます。これらは「本日から利用可能」と整理されており、研究寄りの話ではなく実戦の話として扱われている点が、今年のDevDayの特徴です。(OpenAI)
今年は訓練の文脈でも一歩前進がありました。強化学習的な微調整を意味するRFT(Reinforcement Fine-Tuning)が、o4-mini系列に対して一般提供、GPT-5に対してはプライベートベータという段階的な公開になっています。RFTでは“いつどのツールを呼ぶべきか”といった意思決定を訓練できる「カスタム・ツールコール」や、用途に即した独自の採点基準を設定できる「カスタム・グレーダー」が案内され、エージェントの“思考の癖”を目的に合わせて鍛える方向に踏み込んでいます。ここも「何が今すぐ誰に開いているか」を明確にしておくと、読者の期待値コントロールに役立ちます。(OpenAI)
裏側の接続を統治するために企業が必要とするのがConnector Registryです。DropboxやGoogle Drive、SharePoint、Microsoft Teamsのような既成のコネクタや、MCPサーバー経由のツール接続を一元管理する“管理者用の制御盤”で、現時点ではグローバル管理コンソールを持つ顧客に対してベータの展開が始まった段階です。データの出入り口を見える化し、組織の境界と権限を守るための実務装置と捉えると、なぜ「まず管理機能から」という順序になっているのかも腑に落ちます。(OpenAI)
ここで、コーディング領域に特化した“もう一つの裏方”であるCodexにも目を向けます。OpenAIはDevDay当日にCodexの一般提供を発表し、Slack連携とCodex SDK、管理機能の拡充を打ち出しました。Slackではチャンネルやスレッド内で@メンションするだけで、会話から文脈を掴み、適切な環境を選んでタスクを実行し、結果へのリンクを返すという“会話→実行→結果”の往復を最短化します。SDKはTypeScriptから提供され、同じエージェント実装を自社のワークフローやアプリに組み込めることが強調されました。課金や提供範囲も明文化され、PlusやEnterpriseなど各プランでの提供開始、そして10月20日からはクラウドタスクが使用量にカウントされるスケジュールが案内されています。ここでも“今日できること”と“この先の運用に関わる日付”がはっきり示され、導入判断に必要な情報が最初から提示されているのが良いところです。(OpenAI)
実装の現実に踏み込むと、エージェントを「作る」「触らせる」「鍛える」が一体化したとき、はじめて“やり直し前提の自動化”が可能になります。例えば社内の問い合わせ対応を想像してみてください。Agent Builderで問い合わせの意図分類から社内データベース照会、必要に応じた人間の承認という流れを作り、ChatKitで社内ポータルに会話UIを埋め込みます。初期運用の数週間はEvalsで実際のやり取りを採点し、失敗のパターンを抽出してプロンプトやツール選択の重みづけを自動で微調整します。コードが関わる部分はCodexでリファクタやテスト生成、レビューを走らせ、Pull Requestのやり取りも会話の延長に置きます。こうした構成は、かつてなら複数の製品や自作スクリプトをつなぎ合わせるしかありませんでしたが、今年のDevDay以降は“最初から噛み合う前提”で部品が提供されているのが違いです。(OpenAI)
プラットフォーム全体の“土台”も一段と現実的になりました。OpenAIはAMDとの戦略提携を正式に公表し、数年で合計6ギガワット規模のGPUを調達・展開する合意を明らかにしています。初期の1ギガワットは2026年後半にInstinct MI450シリーズで導入開始とされ、モデルの供給力と価格設計の見通しに直結します。エージェントが業務の主役になっていくためには、単にソフトが揃うだけでなく、継続的に“回る”計算資源が必要です。この発表は、その裏付けの一つです。(OpenAI)
今年のDevDayで示された数字を振り返ると、開発者コミュニティは400万人規模、ChatGPTの週次アクティブは8億人超、APIは分速60億トークンというスケールに達していると公式ページは述べています。これは、作ったエージェントやアプリが届く“面の広さ”でもあり、同時に評価や安全対策における“母数の大きさ”でもあります。大量の相互作用があるからこそ、評価と最適化のループが成果を生み、そこで磨かれた体験がさらに広く使われるという循環が生まれるのです。(OpenAI)
ここで用語を少しだけ深掘りしておきます。AgentKitは、会話を介してタスクを進める“エージェント”的な振る舞いを、現場導入に耐える形で作るための土台です。Agent Builderはその土台の上で流れを“目で見て”作るための道具で、まだベータ段階にあります。ChatKitはユーザーが触れる入り口で、会話体験を外部アプリに埋め込むための部品であり、すでに一般提供です。Evalsは“うまく動いたか”を測る仕組みの総称で、データセット作成、トレース採点、自動プロンプト最適化、他社モデル評価という四つの機能強化が今年の目玉になりました。RFTは“どう考え、いつどのツールを使うか”という意思決定そのものを訓練していく手法で、o4-miniでは一般提供、GPT-5ではプライベートベータという差があります。Codexはコーディング向けの実行エージェントで、Slack連携とSDKを備え、一般提供になりました。これらはすべて一次情報に基づく用語整理であり、どれが“今日使えること”で、どれが“段階的に広がること”かを本文中で都度明示してきました。(OpenAI)
本連載の締めくくりとして、今年のDevDayで提示された“会話の最前線でUIが現れ、裏側でエージェントが動く”という姿は、単なるデモではなく、配布と運用と改善を同じ盤面で回すための具体的な道具立てにまで落とし込まれています。前回の反省点だった“期待と現実の混線”を避けるため、今回は提供ステータスと時期を厳密に記しました。アプリとエージェントが一本化された設計は、実務では“やり直しの速さ”に直結します。作って、触って、測って、また作る。その回転数を上げるためのレールが、今年はじめて公式に敷かれた、というのが2025年のDevDayの本質なのです。(OpenAI)
参考一次情報として、AgentKitの公式発表、DevDay 2025の公式ページ、Codex一般提供の告知、そしてApps SDKの文脈で言及したUI統合については以下を突き合わせています。AgentKitではChatKitとEvalsの一般提供、Agent BuilderとConnector Registryのベータ状況、RFTの提供範囲と機能拡張が明記されています。CodexではSlack連携、SDK、管理機能、提供プランおよび10月20日からの課金扱いが公表されています。(OpenAI)
