GPT-5.5 の登場: コーディング、科学研究、事務作業でより短い時間でより多くの作業を実行

私たちが臨床医向け ChatGPT の発売を発表するとすぐに、OpenAI は新しいモデル GPT-5.5 を発表しました。新しいモデルの発売の速さ（ここ数カ月間、OpenAI はとりわけ GPT-5.3 Instant をリリースし、その後、mini および nano バージョンを備えた GPT-5.4 をリリースしました）は、Sam Altman 氏が率いる会社の破産の可能性を伴うリスクに追随します。 GPT-5.5 では、OpenAI は明らかにより強力でパフォーマンスの高いモデル (少なくとも施設内では) を提示し、人工知能分野の基準パラメーターをもう一度再定義することを目的としています。

GPT-5.5で何が変わるのか

新しいモデルの中心となるのは、コンテキストの理解が大幅に改善されたことです。 OpenAIによると、GPT-5.5はより正確に応答するだけでなく、コードの作成とデバッグ、オンライン調査、データ分析、ドキュメントやスプレッドシートの管理など、複雑で多段階のタスクをユーザーがすべてのステップを監視することなく自律的に実行できるという。このモデルは、計画を立て、ツールを使用し、結果を検証し、あいまいな状況をナビゲートして、タスクが完了するまで作業を続けるように設計されています。

重要な技術的側面は効率に関するものです。 GPT-5.5 は、前世代と比較して (予想通り) パフォーマンスが優れているにもかかわらず、GPT-5.4 と同じトークンごとのレイテンシーを維持し、大幅に少ないトークンを使用してタスクを完了するため、より使いやすくなっています。複雑なコマンドラインワークフローを測定するテストである Terminal-Bench 2.0 では、モデルは 82.7% の精度を達成しました。一方、GitHub 上の現実世界の問題の解決策を評価する SWE-Bench Pro では、58.6% の精度を達成しました。

数値以外にも、モデルに早期にアクセスした人々によって報告された使用例のいくつかを記録することは興味深いことです。 Every 出版社の創設者である Dan Shipper は、GPT-5.5 を真の概念的明快さを備えた最初のプログラミングモデルであると説明しました。これを検証するために、彼は実際の問題、つまり、見つけるのが難しいバグ (コードの一部を書き換えて解決するために彼の優秀なエンジニアの 1 人が数日を費やしたバグと同じもの) を抱えたアプリケーションの問題を再現し、GPT-5.4 では解決策が見つからなかったが、GPT-5.5 では解決策が見つかったということでした。

ソフトウェアエンジニアが最もよく使用する開発環境の 1 つである Cursor の共同創設者、Michael Truell 氏は、モデルがどのようにして中断することなく、はるかに長い時間タスクに集中し続けるかを強調しました。これは、ユーザーが ChatGPT に委任する複雑で長時間実行されるジョブにとって重要な機能です。 NVIDIA のエンジニアは、おそらく少し誇張して考えているかもしれませんが、四肢の喪失として GPT-5.5 を放棄する可能性があると述べています。

これらの例に加えて、改善は一般的な事務作業にも影響を与えます。 OpenAI 自身の内部チームは、モデルをテストするために体系的に使用し始めました。財務チームは彼を使って合計 71,000 ページを超える約 25,000 件の納税フォームをレビューし、前年より 2 週間早く作業を完了しました。コミュニケーションチームは、介入リクエストを分類するための自動エージェントを Slack 上に構築し、リスクの低いリクエストはシステムに任せ、最も機密性の高いリクエストは人間による評価のために確保しました。営業チームの 1 人の従業員が週次レポートの作成を自動化し、週に 5 ～ 10 時間の作業を節約しました。

AI モデルがテストされる際に最も示唆的でデリケートな科学の面では、GPT-5.5 は執筆や書誌調査の単純なサポートを超えた結果を示します。ジャクソンゲノム医学研究所の免疫学教授であるデリヤ・ウヌトマズ氏は、このモデルの Pro バージョンを使用して、さまざまな生体サンプル中の数千の遺伝子の活性レベルを測定するデータのコレクションを分析しました。この特定のケースでは、62 個のサンプルとほぼ 28,000 個の遺伝子が含まれており、手作業で処理すると彼のチームの数か月の作業が必要となる大量のデータが含まれていました。

ポズナンのアダム・ミツキェヴィチ大学の数学者、バルトシュ・ナスクレンツキ氏は、以前は専用ツールが必要だった代数幾何視覚化アプリケーションを 1 つのプロンプトから開始して 11 分で構築しました。

さらに珍しいケースとして、モデルの内部バージョンがラムゼー数に関する新しい定理の証明に貢献しました。ラムゼー数とは、大規模なネットワークやセットで秩序構造が出現するための最小条件を研究する数学の分野です。その後、結果はリーンテスト言語で正式に検証されました。

ハードウェアインフラストラクチャ

通常、モデルの容量が大きいほど、各リクエストの処理にかかる時間が長くなります。 GPT-5.5 の特徴の 1 つである応答時間を増加させることなく、より強力なモデルを取得するには、コンピューティングインフラストラクチャを徹底的に再考する必要がありました。 GPT-5.5 は、大規模モデルのトレーニングと実行のための現在最も先進的なハードウェアである NVIDIA GB200 および GB300 NVL72 システムで共同設計され、トレーニングされました。最も重要な最適化の 1 つは、GPU のコンピューティングコア間でリクエストを分散する方法に関係しています。以前は、システムはサイズに関係なく、各リクエストを固定数の部分に分割していました。 GPT-5.5 を使用して、OpenAI は数週間にわたる実際のトラフィックを分析し、より効率的に負荷を分散するために調整されたアルゴリズムを開発し、トークンの生成速度を 20% 以上向上させました。

セキュリティとサイバーセキュリティ

OpenAI は、内部リスク評価システムで、機密領域での能力に基づいてモデルに潜在的な危険のレベルを割り当てます。 GPT-5.5 では、サイバーおよび生物学的セキュリティの分野の能力は、スケールで 2 番目に高い「高」レベルに分類されました。これは、このモデルが危険であると考えられることを意味するのではなく、これらの領域におけるその機能には特別な注意が必要であることを意味します。

サイバーセキュリティに関しては、このモデルはリスクの高い活動に対するより厳格な管理を導入するとともに、「サイバーの信頼されたアクセス」と呼ばれるプログラムを導入しており、これにより研究者や検証済みの組織（送電網や水道システムなどの重要インフラの責任者を含む）がより少ない制限で高度な機能にアクセスできるようになります。その目的は、最も強力なツールを防御に活用し、セキュリティツールを合法的に使用するユーザーにセキュリティツールへのアクセスを民主化し、同時に悪用の可能性を制御することです。

在庫状況と価格

新しいモデルの発売と並行して、OpenAI は Codex アプリのメジャーアップデートを発表しました。最も重要な革新の中には、開発環境を離れずに Web アプリケーションやフロントエンドプロジェクトで直接作業できる統合ブラウザと、Codex が以前のセッションで蓄積された設定とコンテキストを記憶できるようにするメモリシステムの導入があり、過去に提供された指示を繰り返す必要性が軽減されます。

GPT-5.5 は、ChatGPT と Codex の両方で、Plus、Pro、Business、および Enterprise サブスクリプションユーザーが利用できます。 GPT-5.5 Pro は、最も要求の厳しい高精度のアクティビティ向けに設計されたバリアントで、Pro、Business、Enterprise プラン向けに予約されています。 API経由でのアクセスは準備中です。 OpenAI は、入力トークン 100 万あたり 5 ドル、出力トークン 100 万あたり 30 ドルの価格で間もなく利用可能になることを示しており、API の GPT-5.5 Pro はそれぞれ 100 万トークンあたり 30 ドルと 180 ドルで利用可能になります。 GPT-5.4よりもコストが高いにもかかわらず、より少ないトークンで同じタスクを完了する新しいモデルの効率性の向上により、ほとんどのユーザーにとって価格の差は大幅に相殺されるはずだとOpenAIは指摘している。