- 目次
- GPT-1(2018年6月)
- GPT-2(2019年2月)
- GPT-3(2020年6月)
- GPT-3.5(2022年11月〜)
- GPT-4(2023年3月)
- GPT-4o(2024年5月)
- GPT-4o mini(2024年7月)
- GPT-5.1(2025年11月)
- GPT-5.2(2025年12月11日)★最新
- 今後の展望
- Gemini Pro(2023年12月)
- Gemini Ultra(2024年2月)
- Gemini 1.5(2024年2月)
- Gemini 1.5 Pro(2024年4月)
- Gemini 2.0(2024後半)
- Gemini 2.5(2025年前半)
- Gemini 3.0 Pro(2025年11月18日)★最新
- 今後の展望
- Claude 1(2023年3月)
- Claude 2(2023年7月)
- Claude 3(2024年3月)
- Claude 3.5 Sonnet(2024年6月)
- Claude 3.7(2024年後半)
- Claude Opus 4(2025年5月)
- Claude Opus 4.1(2025年8月5日)
- Claude Opus 4.5(2025年11月24日)★最新
- 今後の展望
- 三つ巴の激戦
- 選び方のガイドライン
- 2025年のキーワード
目次
第1章:GPTのバージョンの歴史
- GPT-1(2018年6月)
- GPT-2(2019年2月)
- GPT-3(2020年6月)
- GPT-3.5(2022年11月〜)
- GPT-4(2023年3月)
- GPT-4o(2024年5月)
- GPT-4o mini(2024年7月)
- GPT-5.1(2025年11月)
- GPT-5.2(2025年12月)★最新
- 今後の展望
第2章:ジェミニ(Gemini)の歴史
- Gemini Pro(2023年12月)
- Gemini Ultra(2024年2月)
- Gemini 1.5(2024年2月)
- Gemini 1.5 Pro(2024年4月)
- Gemini 2.0(2024後半)
- Gemini 2.5(2025年前半)
- Gemini 3.0 Pro(2025年11月)★最新
- 今後の展望
第3章:Claudeのバージョン歴史
- Claude 1(2023年3月)
- Claude 2(2023年7月)
- Claude 3(2024年3月)
- Claude 3.5 Sonnet(2024年6月)
- Claude 3.7(2024年後半)
- Claude Opus 4(2025年5月)
- Claude Opus 4.1(2025年8月)
- Claude Opus 4.5(2025年11月)★最新
- Claude 3.5 Sonnet の “Excel Co-Pilot化”
- 今後の展望
第1章:GPTのバージョンの歴史
OpenAIのGPT(Generative Pre-trained Transformer)シリーズは、2018年のGPT-1から始まり、現在のGPT-5.2まで進化を続けている。各バージョンの主な特徴とリリース時期を時系列で整理する。
GPT-1(2018年6月)
パラメータ数: 1.17億
特徴: Transformerアーキテクチャを採用した最初のGPTモデル。言語モデルの事前学習とファインチューニングの有効性を実証。
成果: 自然言語処理タスクで当時のベンチマークを更新。
GPT-2(2019年2月)
パラメータ数: 15億(最大)
特徴: 大規模データセットで学習。ゼロショット性能が注目された。
成果: 文章生成の質が大幅向上。当初は安全性の懸念から段階的公開。
GPT-3(2020年6月)
パラメータ数: 1,750億
特徴: Few-shot学習が可能に。API提供開始。
成果: 多様なタスクで高性能を発揮。ChatGPTの基盤となる。
GPT-3.5(2022年11月〜)
主なモデル: text-davinci-003、ChatGPT(GPT-3.5-turbo)
特徴: RLHFにより対話能力が飛躍的に向上。
成果: ChatGPT公開により生成AIが一般に広まる転換点に。
GPT-4(2023年3月)
パラメータ数: 非公開(推定1兆以上)
特徴: マルチモーダル対応(テキスト+画像入力)。推論能力が大幅向上。
画像生成: DALL・E 3との統合により、ChatGPT内で画像生成が可能に。
成果: 多くのベンチマークで人間レベルに。Turbo版で128Kトークン対応。
GPT-4o(2024年5月)
特徴: “omni(全方位)”モデル。音声・画像・動画・テキストをリアルタイム統合。
動画生成: Soraとの統合が進み、高品質動画生成が可能に。
Web開発: ブラウザ統合でHTML/CSS/JS生成と表示がChatGPT内で完結。
成果: レスポンス速度とモーダル統合性能が向上。
GPT-4o mini(2024年7月)
特徴: 軽量版で低コスト。
成果: GPT-4レベルの性能を広く提供。
GPT-5.1(2025年11月)
特徴: 温かみのある対話トーンを導入。Instant、Thinking、Proの3モード展開。
エージェント機能: 複数ステップのタスクを自動計画。
画像・動画処理: DALL・E 3 と Sora が完全統合。
成果: 知識カットオフ2024年9月。
GPT-5.2(2025年12月11日)★最新
リリース背景: Gemini 3 Proへの対抗として「コードレッド」宣言後に緊急リリース。
特徴: プロフェッショナルな知識労働に特化。3つの明確なモード展開。
【3つのモード】
GPT-5.2 Instant
- 用途: 日常の仕事や学習に役立つ高速モデル
- 改善点: 情報検索、How-to、チュートリアル、文章作成、翻訳
- 特徴: GPT-5.1の温かみのある対話トーンを維持
GPT-5.2 Thinking
- 用途: より深い思考を必要とするタスク向け
- 改善点: コーディング、長文ドキュメント要約、数学・ロジックの段階的説明
- 性能: SWE-bench Verifiedで76.3%(GPT-5.1から向上)
GPT-5.2 Pro
- 用途: 最高品質の回答が求められる難しい質問向け
- 特徴: OpenAI史上最も高度かつ信頼性の高いモデル
- 性能: GPQA Diamondで93.2%、FrontierMathで40.3%達成
【主な進化点】
1. GDPval(経済的価値タスク)での飛躍的向上
- 44職種にわたる知識業務タスクで業界専門家を上回る
- プレゼン作成、スプレッドシート構築、スケジュール管理で高得点
- 知的労働の70.9%で人間と同等以上の能力
2. 知識カットオフの更新
- GPT-5.1:2024年9月
- GPT-5.2:2025年8月(より新しいトピックに対応)
3. 長文脈の理解向上
- コンテキストウィンドウ:256K トークン(約35-45万文字、ビジネス書3-4冊分)
- 数百ページのドキュメントを読み込ませても情報欠落ほぼゼロ
4. ハルシネーション抑制
- 嘘を真実のように言う現象を大幅に抑制
- 出典を明示する機能が強化
5. API価格
- 入力:100万トークンあたり1.75ドル
- 出力:100万トークンあたり14ドル
- キャッシュ済み入力には割引適用
【実務性能】
エクセル・プレゼン作成:
- 人員計画モデル(ヘッドカウント、採用計画、離職率、予算影響)を1回のプロンプトで作成可能
- 数式が正常に動作する実用的なファイルを生成
プレゼン作成:
- 色分けや読みやすさを考慮した丁寧な資料作成
- ただしデザイン性ではGemini 3に劣る(実測)
【利用可能性】
ChatGPT:
- 有料プラン(Plus、Pro、Go、Business、Enterprise)で順次利用可能
- 無料ユーザーも利用可能(制限あり)
- GPT-5.1は3ヶ月間レガシーモデルとして利用可能
API:
- Responses API:
gpt-5.2 - Chat Completions API:
gpt-5.2-chat-latest - Pro版:
gpt-5.2-pro
【競合との比較】
vs Gemini 3 Pro:
- ベンチマークではGPT-5.2が上回る(OpenAI公式発表)
- 実務では:エクセル作業はGPT-5.2が上、プレゼン作成はGemini 3が上
- Geminiは指示を無視することがあるが、GPT-5.2はユーザー指示に忠実
vs Claude Opus 4.5:
- コーディング性能:Claude Opus 4.5が80.9%でトップ
- 総合性能:GPT-5.2が幅広いタスクで安定
今後の展望
OpenAIは今後も「コードレッド」体制のもと、Gemini 3への対抗を継続。 GPT-5.3以降のリリースも近い将来予想される。
Canvas × エージェントの組み合わせは、「第2の脳」時代の基盤となる可能性が高い。
第2章:ジェミニ(Gemini)の歴史
GoogleのGeminiシリーズは、2023年12月の登場以来、マルチモーダル処理・長文処理・Google検索統合で急速に進化してきた。
Gemini Pro(2023年12月)
特徴: Google初の本格マルチモーダルAI。
統合: BardからGeminiへ移行し、無料公開。
成果: GPT-4級AIを無料提供し普及を加速。
Gemini Ultra(2024年2月)
特徴: 最高性能モデル。複数ベンチマークでGPT-4 Turbo超え。
動画理解: 映像分析能力が大幅向上。
成果: Google Oneの有料プランで提供。
Gemini 1.5(2024年2月)
特徴: コンテキスト長100万〜200万トークン。
成果: 長文処理で比類なき性能。
Gemini 1.5 Pro(2024年4月)
画像生成: Imagen 3統合。
動画生成: Veo統合が進む。
成果: マルチモーダル生成性能がGPT-4oに匹敵。
Gemini 2.0(2024後半)
エージェント機能:
- Gmail、Docs、Sheetsを自律操作
- 複数アプリ連携のタスク自動実行
画像・動画生成:
- Imagen 3 & Veo完全統合
- 動画編集・拡張・スタイル転換
Web開発:
- Chrome上でWebページ生成と編集
- Google Sites・AppSheetと連携
Gemini 2.5(2025年前半)
特徴: Colab統合強化、データ分析全自動化
動画生成: 長編動画生成が実用レベルに
Web開発: DevTools連携で全工程自動化
Gemini 3.0 Pro(2025年11月18日)★最新
リリース背景: OpenAIに対抗する決定打として投入。「AI推論元年」の象徴的モデル。
キャッチコピー: 「これまででもっともスマートで、もっとも総合力のあるGeminiモデル。AGIへの新たな段階」
【アーキテクチャの革新】
マルチタワーアーキテクチャ:
- 従来:画像や音声をテキスト形式に変換して処理
- Gemini 3.0:視覚・聴覚・言語の情報を独立して処理し、最後に統合
- 結果:真のマルチモーダル理解を実現
3つのモデル展開:
- Gemini 3.0 Nano – オンデバイス向け軽量モデル(スマホ内蔵用)
- Gemini 3.0 Pro – フラッグシップ(本記事の焦点)
- Gemini 3.0 Flash – 高速・軽量版(将来リリース予定)
【主な進化点】
1. Deep Think(思考モード)
- 機能: 思考の連鎖(Chain-of-Thought)と自己検証(Self-Verification)を複数回実行
- 成果: 人間の博士級科学試験で41%の正確率(公開モデルで最高)
- 特徴: AIが質問の本質を理解し、深い洞察に基づいた提案が可能
- 用途: 論理的分析、複雑な問題解決、研究支援
- 対比: 高速モードは創造的アイデア出しに最適
2. Google Antigravity(AI原生IDE)
- 概要: Gemini 3.0を搭載した新しい開発環境
- 機能: AIがコードを書き、実行し、修正までを自律的に実行
- 特徴:
- 自然言語での指示でプロジェクト開始
- クラウドとローカルのリソースを最適化
- コーディングデプロイの全工程が連携
- 対象: Google AI Ultraプラン加入者や招待者(2025年11月時点)
3. 生成インターフェース(Generative Interfaces)
- Visual Layout: 情報を整理する際に見やすい表やカード形式で提示
- Dynamic View: Gemini 3がカスタムUIをリアルタイムで設計・コード生成
- 例: 「Van Goghギャラリーを作品の背景付きで説明」と指示すると、タップやスクロールで学べるインタラクティブな応答を生成
4. Vibe Coding(バイブコーディング)
- 機能: AIが理解し、ユーザーの「意図」を汲み取るコーディング
- 特徴: Canvasモードでの実装。これまでで最高のバイブコーディングモデル
- 成果: フルフィーチャーなアプリをより簡単に構築可能
5. Gemini Agent(エージェント機能)
- 概要: 複数ステップのタスクを直接Gemini内で処理
- 連携: Gmail、Calendar、Drive、DocsなどGoogle Workspaceアプリ
- 機能例:
- 「受信トレイを整理して」→ ToDoを優先順位付け、返信を下書き
- 「来週の旅行に中型SUVを$80/日以下で予約して」→ メールから詳細を取得し検索・提案
- 安全性: 購入やメッセージ送信前に確認を求める設計
- 提供: Google AI Ultra加入者(米国、Web版)から段階的展開
6. 画像生成の強化
- Nano Banana Pro: Gemini 3 Pro Image model
- 特徴: Proプランで1日100枚生成可能(上限後は通常版にフォールバック)
- 新機能: SVG形式での図解作成が劇的に向上
- PowerPointに取り込み可能
- 「図形に変換」ボタンでPowerPoint内で直接編集可能
7. 動画生成の強化
- Veo 3.1 Fast: Proプランで1日3本生成可能(プレビュー)
- Veo 3.1 Ultra: 最高品質の動画生成(Ultraプラン)
- 機能: 画像から動画への変換、複数フレーム一貫動画生成
8. 3D空間生成
- 事例: 間取り図から3D空間を再現し、マイクラのように歩き回れる環境を生成
- 用途: 教育現場、研究の初期段階、アイディア出し
- 例: 「地球の自転を生徒に説明するための3Dシミュレーション」を生成
【ベンチマーク性能】
- MMLU(知識理解): 業界トップクラス
- HumanEval(コーディング): 競合モデルを上回る
- GPQA Diamond(科学推論): Deep Thinkモードで41%(最高記録)
- Vending-Bench 2(長期タスク): 1年間の仮想会社経営で持続黒字達成
【料金プラン】
無料プラン:
- Thinking with 3 Pro:Basic access(制限あり、混雑状況により変動)
- Fast(2.5 Flash):一般アクセス可能(制限あり)
- コンテキストウィンドウ:32,000トークン(約24ページ)
Proプラン(月額約$20):
- Thinking with 3 Pro:1日100回(2025年6月に50回から倍増)
- コンテキストウィンドウ:100万トークン(最大1,500ページまたは30,000行のコード)
- Deep Research:1日20レポート
- 画像生成(Nano Banana Pro):1日100枚
- 動画生成(Veo 3.1 Fast):1日3本
Ultraプラン:
- Deep Think:1日10プロンプト(192,000トークンのコンテキストウィンドウ)
- Gemini Agent:利用可能(米国、Web版)
- Veo 3.1 Ultra:最高品質動画生成
制限のリセット:
- 1日制限:太平洋時間(PT)の深夜0時にリセット
- 月間制限:毎月1日にリセット
【利用可能性】
- Gemini アプリ: グローバルで提供開始(日本語対応)
- Google AI Studio: 利用可能
- Vertex AI: 企業向けに提供
- Google 検索: AIモードで統合
- Google Workspace: Gmail、Docs、Sheets等と連携
【実務での評価】
長所:
- プレゼン作成:視覚的に優れたデザイン(GPT-5.2より上)
- 図解作成:SVG形式で編集可能な図解を自動生成
- マルチモーダル理解:画像・動画・音声の統合処理が圧倒的
短所:
- ユーザーの指示を無視することがある
- カスタム指示への遵守度がGPT-5.2より低い
今後の展望
Gemini 3.0による検索との完全統合が期待される。 Flash版のリリースで、高速かつ軽量なモデルも提供予定。
Google I/O 2025では、さらなる新機能が発表される見込み。
第3章:Claudeのバージョン歴史
AnthropicのClaudeシリーズは、安全性・推論力・構造化能力で評価され、特に文章/Excel処理に強い”構造化AI”として進化を続けている。
Claude 1(2023年3月)
特徴: Constitutional AI採用で安全性に強み。
成果: 当時としては長い10万トークン対応。
Claude 2(2023年7月)
特徴: コード生成の改善、20万トークンへ拡張。
成果: 無料利用可能に。
Claude 3(2024年3月)
特徴: Opus / Sonnet / Haiku の3モデル展開。
成果: GPT-4 Turbo以上の性能を示す。
Claude 3.5 Sonnet(2024年6月)
特徴: 推論・コード生成が飛躍。
成果: 開発者コミュニティで高評価。
Excel Co-Pilot化
- Excel・CSVの解析と構造化能力が飛躍
- 表の整理・分類・関数提案を自動化
- 実務の手順を理解し、人の副操縦士のようにExcel作業を補助
- Claudeは「構造化に最強」のAIであり、表形式の理解・変換に抜群の性能
- これらの高度機能は有料版でのみ利用可能
Claude 3.7(2024年後半)
エージェント機能:
- 複数ステップの自動実行
- ファイル操作
- API呼び出し
動画理解強化: 映像分析能力が向上
Claude Opus 4(2025年5月)
特徴: 7時間連続作業が可能な持続性
成果: 楽天での実証テストで長時間の複雑なソフトウェア開発プロジェクトに成功
推論モデル: デュアルモード機能(即答 or 深い思考)を搭載
Claude Opus 4.1(2025年8月5日)
特徴: Opus 4のアップグレード版。エージェントタスク、コーディング、推論で顕著な改善。
性能: SWE-bench Verifiedで74.5%達成
改善点:
- 詳細追跡能力(複雑な情報の管理と追跡)
- エージェント検索(自律的な情報検索と処理)
- マルチファイルコードリファクタリング
ハイブリッド推論モデル:
- 通常モード:迅速な応答
- 拡張思考モード:最大64Kトークンで深い思考
価格: Opus 4と同じ
Claude Opus 4.5(2025年11月24日)★最新
リリース背景: Sonnet 4.5がOpus 4.1のコーディング性能を上回る”逆転状態”を解消するため、プロ開発者向けに最上位モデルを再強化。
【驚異的な価格改定】
旧価格(Opus 4.1):
- 入力:15ドル/100万トークン
- 出力:75ドル/100万トークン
新価格(Opus 4.5):
- 入力:5ドル/100万トークン(1/3)
- 出力:25ドル/100万トークン(1/3)
→ 性能が向上しながらコストが劇的に下がり、ハイエンドAIを広く民主化
【コーディング性能の頂点】
SWE-bench Verified: 80.9%(発表時点で世界1位)
- Claude Sonnet 4.5:77.2%
- Claude Opus 4.1:74.5%
- Gemini 3 Pro:76.2%
- GPT-5.1:76.3%
LMArena WebDev リーダーボード: Gemini 3 Proを抜いて1位(2025年11月27日時点)
特徴:
- 解決が困難な複合的なバグ修正タスクで前モデルから約15%向上
- 長時間タスクを破綻させない基盤機能が強化
- 大規模コードベースでの精密な作業に最適
【Effort Parameter(エフォート制御)】
概要: ユーザーがタスクに応じてAIの思考リソースを配分できる柔軟性
3つのEffortレベル:
Low Effort
- 用途: 日常的なクエリや軽作業
- 特徴: 最小限のトークンで素早く応答
- 例: コード補完、簡単な要約、翻訳
Medium Effort
- 用途: 一般的なタスク
- 特徴: スピードとパフォーマンスのバランス
- Box AI Eval: 79%のスコア
High Effort
- 用途: 複雑で重要なクエリ
- 特徴: テストタイムコンピューティング(TTC)を実行
- プロセス:
- 内部的な思考の連鎖を生成
- 複数の分析角度を探る
- 自身の引用を検証
- 論理的矛盾を見つけた場合は「バックトラッキング」
- Box AI Eval: 83%のスコア(Opus 4.1の63%から大幅向上)
- 例:
- 50ページの法的契約書の「ポイズンピル」条項分析
- 臨床試験プロトコルの相互参照
- 助成金のコンプライアンスチェック(96%の精度)
対照:
- OpenAI GPT-5シリーズ:自動的な思考モードの切り替え
- Claude Opus 4.5:開発者が意図的にコントロール可能
【技術的進化】
1. コンテキスト圧縮
- 長時間タスクでの情報保持能力が向上
- 数日から数週間のプロジェクトでコンテキストを保持
2. 高度なツール利用
- bash tool:コマンド実行
- file editing tool:文字列置換による編集
- planning toolは廃止(Claude 3.7 Sonnetから変更)
3. トークン効率の向上
- 前世代より少ないトークンで同等以上の成果
- 実利用時のコスト削減と応答速度改善
4. メモリの持続性
- 文書から重要情報を抽出し要約ファイルを作成
- 適切な権限でセッション間の知識維持が可能
【ベンチマーク性能】
数学的推論(MATH): GPT-5(初期版)と同等以上
長文読解(GPQA): GPT-5(初期版)と同等以上
TAU-bench: 拡張思考(最大64Kトークン)使用で高得点
MMMU: 拡張思考使用で高得点
AIME: 拡張思考使用で高得点
※ 2025年12月のGPT-5.2「Thinkingモード」とは拮抗状態
【実務での評価】
GitHub:
- マルチファイルコードリファクタリングで特に顕著な性能向上
- 不要な調整やバグ導入を避けた精密な修正
楽天グループ:
- 大規模コードベース内での正確な修正をピンポイントで実行
- 日常的なデバッグ作業でチームが好んで使用
Box AI(企業向けAI):
- ドキュメントの複雑な推論タスクで83%のスコア(High Effort)
- Medium Effortでも79%と高水準
- Opus 4.1の63%から飛躍的向上
産業別の活用例:
- 法務: 契約書分析、コンプライアンスチェック
- 研究: 助成金管理、コンプライアンスチェック自動化(96%の精度)
- 医療: 臨床試験プロトコル分析
- 金融: 複雑な財務文書の分析
【利用可能性】
Claude.ai:
- Proプラン:Opus 4.5モデル利用可能
- Maxプラン:機能・回数制限なし
Claude Code:
- MAX/Proプランで利用可能
- 開発向けの最強モデルとして復活
API:
- モデルID:
claude-opus-4-5-20251125(最新IDを確認推奨) - Responses API、Chat Completions APIで利用可能
クラウドプラットフォーム:
- Amazon Bedrock:提供開始(主要リージョン)
- Google Cloud Vertex AI:提供開始
- Box AI Studio & API:提供開始
【他モデルとの比較】
vs GPT-5.2:
- コーディング:Claude Opus 4.5が上(80.9% vs 76.3%)
- 総合タスク:GPT-5.2が幅広く対応
- 価格:Claude Opus 4.5が安い(5ドル vs 1.75ドル/入力100万トークン)
vs Gemini 3 Pro:
- コーディング:Claude Opus 4.5が上(80.9% vs 76.2%)
- UI/デザイン:Gemini 3 Proが上
- 推論深度:High EffortのOpus 4.5が優位
vs Claude Sonnet 4.5:
- 性能:Opus 4.5が全般的に上回る
- コスト:Sonnet 4.5の方が安い
- 使い分け:日常タスクはSonnet、重要タスクはOpus
【コスト最適化のヒント】
プロンプトキャッシング:
- 20万トークン以上の長いプロンプトを事前に保存
- 次回以降は安く再利用可能
- タスクによってはSonnet 4.5よりもOpus 4.5の総コストが低いケースも
Effort レベルの使い分け:
- 日常作業:Low Effort
- 標準作業:Medium Effort
- 重要作業:High Effort → 必要な精度とコストのバランスを最適化
今後の展望
Claude 5シリーズへの進化が予想される。 画像・動画生成機能の正式リリースも近い将来期待できる。
Anthropicは安全性と実用性のバランスを重視し、企業向けAIの信頼性を高める方針を継続。
総括:2025年12月の生成AI戦争
三つ巴の激戦
OpenAI GPT-5.2:
- 幅広いタスクで安定した高性能
- ユーザー指示への忠実性が高い
- エクセル作業に強み
Google Gemini 3.0 Pro:
- マルチモーダル処理で圧倒的
- プレゼン・図解作成に優れる
- Google生態系との統合が強力
Anthropic Claude Opus 4.5:
- コーディング性能で世界トップ
- 価格が1/3に下がり民主化
- 企業向けの信頼性が高い
選び方のガイドライン
汎用的な業務: GPT-5.2 デザイン重視: Gemini 3.0 Pro コーディング・開発: Claude Opus 4.5 コスト重視: Claude Opus 4.5(性能維持で価格1/3)
2025年のキーワード
- 推論AI元年
- エージェント機能の本格化
- マルチモーダルの進化
- AIの民主化(価格低下)
- 企業向けAIの実用化
私たちは今、単なるツールを使っているのではなく、 思考するパートナーと共に新たな知的生産の時代を歩み始めています。
最終更新日: 2025年12月17日
次回予告: 次の記事では「画像生成・動画生成AIの昨今」について、 Midjourney V7、Sora 2、Veo 3などの最新動向を詳しく解説します。


コメント