生成AI 定点観測 2025.11.30

最近の私は、生成AIパスポートやG検定、FP3級を取得しながら、
“第二の脳と手足づくり”に本気で取り組んでいます。
Obsidianで思考を溜め、Cursorで作業を支えてもらうことで、
日々の気づきや短いコメントでさえ資産として積み上がっていくのを感じています。

GPT、Claude、Midjourneyもすべて有料版で活用し、
AIと一緒に動く新しいワークフローがようやく自分の形になってきました。

この記事では、主要な生成AIである GPT・Gemini・Claude が
どのような進化を歩んできたのかを、私なりに整理してみました。
AIの歴史を知ることは、今の技術がどこから生まれ、どの方向へ進んでいるのかを
理解するための大切な手がかりになります。

ぼくは、技術の流れを振り返ることがとても重要だと思っています。
どんな人たちが関わり、どんな工程を経て今の姿になったのか。
その背景を知ることで、AIの現在地や未来への期待が、より立体的に見えてくるからです。

第1章：GPTのバージョンの歴史
第2章：ジェミニ（Gemini）の歴史）
第3章：Claudeのバージョン歴史

第1章：GPTのバージョンの歴史

OpenAIのGPT（Generative Pre-trained Transformer）シリーズは、2018年のGPT-1から始まり、現在のGPT-4oおよびGPT-5系まで進化を続けている。各バージョンの主な特徴とリリース時期を時系列で整理する。

GPT-1（2018年6月）

パラメータ数： 1.17億
特徴： Transformerアーキテクチャを採用した最初のGPTモデル。言語モデルの事前学習とファインチューニングの有効性を実証。
成果： 自然言語処理タスクで当時のベンチマークを更新。

GPT-2（2019年2月）

パラメータ数： 15億（最大）
特徴： 大規模データセットで学習。ゼロショット性能が注目された。
成果： 文章生成の質が大幅向上。当初は安全性の懸念から段階的公開。

GPT-3（2020年6月）

パラメータ数： 1,750億
特徴： Few-shot学習が可能に。API提供開始。
成果： 多様なタスクで高性能を発揮。ChatGPTの基盤となる。

GPT-3.5（2022年11月〜）

主なモデル： text-davinci-003、ChatGPT（GPT-3.5-turbo）
特徴： RLHFにより対話能力が飛躍的に向上。
成果： ChatGPT公開により生成AIが一般に広まる転換点に。

GPT-4（2023年3月）

パラメータ数： 非公開（推定1兆以上）
特徴： マルチモーダル対応（テキスト＋画像入力）。推論能力が大幅向上。
画像生成： DALL・E 3との統合により、ChatGPT内で画像生成が可能に。
成果： 多くのベンチマークで人間レベルに。Turbo版で128Kトークン対応。

GPT-4o（2024年5月）

特徴： “omni（全方位）”モデル。音声・画像・動画・テキストをリアルタイム統合。
動画生成： Soraとの統合が進み、高品質動画生成が可能に。
Web開発： ブラウザ統合でHTML/CSS/JS生成と表示がChatGPT内で完結。
成果： レスポンス速度とモーダル統合性能が向上。

GPT-4o mini（2024年7月）

特徴： 軽量版で低コスト。
成果： GPT-4レベルの性能を広く提供。

GPT-5.1（2025年）

特徴： GPT-5の改良版。エージェント機能・計画能力・画像/動画生成が大幅強化。

エージェント機能の進化

複数ステップのタスクを自動計画
ブラウザ操作・ファイル操作・API連携
自己修正・例外処理の安定化

画像・動画処理の強化

DALL・E 3 と Sora が完全統合
画像→動画変換、動画編集が可能
複数フレーム一貫動画生成

ブラウザ開発能力の強化

フルスタックWebアプリの生成・プレビュー
デバッグとデプロイまでサポート

Canvas連携

無限キャンバス上で画像/動画/図表を生成
ワークフロー全体を可視化・共同編集可能

今後の展望

GPT-5の本格展開に向け、さらなる推論強化とマルチモーダル統合が進む。Canvas × エージェントの組み合わせは、「第2の脳」時代の基盤となる。

第2章：ジェミニ（Gemini）の歴史）

GoogleのGeminiシリーズは、2023年12月の登場以来、マルチモーダル処理・長文処理・Google検索統合で急速に進化してきた。

Gemini Pro（2023年12月）

特徴： Google初の本格マルチモーダルAI。
統合： BardからGeminiへ移行し、無料公開。
成果： GPT-4級AIを無料提供し普及を加速。

Gemini Ultra（2024年2月）

特徴： 最高性能モデル。複数ベンチマークでGPT-4 Turbo超え。
動画理解： 映像分析能力が大幅向上。
成果： Google Oneの有料プランで提供。

Gemini 1.5（2024年2月）

特徴： コンテキスト長100万〜200万トークン。
成果： 長文処理で比類なき性能。

Gemini 1.5 Pro（2024年4月）

画像生成： Imagen 3統合。
動画生成： Veo統合が進む。
成果： マルチモーダル生成性能がGPT-4oに匹敵。

Gemini 2.0（2024後半）

エージェント機能

Gmail、Docs、Sheetsを自律操作
複数アプリ連携のタスク自動実行

画像・動画生成

Imagen 3 & Veo完全統合
動画編集・拡張・スタイル転換

Web開発

Chrome上でWebページ生成と編集
Google Sites・AppSheetと連携

Gemini 2.5（2025）

特徴： Colab統合強化、データ分析全自動化
動画生成： 長編動画生成が実用レベルに
Web開発： DevTools連携で全工程自動化

今後の展望

Gemini 3.0による検索との完全統合が期待される。

第3章：Claudeのバージョン歴史

AnthropicのClaudeシリーズは、安全性・推論力・構造化能力で評価され、特に文章/Excel処理に強い“構造化AI”として進化を続けている。

Claude 1（2023年3月）

特徴： Constitutional AI採用で安全性に強み。
成果： 当時としては長い10万トークン対応。

Claude 2（2023年7月）

特徴： コード生成の改善、20万トークンへ拡張。
成果： 無料利用可能に。

Claude 3（2024年3月）

特徴： Opus / Sonnet / Haiku の3モデル展開。
成果： GPT-4 Turbo以上の性能を示す。

Claude 3.5 Sonnet（2024年6月）

特徴： 推論・コード生成が飛躍。
成果： 開発者コミュニティで高評価。

Claude 3.7（2024後半）

エージェント機能：
- 複数ステップの自動実行
- ファイル操作
- API呼び出し
動画理解強化

Claude 4（2025年）

特徴： コンテキスト100万トークン超
生成： 画像・動画生成が正式リリース（予定）
ブラウザ操作： Web編集機能が追加予定

Claude 4.5（2025年）

特徴： 画像・動画編集が統合
成果： マルチモーダル生成能力が強化

Claude 3.5 Sonnet の “Excel Co-Pilot化“

Claude 3.5 Sonnet（2024年6月）は、Excel・CSVの解析と構造化能力が飛躍し、表の整理・分類・関数提案を自動化。実務の手順を理解し、人の副操縦士のようにExcel作業を補助する“Co-Pilot的AI”として完成形に近づいた。claudeは「構造化に最強」のAIであり、表形式の理解・変換に抜群の性能を持つ。これらの高度機能は有料版でのみ利用可能