AIトレンド定点観測 2025年11月9日
最新AI情報
📊 エグゼクティブサマリー
2025年、AI技術は研究開発から社会実装へと急速に移行しています。OpenAIのGPT-5とo1シリーズ、GoogleのGemini 2.5シリーズが登場し、大規模言語モデル(LLM)は単なるツールから「思考するAIパートナー」へと進化しました。特に強化推論機能を搭載したモデルが、複雑な問題解決や高度なコーディングタスクで劇的な性能向上を実現しています。
動画生成AI分野では、OpenAIのSora Android版リリースとGoogleのVeo 3(音声付き動画生成)が市場に旋風を巻き起こし、画像生成分野ではGoogleのNano Banana(Gemini 2.5 Flash Image)が世界最高評価を獲得するなど、マルチモーダルAIの実用化が加速しています。
さらに、AIは情報処理だけでなく「実際に動き働く」フィジカルAIへと進化し、自動車、物流、製造、医療分野で産業革命を牽引しています。
💡 注目ポイント
- OpenAI GPT-5とo1シリーズの登場: GPT-5は自律的なタスク実行能力を獲得し、AGI(汎用人工知能)に大きく近づきました。o1/o3/o4推論モデルは博士レベルの数学・科学問題を解決し、複雑なコーディングタスクで人間を上回る性能を発揮しています。
- Gemini 2.5 ProとDeepThinkモード: Googleが2025年5月のGoogle I/Oで発表したGemini 2.5 Proは、コーディング・科学・推論ベンチマークで世界トップを獲得。DeepThinkモードは非常に複雑な数学・コーディング問題に特化した実験的強化推論機能です。
- Nano Banana(Gemini 2.5 Flash Image)の衝撃: 2025年8月発表のGoogleの画像生成・編集AIモデルがLMArenaで世界最高評価を獲得。キャラクター一貫性、複数画像ブレンド、自然言語による精密編集で「Photoshopキラー」と称されています。
- プレミアムAIプランの登場: OpenAIのChatGPT Pro($200/月)とGoogleのAI Ultra($249.99/月)が、最先端モデルと無制限利用を提供。AIが本格的な「投資対象」として確立されました。
- Googleマップへのプラットフォーム統合: 2025年11月、GeminiがGoogle マップ、検索、NotebookLM、Google Workspaceと深く統合され、日常生活に溶け込むAIアシスタントとして機能を拡大しています。
- 動画生成AIの音声対応: GoogleのVeo 3が効果音・背景音・キャラクター対話をネイティブサポートする世界初のモデルとして登場し、動画コンテンツ制作の完全自動化に一歩近づきました。
🚀 LLMの進化加速
OpenAI: GPT-5とo1シリーズで新時代へ
GPT-5の革命的進化
2025年に正式リリースされたGPT-5は、「AIを使う」段階から「AIが自律的に思考し実行する」段階への移行を象徴しています。テーマを与えるだけで必要な情報をWeb検索し、構成を考え、レポートを完成させる自律性を獲得しました。さらに、テキスト・音声・画像に加えて動画モダリティにも対応し、Web会議録画やセミナー動画から自動で議事録・要約・翻訳を生成します。
OpenAIはGPT-5に加え、GPT-5 Pro(API価格$15/1Mトークン入力、$120/1Mトークン出力)、GPT-5 Codex(コーディング特化)、GPT-5 Nanoといった派生モデルをリリースし、用途別の最適化を進めています。
o1/o3/o4推論モデル群の台頭
OpenAIは2024年12月の「12日間連続リリース」キャンペーンで、推論に特化したo1 proモデルと新有料プラン「ChatGPT Pro」(月額$200)を発表しました。o1 proは数学・プログラミング・博士レベルの問題への回答精度が飛躍的に向上し、o1やo1-previewを大きく上回る性能を示しました。
2025年にはさらにo3、o4、o4-miniモデルが登場し、強化された推論・品質・パフォーマンスを提供しています。これらのモデルは与えられた情報やデータに基づいて新しい知識や結論を導き出す能力に長けており、複雑な問題解決タスクで真価を発揮します。
GPT-4oの大幅アップデート
2025年1月29日、GPT-4oが大幅にアップデートされました。知識カットオフが2023年11月から2024年6月に延長され、最新の文化・社会動向や研究に基づくより正確な回答が可能になりました。特に画像理解能力が向上し、空間関係の解釈、複雑な図表の分析、視覚情報とテキストの関連付けが得意になっています。STEM分野(数学・科学・コーディング)での問題対応力も強化されています。
Deep Research機能の展開
2025年2月、OpenAIはDeep Research機能をモバイル(iOS、Android)およびデスクトップアプリ(macOS、Windows)のProユーザー全員に提供開始しました。高度なリサーチを支援するこの機能は、サム・アルトマンCEOによると「1日に数十回利用したい」という要望が寄せられるほど人気を集めています。
開発者向けAPI機能の充実
OpenAIは開発者向けに多数の機能強化を実施しました。GPT-4o miniがリアルタイムAPIに対応し、従来モデルの最大10倍のコスト削減を実現。WebRTC対応により、わずかなコード行数でリアルタイムの音声・通信機能を統合可能になりました。また、o1とGPT-4oでFunction CallingやStructured Outputsのサポートが追加され、コードとの連携やデータ処理がスマートに行えるようになっています。
セキュリティとブラウジング機能の拡充
OpenAIはGPT-5ベースのセキュリティエージェント「Aardvark」をリリースし、オンライン脅威対策を強化しました。また、Mac限定の新ブラウザ「Atlas」を投入し、LLMを活用したエージェント機能の充実を図っています。
Google: Gemini 2.5シリーズとエコシステム統合
Gemini 2.5 ProとDeepThink
2025年5月のGoogle I/Oで発表されたGemini 2.5 Proは、コーディング・科学・推論・マルチモーダルベンチマークの各分野で性能が大幅に向上し、WebDev ArenaおよびLMArenaの両リーダーボードで世界トップを獲得しました。学習支援においても最高レベルのモデルとなっています。
Gemini 2.5 Pro向けの実験的な強化推論モード「DeepThink」は、非常に複雑な数学やコーディング問題に対応できるよう設計されています。最先端の安全性評価を実施し、広く一般提供する前にGemini APIを通じてテスターにフィードバックをいただく慎重なアプローチを取っています。
Gemini 2.5 Flashの効率性
Gemini 2.5 Flashは、速度と低コストを重視して設計された最も効率的な主力モデルです。推論・マルチモーダル・コード・長文コンテキストに関する主要なベンチマーク全体で改善され、トークン使用量が20〜30%削減されています。現在Geminiアプリで誰でも利用可能で、2025年6月上旬に開発者向けにはGoogle AI Studioで、企業向けにはVertex AIで一般提供が開始されました。
Gemini Liveの無料化と機能拡張
Gemini Liveは、カメラや画面共有を通じたリアルタイム対話機能がAndroidとiOSで無料提供されるようになりました。スマホ画面を使って視覚情報を共有し、リアルタイムでAIの支援を受けることができます。購入した家電の操作方法を説明書を映してGeminiに案内してもらうなど、実用的なシーンで活躍します。
今後数週間で、Gemini LiveはGoogleカレンダー、Googleマップ、Google ToDo、Google Keepとの連携を深めていく予定です。友人との予定をGemini Liveで話し合うと自動的にカレンダーにイベントが作成されたり、特定の料理について尋ねるとGoogleマップから最新情報が得られるなど、日常生活における利便性が大幅に向上します。
Deep ResearchとCanvasの統合
2025年11月、GeminiのDeep Research機能がGmail、Googleドライブ(ドキュメント・スライド・スプレッドシート・PDF含む)、Googleチャットと連携しました。個人やチームが保持する情報を横断的に参照し、より文脈に沿った分析やレポートを生成できます。
画像やメモ、PDFなどの異なるフォーマットや情報を自動で整理し、構造化や図解化ができる「Canvas」機能も追加されました。データ分析や整理が得意なDeep Researchと、ビジュアル化や音声化が得意なCanvasの特徴を組み合わせることで、情報の整理からビジュアライズ、さらにポッドキャスト作成やアプリ開発まで対応可能になっています。
Gemini in Chromeの展開
ChromeブラウザでGeminiが直接利用できるようになり、ウェブ閲覧中に質問することが可能になりました。ウェブページの要約や情報明確化がブラウザ内で完結します(Google AI Pro/Ultra加入者向けに米国から順次展開)。
Googleマップへの統合
2025年11月5日、GoogleはGoogleマップアプリへのGemini統合を発表しました。目的地へのルート検索からナビゲーション開始、近くのEV充電器検索、現在地共有などをハンズフリーで利用可能です。「OK Google、ルート沿いに駐車場のあるレストランはありますか?」「そこまでナビゲートして」など、ルート検索やナビゲーション実行だけでなく、交通渋滞や事故の報告まで、Geminiに尋ねるだけで自動実行できます。
プレミアムプラン「Google AI Ultra」
月額$249.99(初回利用者は最初の3ヶ月間50%オフ)のGoogle AI Ultraは、最も強力なモデルへのアクセス、最高の利用上限、最もエキサイティングな実験的AI製品への早期アクセスを提供します。Veo 3や今後登場予定の「2.5 Pro Deep Thinkモード」へのアクセスに加え、デスクトップ向けに近日公開予定の実験的機能「エージェントモード」への早期アクセスも得られます。
エージェントモードは、ユーザーが目標を述べるだけでGeminiがその達成に必要なステップを自律的に計画・実行する機能です。ライブウェブブラウジング、詳細なリサーチ、Googleアプリとのスマートな連携といった高度な機能を組み合わせ、複雑なマルチステップのタスクを最小限の監督で処理できます。
Anthropic: Agent Skillsで専門性強化
AnthropicはClaudeに特定の専門知識やタスク処理方法を「スキル」として教え込み、必要に応じて呼び出せる「Agent Skills」を発表しました。これによりLLMの応用範囲が大きく広がり、より専門的で文脈に応じた対応が可能になっています。
🎬 動画AI戦争の第二幕
動画生成AIの分野では、OpenAIの「Sora」とGoogleの「Veo」が激しい開発競争を繰り広げています。
OpenAI Soraの快進撃
OpenAIは2025年、動画生成AI「Sora」のAndroid版アプリをリリースし、わずか数日で100万ダウンロードを達成する社会現象を巻き起こしました。静止画一枚からプロンプト指示で多様な動画を生成するSoraの能力は、ソーシャルメディアコンテンツのあり方を大きく変えつつあります。
Google Veo 3の革新: 音声付き動画生成
Googleは「Veo 3」を発表し、効果音・背景音・キャラクター間の対話をネイティブにサポートする世界初の動画生成モデルとして大きな注目を集めています。Veo 3は高品質な動画生成に加え、複数の画像を参照した動画生成、最初と最後のフレーム画像から滑らかなトランジション映像を自動生成する機能も搭載しています。
Veo 3.1とVeo 3 Fastモデルもリリースされ、より多様な出力オプション(4秒、6秒、8秒)、アスペクト比、解像度設定が可能になりました。Image-to-Video生成も対応し、静止画から動画への変換がさらに進化しています。
産業への影響
これらの動画生成AIは、広告・エンターテイメント・行政広報といった多様な分野で活用され、コンテンツ制作の効率化と新たな表現手法の開拓に貢献しています。特に音声付き動画生成の実現により、完全自動でのコンテンツ制作が現実のものとなりつつあります。
🎨 画像AI市場の変化
Nano Banana(Gemini 2.5 Flash Image)の衝撃
2025年8月26日に発表されたGoogleのGemini 2.5 Flash Image(通称「Nano Banana」)は、画像生成・編集AIの分野に革命をもたらしました。LMArenaでの匿名テスト段階から「nano-banana」というコードネームで注目を集め、正式発表後はLMArenaのImage Editリーダーボードで世界第1位、Text-to-Imageリーダーボードでも第1位を獲得し、「Photoshopキラー」と称されるほどの評価を得ています。
主な特徴:
- キャラクター一貫性: 同じキャラクターや製品を異なる環境・角度から生成でき、顔の構造や特徴を維持したまま複数のシーンで使用可能
- 複数画像のブレンド: 最大8枚の画像を自然言語プロンプトで融合し、新しいビジュアルを作成
- 精密なローカル編集: 背景のぼかし、シミ除去、人物の削除、ポーズ変更、白黒写真のカラー化など、自然言語で指示するだけで実現
- Geminiの世界知識活用: 手描き図の理解、実世界の質問への対応、複雑な編集指示のフォローが可能
Nano BananaはGeminiアプリ、Google AI Studio、Vertex AI、さらにGoogle LensやAI Modeにも統合され、2025年10月にはAndroidのCircle to Searchからもアクセス可能になりました。価格は$0.039/画像($30.00/100万出力トークン)で、LeonardoAIなどのサードパーティプラットフォームでも利用できます。
Imagen 4シリーズの展開
Googleは画像生成モデルImagen 4のUltra、Standard、Fastバージョンを一般提供(GA)しました。高画質、優れたテキスト描写、処理速度の早さが特長です。Adobe FireflyやAdobe Expressにも統合され、業界標準のツールチェーンでの利用が可能になっています。
Metaの広告自動化とスマートグラス
Metaは2025年中にAIを活用した広告の完全自動作成サービスを開始すると発表しました。広告主が商品画像と予算を提供するだけで、AIが画像・動画・テキストを含む広告クリエイティブを自動生成し、最適なターゲット層への配信まで一貫して行います。
また、MetaはRay-Banとのコラボレーションによるスマートグラス「Meta Ray-Ban Display」を発表しました。指先の微細な動きで操作可能で、リアルタイムのキャプション表示や翻訳機能も搭載されています。
著作権問題の動向
画像生成AIの著作権問題も依然として議論の的となっています。Getty ImagesがStable Diffusionを訴えた件では、商標権侵害のみが認定される判決が下され、AI画像生成における法的枠組みの整備が進んでいます。
⚡ 開発者向けツールの充実
開発者向けツールにおいては、AIモデルの進化が直接的に新たな開発機会を生み出しています。
Google AI StudioとVertex AI
GoogleのNano Bananaや各種Geminiモデルは、Google AI StudioやAPIを通じて開発者にも提供され、クリエイティブなアプリケーション開発が加速しています。Google AI Studioの「build mode」では、プロンプト一つでカスタムAI搭載アプリを作成・リミックスでき、準備ができたらそのままデプロイやGitHubへの保存が可能です。
OpenAIのエージェント開発フレームワーク
OpenAIの「Aardvark」、「Atlas」、そしてAgentKitなどのツールは、開発者がより複雑なタスクを自動化し、ユーザー体験を向上させるための新たなフレームワークを提供します。LegalOnは「AgentKitを導入することで、AIエージェントのUIをわずか1日で開発し、開発コストを最大80%削減した」と報告しています。
フィジカルAI開発環境
NVIDIA Isaac SimやNVIDIA Omniverseを活用したシミュレーション環境は、特にフィジカルAIやロボティクス分野の開発において、デジタルツインの構築と検証を強力に支援し、開発効率の向上に貢献しています。
バッチ処理とコスト最適化
Gemini APIはバッチモードを導入し、リクエストをまとめて非同期処理できるようになりました。OpenAIも2025年2月末までの期間限定で、o1とGPT-4oで1日最大100万トークン、o1-miniとGPT-4o-miniで1日最大1000万トークンの無償利用枠を提供し、モデル改善への貢献を促しています。
🏢 産業変革の現実
AIはもはや単なる技術ツールではなく、私たちの生活と収益を根本から変える「AIパートナー」としての地位を確立し始めています。
フィジカルAIの台頭
「フィジカルAI」の進化は、自動車・物流・製造・医療・社会インフラといった多様な産業において、安全性・効率性・革新を推進する新たな原動力として期待されています。特に医療分野では、AIロボティクスの導入が社会的インパクトを大きく、効率化や新たな価値創出の余地が大きいと目されています。
日本市場の特徴
日本においては、生成AIが深刻化する人材不足の解消に寄与する可能性が指摘される一方で、日本特有の「100%を求める」文化が導入の障壁となる可能性も示唆されています。
防衛分野での協力
防衛分野では、米国と日本が「SAMURAIプロジェクト」に合意し、無人航空機(UAV/ドローン)に搭載されるAIシステムの安全運用を目指す研究開発枠組みが正式に発足しました。
🔬 研究・技術開発の最前線
AI研究は「行動する知能=フィジカルAI」の実現へと急速にシフトしており、2025年には「AIエージェント」の本格導入が始まり、2030年前後には人間のように幅広い知的活動が可能な汎用人工知能(AGI)の実装が進むと予測されています。
国内の研究活動
東京農工大学が「第10回 AIサロン」を開催し、企業におけるAI研究やその社会実装、研究者のキャリア形成について議論する場を提供しています。
横浜で開催される「EdgeTech+ 2025」では、エッジAI・フィジカルAI・SDV(Software Defined Vehicle)といった最先端のコア技術に焦点を当て、「AIと創る」ものづくりの新時代をテーマにカンファレンスや展示が行われます。
研究論文の動向
研究論文では、大規模言語モデルにおける長文処理時の関連情報配置によるバイアスの影響や、ショートフォームの事実性を測定する手法に関する新たな知見が発表されており、AIの信頼性と応用可能性の深化に貢献しています。
発展の時系列
- GPT-5(2025年): 自律的なタスク実行能力を獲得し、テキスト・音声・画像・動画のマルチモーダル対応を実現。AGIに大きく近づく。
- o1/o3/o4シリーズ(2024-2025年): 推論特化型モデルとして登場し、博士レベルの問題解決能力を実証。
- Gemini 2.5 Pro/Flash(2025年5月): Google I/Oで発表。コーディング・科学・推論で世界トップ性能を達成。
- Nano Banana(Gemini 2.5 Flash Image)(2025年8月): 画像生成・編集AIとしてLMArenaで世界最高評価を獲得。
- Veo 3(2025年): 音声付き動画生成を実現し、効果音・背景音・キャラクター対話をネイティブサポート。
- Imagen 4(2025年): Ultra/Standard/Fastバージョンを一般提供開始。
- Claude 3.5 Sonnet(2024年6月): 推論とコード生成能力を大幅に向上させ、より高速かつ費用対効果の高い中規模モデルをリリース。
- GPT-4o(2024年5月): テキスト・音声・画像をネイティブで処理できる統合型マルチモーダルモデルを発表。
- Gemini 1.5 Flash(2024年5月): 高速で費用対効果に優れた、軽量版のマルチモーダルGeminiモデルを公開。
- Claude 3 Opus/Sonnet/Haiku(2024年3月): 性能と効率を最適化した3種類のマルチモーダルモデルファミリーを発表。
- Sora 1.0(2024年2月): テキストプロンプトからリアルで複雑な動画を生成するAIモデルを発表。
- Gemini 1.5 Pro(2024年2月): 最大100万トークンのコンテキストウィンドウを実現し、処理能力が飛躍的に向上。
- GPT-3(2020年5月): 1750億パラメータを持ち、幅広いタスクで優れた汎用性と性能を示す。
機能・戦略比較
GPT
主な機能:
- マルチモーダル理解と生成(テキスト・画像・音声・動画)
- 自律的なタスク実行能力(GPT-5)
- 強化推論機能(o1/o3/o4シリーズ)
- 高度な論理推論と問題解決能力
- 膨大な知識量と広範な一般常識
- 自然で流暢な対話と文章生成
- 複雑なプログラミングとコード生成
- 多様なAPI連携による幅広い応用性
戦略的優位性: 広範なマルチモーダル能力と開発者向けの強固なエコシステムにより、最先端のAI技術を幅広いユースケースとユーザー層に提供。特にGPT-5の自律性とo1シリーズの推論能力により、AGIへの道を切り開いています。
Claude
主な機能:
- 安全性と倫理的AI開発の重視
- 非常に長いコンテキストウィンドウによる文書処理
- 複雑な指示への遵守と正確な応答
- 繊細なニュアンスや感情の理解
- Agent Skills機能による専門性強化
- 偏りの少ない公正な情報提供
- 企業向けの信頼性と説明責任
戦略的優位性: 安全性と倫理を最優先した設計思想と、卓越した長文処理能力により、特に企業や機密性の高い分野で信頼性の高い複雑な情報処理と意思決定を支援します。
Gemini
主な機能:
- ネイティブなマルチモーダル統合(テキスト・画像・動画・音声)
- 超長尺のコンテキストウィンドウと動画理解
- Googleエコシステムとの深い統合(マップ・検索・Workspace)
- DeepThink強化推論モード
- 世界最高評価の画像生成・編集(Nano Banana)
- 音声付き動画生成(Veo 3)
- 高い効率性とスケーラビリティ(2.5 Flash)
- Deep ResearchとCanvasによる情報統合
- リアルタイム処理と迅速な応答
戦略的優位性: ネイティブなマルチモーダル能力と超長尺コンテキストウィンドウをGoogleの広大なエコシステムと連携させることで、特に動画解析や複数の情報源を横断する複雑なタスクにおいて独自の優位性を確立。画像生成・編集分野では世界最高レベルの性能を達成しています。
結論
2025年11月時点で、AI技術は研究室から実社会へと急速に浸透しています。OpenAIのGPT-5とo1シリーズ、GoogleのGemini 2.5シリーズは、それぞれ異なる戦略でAGIへの道を切り開いており、競争と協調が技術進化を加速させています。
画像・動画生成AI分野では、Nano BananaとVeo 3が新たなスタンダードを確立し、コンテンツ制作の民主化が進行中です。フィジカルAIの発展により、AIは情報処理から物理世界での行動へと進化しています。
今後数年で、AIはさらに日常生活に溶け込み、人間の能力を拡張する「パートナー」として不可欠な存在となるでしょう。


コメント