[PR]運営維持のため一部広告リンクがあります

ローカルで使える動画生成AI 7選｜条件を徹底解説

✔︎ なぜ3ヶ月行き詰まっていたフリーランスが、たった2時間で30秒の映像を仕上げられるようになったのか？
✔︎ 私が身につけたたった50のプロンプトとは？
✔︎ 実際に生成される動画をすべて公開
✔︎ 追加させるだけの具体的な方法
✔︎ 各プロンプトの効果と目的別の使い方まで

無料カタログを今すぐ受けとる

2025.03.032025.03.10

ReeX Japan

◾️生成AIパスポート取得（2025.2）
◾️SoraからFeatured（2回）
◾️動画生成AIに魅せられた都内在住の20代男性
◾️ChatGPTのPro Planを課金済
◾️Udemy講師として3コース開講中

ローカル環境で使用可能な動画生成AIは、多様な用途に応じて活用されています。以下では、それぞれのツールについて用途、ライセンス形態、GPU要件、使いやすさを詳しく本文でまとめました。主にオープンソースのAIが中心です。日本国内で利用できる動画生成AIとして紹介したものは含まれていません。

テキストベース、画像ベース、動画ベースでそれぞれ解説していきます。

AIによる動画生成をイメージした横長のモダンなイラスト。水色を基調に、テキストや画像から動画への変換、AIを活用した動画編集、GPU技術などをクリーンかつプロフェッショナルなスタイルで表現。

目次

Text to Video or Image to Video
1. AnimateDiff（ Stable Diffusion 拡張）
2. HunyuanVideo（Tencent）
Image to Video
1. Stable Video Diffusion（ Stability AI ）
2. DeepFaceLab
Text to Video
1. ModelScope Text2Video（DAMO-ModelScope）
2. Mochi-1（Genmo）
Video to Video
1. EbSynth（スタイル変換）
まとめ

Text to Video or Image to Video

AnimateDiff（ Stable Diffusion 拡張）

AnimateDiffは、テキストまたは画像を元に動画を生成できるStable Diffusionの拡張機能です。オープンソース（Apache 2.0ライセンス）で提供されています。操作性が高く、WebUI（AUTOMATIC1111）やノードベースのGUI（ComfyUI）で簡単に利用できます。GPUはNVIDIA製が推奨されています。元々はText to Videoでしたが、短いアニメーションとし生成できるようになっています。

公式サイト

HunyuanVideo（Tencent）

HunyuanVideoは、高解像度かつ長尺の動画を生成可能なAIです。独自のCommunityライセンスによりオープンソースとして提供されています。しかし、非常に高性能なGPU環境（推奨はVRAM 60GB以上）が必要です。操作方法はコマンドラインとComfyUIなどのGUIの両方に対応しています。

公式サイト

Image to Video

Stable Video Diffusion（ Stability AI ）

Stable Video Diffusion は、静止画像から短いアニメーション動画を生成するAIです。ライセンスは非商用利用のみ可能であり、研究目的での使用が許可されています。ただ、「メンバーシップにご加入いただければ、商用利用も可能」との記載があります。しかし、使用にはNVIDIA GPUが必須となり、基本的にはコマンドライン操作が中心です。ただ、ComfyUIなどのGUI環境にも対応しています。

公式サイト

DeepFaceLab

DeepFaceLabは、既存の動画の人物の顔を他人の顔に差し替えることができるディープフェイク動画編集AIです。オープンソース（GPL-3.0ライセンス）で公開されており、NVIDIA GPUの利用が推奨されています。また、基本的にはコマンドライン操作が必要ですが、外部のGUIツールも利用可能です。悪用厳禁です。

公式サイト

Text to Video

ModelScope Text2Video（DAMO-ModelScope）

ModelScope Text2Videoは、入力された英語テキストを元に短い動画を生成するAIです。オープンソース（非商用利用可）として提供されています。しかし、高性能なNVIDIA GPU（VRAMが16GB以上推奨）が必要です。操作はコマンドラインまたはローカルWebUI（Gradioベース）から行えます。

公式サイト

Mochi-1（Genmo）

Mochi-1はテキストプロンプトから高品質な短編動画を生成するAIツールで、オープンソース（Apache 2.0ライセンス）で提供されています。しかし、利用には高性能GPU（推奨は24GB VRAM以上）が必要です。操作はノードベースのGUI（ComfyUI）で直感的に行えます。

公式サイト

Video to Video

EbSynth（スタイル変換）

EbSynthは動画にユーザーが用意したアートスタイルを転写し、アニメーション風や絵画風の動画に変換するソフトウェアです。無料で提供されています。加えて、クローズドソースであり、GPU不要でCPUのみでの動作が可能です。さらに、直感的なGUIアプリケーションで容易に操作できます。

こんな感じです。

公式サイト

まとめ

上記以外にも、OpenAI の「First Order Motion Model」（1枚の人物画像＋ドライビング動画から動画生成）や、Metaの「 EMu 」（高性能だが未公開）など様々な研究プロジェクトがあるようです。気になる方は調べてみてくださいね。

タイトルとURLをコピーしました