ローカル環境で使用可能な動画生成AIは、多様な用途に応じて活用されています。以下では、それぞれのツールについて用途、ライセンス形態、GPU要件、使いやすさを詳しく本文でまとめました。主にオープンソースのAIが中心です。日本国内で利用できる動画生成AIとして紹介したものは含まれていません。
テキストベース、画像ベース、動画ベースでそれぞれ解説していきます。

Text to Video or Image to Video
AnimateDiff( Stable Diffusion 拡張)
AnimateDiffは、テキストまたは画像を元に動画を生成できるStable Diffusionの拡張機能です。オープンソース(Apache 2.0ライセンス)で提供されています。操作性が高く、WebUI(AUTOMATIC1111)やノードベースのGUI(ComfyUI)で簡単に利用できます。GPUはNVIDIA製が推奨されています。元々はText to Videoでしたが、短いアニメーションとし生成できるようになっています。
HunyuanVideo(Tencent)
HunyuanVideoは、高解像度かつ長尺の動画を生成可能なAIです。独自のCommunityライセンスによりオープンソースとして提供されています。しかし、非常に高性能なGPU環境(推奨はVRAM 60GB以上)が必要です。操作方法はコマンドラインとComfyUIなどのGUIの両方に対応しています。
Image to Video
Stable Video Diffusion( Stability AI )
Stable Video Diffusion は、静止画像から短いアニメーション動画を生成するAIです。ライセンスは非商用利用のみ可能であり、研究目的での使用が許可されています。ただ、「メンバーシップにご加入いただければ、商用利用も可能」との記載があります。しかし、使用にはNVIDIA GPUが必須となり、基本的にはコマンドライン操作が中心です。ただ、ComfyUIなどのGUI環境にも対応しています。
DeepFaceLab
DeepFaceLabは、既存の動画の人物の顔を他人の顔に差し替えることができる ディープフェイク 動画編集AIです。オープンソース(GPL-3.0ライセンス)で公開されており、NVIDIA GPUの利用が推奨されています。また、基本的にはコマンドライン操作が必要ですが、外部のGUIツールも利用可能です。悪用厳禁です。
Text to Video
ModelScope Text2Video(DAMO-ModelScope)
ModelScope Text2Videoは、入力された英語テキストを元に短い動画を生成するAIです。オープンソース(非商用利用可)として提供されています。しかし、高性能なNVIDIA GPU(VRAMが16GB以上推奨)が必要です。操作はコマンドラインまたはローカルWebUI(Gradioベース)から行えます。
Mochi-1(Genmo)
Mochi-1はテキストプロンプトから高品質な短編動画を生成するAIツールで、オープンソース(Apache 2.0ライセンス)で提供されています。しかし、利用には高性能GPU(推奨は24GB VRAM以上)が必要です。操作はノードベースのGUI(ComfyUI)で直感的に行えます。
Video to Video
EbSynth(スタイル変換)
EbSynthは動画にユーザーが用意したアートスタイルを転写し、アニメーション風や絵画風の動画に変換するソフトウェアです。無料で提供されています。加えて、クローズドソースであり、GPU不要でCPUのみでの動作が可能です。さらに、直感的なGUIアプリケーションで容易に操作できます。
こんな感じです。
まとめ
上記以外にも、OpenAI の「First Order Motion Model」(1枚の人物画像+ドライビング動画から動画生成)や、Metaの「 EMu 」(高性能だが未公開)など様々な研究プロジェクトがあるようです。気になる方は調べてみてくださいね。