[PR]運営維持のため一部広告リンクがあります

ローカルで使える動画生成AI 7選|条件を徹底解説

✔︎ なぜ3ヶ月行き詰まっていたフリーランスが、たった2時間で30秒の映像を仕上げられるようになったのか?
✔︎ 私が身につけたたった50のプロンプトとは?
✔︎ 実際に生成される動画をすべて公開
✔︎ 追加させるだけの具体的な方法
✔︎ 各プロンプトの効果と目的別の使い方まで

AIコラム
この記事を書いた人
ReeX Japan

◾️生成AIパスポート取得(2025.2)
◾️SoraからFeatured(2回)
◾️動画生成AIに魅せられた都内在住の20代男性
◾️ChatGPTのPro Planを課金済
◾️Udemy講師として3コース開講中

ReeX Japanをフォローする

ローカル環境で使用可能な動画生成AIは、多様な用途に応じて活用されています。以下では、それぞれのツールについて用途、ライセンス形態、GPU要件、使いやすさを詳しく本文でまとめました。主にオープンソースのAIが中心です。日本国内で利用できる動画生成AIとして紹介したものは含まれていません。

テキストベース、画像ベース、動画ベースでそれぞれ解説していきます。

AIによる動画生成をイメージした横長のモダンなイラスト。水色を基調に、テキストや画像から動画への変換、AIを活用した動画編集、GPU技術などをクリーンかつプロフェッショナルなスタイルで表現。

Text to Video or Image to Video

AnimateDiff( Stable Diffusion 拡張)

AnimateDiffは、テキストまたは画像を元に動画を生成できるStable Diffusionの拡張機能です。オープンソース(Apache 2.0ライセンス)で提供されています。操作性が高く、WebUI(AUTOMATIC1111)やノードベースのGUI(ComfyUI)で簡単に利用できます。GPUはNVIDIA製が推奨されています。元々はText to Videoでしたが、短いアニメーションとし生成できるようになっています。

公式サイト

HunyuanVideo(Tencent)

HunyuanVideoは、高解像度かつ長尺の動画を生成可能なAIです。独自のCommunityライセンスによりオープンソースとして提供されています。しかし、非常に高性能なGPU環境(推奨はVRAM 60GB以上)が必要です。操作方法はコマンドラインとComfyUIなどのGUIの両方に対応しています。

公式サイト

Image to Video

Stable Video Diffusion( Stability AI )

Stable Video Diffusion は、静止画像から短いアニメーション動画を生成するAIです。ライセンスは非商用利用のみ可能であり、研究目的での使用が許可されています。ただ、「メンバーシップにご加入いただければ、商用利用も可能」との記載があります。しかし、使用にはNVIDIA GPUが必須となり、基本的にはコマンドライン操作が中心です。ただ、ComfyUIなどのGUI環境にも対応しています。

公式サイト

DeepFaceLab

DeepFaceLabは、既存の動画の人物の顔を他人の顔に差し替えることができる ディープフェイク 動画編集AIです。オープンソース(GPL-3.0ライセンス)で公開されており、NVIDIA GPUの利用が推奨されています。また、基本的にはコマンドライン操作が必要ですが、外部のGUIツールも利用可能です。悪用厳禁です。

公式サイト

Text to Video

ModelScope Text2Video(DAMO-ModelScope)

ModelScope Text2Videoは、入力された英語テキストを元に短い動画を生成するAIです。オープンソース(非商用利用可)として提供されています。しかし、高性能なNVIDIA GPU(VRAMが16GB以上推奨)が必要です。操作はコマンドラインまたはローカルWebUI(Gradioベース)から行えます。

公式サイト

Mochi-1(Genmo)

Mochi-1テキストプロンプトから高品質な短編動画を生成するAIツールで、オープンソース(Apache 2.0ライセンス)で提供されています。しかし、利用には高性能GPU(推奨は24GB VRAM以上)が必要です。操作はノードベースのGUI(ComfyUI)で直感的に行えます。

公式サイト

Video to Video

EbSynth(スタイル変換)

EbSynth動画にユーザーが用意したアートスタイルを転写し、アニメーション風や絵画風の動画に変換するソフトウェアです。無料で提供されています。加えて、クローズドソースであり、GPU不要でCPUのみでの動作が可能です。さらに、直感的なGUIアプリケーションで容易に操作できます。

こんな感じです。

公式サイト

まとめ

上記以外にも、OpenAI の「First Order Motion Model」(1枚の人物画像+ドライビング動画から動画生成)や、Metaの「 EMu 」(高性能だが未公開)など様々な研究プロジェクトがあるようです。気になる方は調べてみてくださいね。

タイトルとURLをコピーしました