※本記事はプロモーションを含みます
その他のAI

【 Stable Video Diffusion ローカル 】環境で!導入から動画生成まで解説

Stable Video Diffusionをローカル環境で!導入から動画生成まで解説
この記事を書いた人
ReeX Japan

◆ Udemyベストセラー講師
◆ 動画生成AI 専門講師
◆ SoraからFeatured(2回)
◆ 生成AIパスポート取得(2025.2)

ReeX Japanをフォローする

はじめに:画像生成AIの次は「動画生成」が面白い!

Stable Video Diffusion ローカル で使う方法はあるのか、この記事で解説していきます。

「Stable Diffusion」でクオリティの高い画像を生成できるようになった今、次なるフロンティアとして「動画生成AI」が大きな注目を集めています。中でも、Stable Diffusionの開発元であるStability AIが公開した『Stable Video Diffusion』は、1枚の画像から短い動画を生成できる画期的な技術です。

Webサービスで手軽に試すのも良いですが、もしあなたが画像生成AIをある程度触ってきたなら、自分のPC(ローカル環境)で動かすことに挑戦してみませんか?

ローカル環境なら、Webサービスのような生成回数の制限や追加料金を気にする必要は一切ありません。この記事では、Stable Video DiffusionをあなたのPCに導入し、実際に動画を生成するまでの手順を、専門用語を極力避けて分かりやすくガイドします。

Stable Video Diffusionを始める前に:必要なPCスペックと基礎知識

「ローカル環境って難しそう…」「自分のPCで動くのかな?」と不安に思うかもしれません。しかし、ポイントさえ押さえれば大丈夫です。まずは、何が必要なのかをしっかり確認しましょう。

最重要!グラフィックボード(GPU)の推奨スペック

Stable Video Diffusionを快適に動かすために、最も重要なパーツがグラフィックボード(GPU)です。特に、GPUに搭載されている「VRAM」と呼ばれる、画像や動画処理専門のメモリ容量が重要になります。

VRAM容量快適さ備考
12GB以上推奨快適に動画を生成できる目安です。
8GBやや厳しい設定を工夫すれば動作する可能性はありますが、時間がかかったりエラーが出やすくなります。
6GB以下動作困難残念ながら、安定した動作は難しいでしょう。

NVIDIA社のGeForce RTX 3060 (12GB) や RTX 4070などが、比較的手に入れやすく推奨スペックを満たすモデルとして人気です。

メモリとストレージはどれくらい必要?

GPU以外のスペックも確認しておきましょう。

  • メインメモリ(RAM): 16GB以上を推奨します。32GBあると、より安心して他の作業と並行できます。
  • ストレージ(SSD/HDD): モデルデータのサイズが大きいため(1つで数GB)、最低でも50GB以上の空き容量を確保しておきましょう。読み書きが速いSSDがおすすめです。

“ローカル環境”ってどういうこと?Webサービスとの違い

ここで言う「ローカル環境」とは、インターネット上のサービスを利用するのではなく、あなた自身のパソコンの中に動画生成AIの実行環境を構築することを指します。

ローカル環境Webサービス
メリット・完全無料<br>・生成回数や枚数に制限なし<br>・プライバシーが守られる<br>・カスタマイズ性が高い・PCスペックを問わない<br>・インストール不要ですぐ使える
デメリット・高性能なPCが必要<br>・初期設定に手間がかかる・有料の場合が多い<br>・生成回数などに制限がある<br>・サービス終了のリスクがある

初期投資や設定の手間はかかりますが、一度環境を整えてしまえば、あとは心ゆくまで無料で動画生成を楽しめるのがローカル環境最大の魅力です。

3ステップで完了!Stable Video Diffusionのローカル環境構築ガイド

お待たせしました。ここからは、実際にStable Video Diffusionを導入する手順を解説します。今回は、Stable Diffusionの画像生成で最も広く使われているツール「AUTOMATIC1111(WebUI)」に、拡張機能を追加する方法で進めます。

※既に「AUTOMATIC1111」を導入済みの方は、「ステップ3」からお読みください。

ステップ1:必要なツールのインストール(Python, Git)

まずは、プログラムを動かすための土台となるツールを2つインストールします。

  1. Python: AIを動かすためのプログラミング言語です。「Python公式サイト」から最新版をダウンロードし、インストーラーを起動します。最初の画面で必ず「Add Python.exe to PATH」にチェックを入れてください。
  2. Git: ソフトウェアのバージョンを管理するためのツールです。「Git公式サイト」からお使いのOSに合ったものをダウンロードし、基本的に初期設定のままインストールを進めればOKです。

ステップ2:AUTOMATIC1111(WebUI)の導入

次に、Stable Diffusionをブラウザ上で簡単に操作できるようにする「AUTOMATIC1111(WebUI)」をインストールします。

  1. エクスプローラーで、好きな場所(例: Cドライブ直下など)に「stable-diffusion-webui」という名前のフォルダを新規作成します。
  2. 作成したフォルダのアドレスバーに「cmd」と入力してEnterキーを押し、黒い画面(コマンドプロンプト)を開きます。
  3. 以下の呪文(コマンド)をコピーして、黒い画面に貼り付け、Enterキーを押します。 git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
  4. クローン(ファイルのダウンロード)が終わったら、フォルダ内に生成された「stable-diffusion-webui」フォルダを開き、「webui-user.bat」というファイルを見つけてダブルクリックします。
  5. 初回は必要なファイルのダウンロードが始まるため、完了まで10分以上かかる場合があります。黒い画面に「Running on local URL: http://127.0.0.1:7860」という文字が表示されたら起動成功です。

ステップ3:Stable Video Diffusionモデルのダウンロードと設定

最後に、主役であるStable Video Diffusionの機能を追加していきます。

  1. 拡張機能のインストール:
    • 起動したAUTOMATIC1111の画面上部にある「Extensions」タブを開きます。
    • 「Install from URL」タブを選択します。
    • 「URL for extension’s git repository」の欄に以下のURLを貼り付け、「Install」ボタンをクリックします。 https://github.com/continue-revolution/sd-webui-videos.git
    • インストールが終わったら「Installed」タブに移り、「Apply and restart UI」をクリックして再起動します。
  2. モデルのダウンロード:
    • 動画生成AIの本体である「モデルデータ」をダウンロードします。「Hugging Faceの公式サイト」にアクセスします。
    • svd_xt.safetensors」というファイル名の横にある下矢印アイコンをクリックして、ファイルをダウンロードします。(ファイルサイズが大きいので注意してください)
    • ダウンロードした「svd_xt.safetensors」ファイルを、以下のフォルダに移動します。 stable-diffusion-webui\models\SVD ※「SVD」というフォルダがない場合は、新しく作成してください。

これで全ての準備が整いました!

実践!Stable Video Diffusionで画像を動画にしてみよう

いよいよ、あなたのPCで画像から動画を生成します。操作は非常に簡単です。

基本的な使い方:画像をアップロードして動画を生成

  1. AUTOMATIC1111の画面上部に、新しく「Video」というタブが追加されているのでクリックします。
  2. 「Source Image」の枠に、動画にしたい画像をドラッグ&ドロップするか、クリックしてアップロードします。
  3. 画面右側にあるオレンジ色の「Generate」ボタンをクリックします。
  4. PCの性能によりますが、数分待つと右側の「Output」欄に動画が生成されます!

たったこれだけの操作で、アップロードした画像が生きているかのように動き出す様子は感動的です。

パラメータ調整のコツ:より高品質な動画を作るには?

生成ボタンの上にある設定項目(パラメータ)を調整することで、動画のクオリティをコントロールできます。いくつか重要なものを紹介します。

  • Seed: -1にすると毎回ランダムな動きの動画が生成されます。同じ数値を入力すれば、同じ動きの動画を再現できます。
  • Motion bucket id: 動きの激しさを調整します。数値が小さいほど動きが少なく、大きいほど激しく動く傾向があります。まずは127あたりで試し、結果を見ながら調整するのがおすすめです。
  • FPS (Frames Per Second): 動画の滑らかさを表します。数値が高いほど滑らかになりますが、生成時間も長くなります。初期設定の6あたりから始めると良いでしょう。

こんな動画が作れる!生成例を紹介

Stable Video Diffusionは、以下のような動画の生成を得意としています。

  • 人物の顔がゆっくりとこちらを向く、まばたきをする
  • 風景写真の雲や水面が流れるように動く
  • 料理の湯気が立ち上る
  • イラストのキャラクターがわずかに微笑む

最初は短い動画しか生成できませんが、工夫次第で様々な表現が可能です。ぜひ、あなたのお気に入りの一枚を動画にしてみてください。

よくある質問(Q&A)

エラーが出たときはどうすればいい?

最も多い原因は、PCのスペック不足(特にVRAM)です。黒い画面(コマンドプロンプト)に「CUDA out of memory」といったエラーメッセージが表示されている場合は、VRAMが足りていない可能性が高いです。一度AUTOMATIC1111を再起動し、他のアプリケーションを閉じてから再度試してみてください。

もっと長い動画や高解像度の動画は作れる?

現在のStable Video Diffusion(バージョン1.1)では、基本的には25フレーム(約2~4秒)程度の短い動画生成がメインです。また、解像度も元の画像サイズに依存します。今後のアップデートで、より長く、より高解像度な動画が生成できるようになることが期待されています。

まとめ:あなたも今日から動画クリエイターに

この記事では、Stable Video Diffusionを自分のPC(ローカル環境)に導入し、画像から動画を生成するまでの一連の流れを解説しました。

最初は難しく感じるかもしれませんが、一度環境を構築してしまえば、あとはあなたのアイデア次第で無限の映像表現が可能になります。Webサービスのように制限を気にすることなく、納得がいくまで何度でも無料で試行錯誤できるのが、ローカル環境の最大の醍醐味です。

進化のスピードが非常に速いAIの世界。ぜひこの機会にローカルでの動画生成に挑戦し、あなただけのオリジナル動画を創造してみてください。