deeplearning カテゴリの記事一覧を表示しています。
広告
広告

Waifu Diffusion で効率的に画像を生成する

カテゴリ:deeplearning

目次

ワークフロー

便利なツール

差分生成の実例

どのツールを選ぶか

Stable Diffusion のモデルリンク

モデルマージ

Stable Diffusion の解説

Guidance Scale (CFG)

サンプラーの比較

シード

Denoising Strength

バッチカウントとバッチサイズ

GPU の種類と画像生成時間

Tips

上手く描けない場合はアスペクト比を変えてみる

頭や脚がフレームアウトする

解像度を上げると頭や体が複数融合する

Denoising Strength を下げると画質が落ちる

ラフを量産する

細部の修正

手の修正

高解像度化

色のコントロール

ディティールが欲しいとき

ファインチューニング

プロンプト

プロンプトの探し方

外部のプロンプトリンク

ツール

プロンプトの語順

プロンプトのウェイト

ネガティブプロンプトで画力を上げる※重要

AUTOMATIC1111 の Prompt Editing※重要

Danbooru タグ列挙法(Waifu Diffusion v1.2 限定)

Danbooru タグ列挙法(Waifu Diffusion v1.3 限定)

Stable Diffusion のプロンプト Tips

単語チートシート

画力が上がる作品タグ
天気・時間帯
場所・背景

日本

人数

kawaii

ロリ

褐色

映す範囲・アングル

等身

年齢

表情

メイク

感情

眼鏡

透過

体形

ポーズ

エフェクト

カメラ・ライティング
作風

検証

AI が描いた絵の見分け方

NSFW (職場閲覧注意)

単語集

場所

人数

性器

触手

表情

体位

ポーズ

脱衣

露出

装飾

マヨネーズ

精液

ゴム

暴力

作例


解説リンク

続きを読む

AUTOMATIC1111 の Lora・Dreambooth の使い方

カテゴリ:deeplearning

目次

LoRA

kohya 版 LoRA を使う

LoRA Block Weight Plot Helper(階層情報解析ツール)

Dreambooth

正則化画像の必要性

Parameters

Advanced

Concepts

A Few Dreambooth Observations and Tips, Leafier Closer Shots With the New Vae File (higher CFG)

モデルの圧縮(脱水)

続きを読む

AUTOMATIC1111 の便利な機能

カテゴリ:deeplearning

目次

AUTOMATIC1111のアップデート

git の操作

アップスケーラー

アップスケーラーの追加

Highres. fix(高解像度時に人が融合しなくなる)

Stable Diffusion Upscale(img2img を使ったアップスケーラー)

Seed resize(解像度を変更しても大体同じ出力)

アウトペインティング(作成した画像に追記して拡大)

Extension の Tiled Diffusion

デティール追加

After Detailer(顔を検出して顔を加筆)

Dotgeo(hijack) Detection Detailer(顔を検出して顔を加筆)

LLuL - Local Latent upscaLer(指定した矩形の箇所を加筆)

Detection Detailer(マスクの自動生成)

img2img

img2img のステップ数を直接指定

Only masked(マスクした部分を拡大してから再生成して合成:旧 Inpaint at full rsolution)

Batch img2img(フォルダ内の画像すべてに img2img を実行)

Face Restration(顔を修復する機能)

Loopback(img2img の結果に img2img を実行する)

--gradio-img2img-tool(簡易ペイントツール追加)

色の補正

Detection Detailer(顔のマスクを自動生成してくれる Extension)

Depth-guided model(深度情報を使った img2img)

Novel AI のような noise strength

プロンプト

ネガティブプロンプト(出てほしくない絵を指定)

Attention/emphasis(語の強調)

Styles(プロンプトを保存)

CLIP interrogator(画像のプロンプトを推測)

Deepdanbooru(画像の Danbooru タグを表示する)

Prompt Editing(画像生成の途中でプロンプトを変更)

Alternate Prompt(1ステップごとに語を切り替え)

BREAK(プロンプト分割)

Dynamic prompt(ランダムプロンプト)

text2prompt

ファインチューン

Embedding (.pt や .bin ファイル)を使う

CLIP Aesthetic を使う

Hypernetwork を使う

Lora を使う

locon と loha を使う

VAE を使う

操作

Generate ボタンを右クリック > Generate forever で止めるまで生成。止めるときは右クリック > cancel

Ctrl + Enter で Generate

Ctrl + Z プロンプトを元に戻す

スライダーをクリックした後十字キーで1ずつ増減できる

検証

X/Y plot(パラメーターの検証に使う)

Prompt matrix

Visualize Cross Attention(プロンプトが画像のどこに効いているか可視化)

DAAM Extension for Stable Diffusion Web UI(プロンプトが画像のどこに効いているか可視化)

UI

日本語化

ダーク UI

Quicksettings(UI 上部に設定を表示)

ui-config.json(初期設定変更)

高速化

532.03 以降の GeForce ドライバを使う

xformers(高速化)

Token merging

TensorRT support for webui

ライブプレビューを切る

pytorch 2.0j(RTX4000番台で高速化する)

Lsmith

そのほか

Extensions(追加機能)

メタデータにモデル名を追加

任意解像度

Stable Diffusion 2.0

使用する GPU の選択

Variations(ちょっと違う絵を再生成)

Checkpoint Merger(ckpt ファイルのブレンド)

user.css(UI のレイアウト変更)

4GB の VRAM で実行

画像ファイルへのデータ埋め込み

ローカルネットワーク(スマホ)から UI にアクセス

通知音を鳴らす

[WebUI] Stable DiffusionベースモデルのCLIPの重みを良いやつに変更する

Extension など

Config Presets(設定保存)

sd_web_ui_preset_utils(設定保存)

Booru tag autocompletion for A1111(タグ補完)

extensionEditor(AUTOMATIC1111向けのプロンプトエディター)

Dataset Tag Editor(タグで画像を編集したり、タグを編集するエディタ)

Helper GUI for manual tagging/cropping(画像のタグ管理エディタ)

embedding editor(768 個ある潜在表現ベクトルを手動で調整)

multi-subject-render(背景とオブジェクトとを雑コラしてくれる)

Latent Couple extension(プロンプトの効く領域を指定)

Regional Prompter (プロンプトの効く領域を指定)

Depth map library and poser(手の深度マップライブラリ)

Cutoff - Cutting Off Prompt Effect(色移り防止)

ABG_extension (背景透過)

Controlnet

ポーズ・構図の指定と着色ができる。Image2Image はグレースケール画像の着色ができなかったが Controlnet ではそれができる。

Reference-Only(参考画像を基にイラスト作成)

ControlNetでポーズや構図を指定してAIイラストを生成する方法

AUTOMATIC1111+ControlNetのつかいかた2(目当ては自動塗り)

AIで適当な線画を清書し、さらに色を塗って高品質なイラストに仕上げる方法【ControlNet活用術】

画像生成AIを線画整えツールや自動彩色ツールにする

Character bones that look like Openpose for blender _ Ver_6 Depth+Canny+Landmark(Blender 上でポージングできるツール)

「ControlNet 1.1」の新機能まとめ!新しいモデルや改善点を紹介【Stable Diffusion】

ControlNet(v1.1)の詳しい解説!輪郭やポーズから思い通りの絵を書かせる

Multi-Controlnet

Multi ControlNetによる画像の構図制御

Extension

sd-webui-controlnet(こちらの方がユーザーが多い)

Unprompted

モデルマージ

続きを読む

Stable Diffusion のファインチューンの Tips

カテゴリ:deeplearning

目次

概要

間違いやすいポイント

Textual Inversion と Hypernetwork のタグの違い

VRAM 8GBだが学習ができない

前処理

学習画像に2人以上人がいる

Danbooru タグの検査

画像のキャプションファイルに書くタグ例(学習させないタグ)

画風の定義

学習画像のキャプションファイル

複数のアスペクト比で学習させる

設定

プレビューの固定

CLIP Skip は任意

VAE は外しても外さなくてもいい

Hypernetwork を外す

Hypernetwork strength を1に戻す

Quicksettings(UI 上部に設定を表示)

学習用の ui-config.json を使う

学習時

良くない兆候

崩壊した後に持ち直すのを繰り返す

学習率と局所的最適解

ステップ数より epoch(エポック)が重要

Loss の監視は無意味

学習画像ごとに Loss を出力する

学習の失敗

Hypernetwork

Hypernetwork でキャラの学習と使用

活性化関数選び

Layer Normalization を有効にする場合は学習率を大きくする

Wide VS Deep

画風学習用の設定例

キャプションファイルに名前を入れる

Textual Inversion

Textual Inversion でやりがちなミス

覚えてほしい特徴と覚えてほしくない特徴

パーツ学習の問題点

Dream Artist を使う

Textual Inversion でネガティブな要素を学習させる

Dreambooth

チューニングする予定のモデルで正則化画像を作る

Preprocess(前処理)

画像加工ツール

学習テクニック

学習データ

Textual Inversion でキャラを学習させる場合のタグ

画風を学習させる場合のタグ(Textual Inversion・Hypernet)

Textual Inversion

Dream Artist

Hypernetwork

Dream Booth

Aesthetic Gradients

VAE の埋め込み

LORA

Custom Diffusion

Key-Locked Rank One Editing for Text-to-Image Personalization(Perfusion)

その他の情報

概要

このページでは AUTOMATIC1111 を使ったファインチューンの Tips を扱う。

画風を学習させる場合、Textual Inversion より Hypernetwork の方がよい。なぜなら学習時間が短いからだ。Use deepbooru for caption を使えばタグ付けも自動化できる。

Textual Inversion や Hypernetwork の学習は、学習画像のサイズが 512x512 なら VARM 8GB の RTX 3050 でもできる。ただし VRAM を解放するために実行前に webui の再起動が必要になる。モニターを複数枚使っている場合、VRAM が不足することがある。そのため快適に学習させたければ、VRAM 12GB 以上の GPU を使うか、Google Colab を使う。

Dreambooth を使って学習させるには最低でも 12 GB の VRAM が必要になる。

Textual Inversion はテキストエンコーダーを調整する。Hypernetwork はテキストエンコーダーと U-Net との間に追加のネットワークを挿入して、その追加ネットワークを調整する。

ディープラーニングチューニングプレイブック日本語版

ハイパーパラメータチューニングに関する手順が解説されている。

まとめ

Hypernetwork

画風の調整に向いてる。学習時間が短く準備の手間も少ない。ファインチューニングは、まず Hypernetwork から挑戦してみるのがいい。

Textual Inversion

デフォルトの状態で呼び出せる人や物を語に覚えさせたり、トークンを節約したりするのに使う。描く能力はあるが呼び出し方がわからない人や物を呼び出せることがある。Hypernetwork に比べて学習に時間がかかり、背景を塗りつぶしたり、タグ修正したりする手間が追加で発生する。

Dreambooth

デフォルトの状態で呼び出せない人や物を呼び出せる。

VRAM8GB でできるファインチューニング

  • Textual Inversion
  • Hypernetwork
  • DreamArtist

VRAM 12 GB でできるファインチューニング

  • Dreambooth

VRAM 16 GB でできるファインシューニング

  • 追加学習

続きを読む

AUTOMATIC1111 Web UI の Clip skip とは何か

カテゴリ:deeplearning

Stable Diffusion 1.x で使われている CLIP

続きを読む

ChatGPT Mar 23 Version にガチャの確率計算器を作らせる

カテゴリ:deeplearning

続きを読む

Textual Inversion の使い方

カテゴリ:deeplearning

目次

Textual Inversion

Embedding (.pt や .bin ファイル)を使う

Embedding の作成

パラメータの説明

Training an embedding(embedding のトレーニング)

Do not resize image

Gradient Accumulation

Shuffle tags by ',' when creating prompts.

Drop out tags when creating prompts.

latent sampling method

例1

DreamArtist

VRAM8GB で実行する

Embedding-inspector

続きを読む

Hypernetwork の使い方

カテゴリ:deeplearning

目次

Hypernetwork

Modules

Move VAE and CLIP to RAM when training hypernetwork. Saves VRAM

Hypernetwork layer structure

Select activation function of hypernetwork

Add layer normalization

Use dropout

Overwrite Old Hypernetwork

tips

使わない方がいい活性化関数

活性化関数ガイド

Hypernetwork training #2284

Hypernetwork Style Training, a tiny guide #2670

Hypernetwork training for dummies

例1

例2

hypernetwork.py

Hypernetwork-MonkeyPatch-Extension

Cosine Annealing

Hypernetwork の複数適用

Hypernetwork のマージ

外部リンク

続きを読む

openvino(CPU)版で Waifu Diffusion を実行する(Windows, Linux)

カテゴリ:deeplearning

続きを読む

NovelAI Aspect Ratio Bucketing の翻訳

カテゴリ:deeplearning

これは NovelAI Aspect Ratio Bucketing の翻訳 だ。

要約すると、Stable Diffusion は任意の解像度とアスペクト比で学習可能だが、バッチごとに解像度は固定する必要がある(固定しないと学習が遅い)。なのでバッチを実行する際にアスペクト比を選び、そのバッチでは選択したアスペクト比の画像のみを学習させる。原文では、アスペクト比の一致しない学習画像の加工処理を実行時にしているように見えるが、実際は前処理でスケール&クロップしているものと思われる。

続きを読む


広告
広告