T2I 拡散モデルの設計メモ
カテゴリ:deeplearning
目次
- クラウド GPU
- テキストエンコーダー
- VAE
- GAN
- コンディショニング
- 位置埋め込み
- 目的関数
- Transformer アーキテクチャ
- Transformer を使わないアーキテクチャ
- Gated MLP
- ブロック図
- データセット
- キャプショニング
- 学習方法
- Classifier Free Guidance
- Adaptive Projected Guidance
- Reinforcement Learning Guidance
- タイムステップスケジューラー
- ノイズスケジューラー
- 蒸留
- 画像編集
- 省メモリ学習
- 性能検証
- 高速化
- ワーキングメモリー
- 教師ありファインチューニング
- 強化学習
Waifu Diffusion で効率的に画像を生成する
カテゴリ:deeplearning
プロンプトリストはプロンプトやよく検索されているプロンプト(R18)、danbooru タグ検索を参照。
目次
- ワークフロー
- ツールの選択
- Stable Diffusion のモデルリンク
- Stable Diffusion の解説
- Tips
- 上手く描けない場合(胴が長いなど)はアスペクト比を変えてみる
- クオリティタグを使う
- CFG Scale を上げる
- 解像度を上げると頭や体が複数融合する
- Denoising Strength を下げると画質が落ちる
- 細部の修正
- 手の修正
- 手の自由度
- 高解像度化
- 色のコントロール
- 顔に影ができる
- ファインチューニング
LLM を使ったストーリー作成
カテゴリ:deeplearning
LLM を使ったストーリー作成が一発でうまくいく事はない。なので、ストーリー作成の各工程ごとにアイデア出しの補助をさせることでストーリーを作成する。
AI のべりすとは日本語が使えるが性能は高くない。無料で公開されているローカル実行できる LLM を英語で使ったり、Chat GPT を使う方が効率がいい。AI のべりすとの強みはアダルト文章を日本語で出力できることだ。
目次
oobabooga の tips
カテゴリ:deeplearning
AIのべりすとのようにプロンプトを編集しながらテキストを生成する
Default タブでできる。
テキスト生成のショートカットは Shift + Enter。
CPU のスレッド数を制限する
CPU で処理する場合4スレッドあたりで性能の限界が来る。E コアや Hyperthreading がスレッドをつかむと遅くなるので、Model タブで実行スレッドを制限する。
一部の処理を GPU にオフロードする
Windows で llama.cpp のビルド
カテゴリ:deeplearning
NAG Normalized Attention Guide の原理
カテゴリ:deeplearning
VRAM 8 GB で Qwen Image Edit 2509 を ComfyUI で実行する
カテゴリ:deeplearning
目次
Wan2.2 の timestep 境界 0.875 の計算
カテゴリ:deeplearning
0.875 にはならないが以下の方法で計算していると考えられる。
ComfyUI の ModelSamplingAuraFlow とは何か
カテゴリ:deeplearning
ModelSamplingAuraFlow は高解像度画像を生成する際に、ノイズが不足しないようにするノード。
中身は ModelSamplingSD3 ノードと同じ。詳細は SD3 論文の p. 10 Resolution-dependent shifting of timestep schedules を参照。
ノイズを増量することで画像にディティールを追加する使い方もできる。
よく検索されているプロンプト(R18)
カテゴリ:deeplearning