VRAM 8 GB で Qwen Image Edit 2509 を ComfyUI で実行する
カテゴリ:deeplearning
目次
Wan2.2 の timestep 境界 0.875 の計算
カテゴリ:deeplearning
0.875 にはならないが以下の方法で計算していると考えられる。
ComfyUI の ModelSamplingAuraFlow とは何か
カテゴリ:deeplearning
ModelSamplingAuraFlow は高解像度画像を生成する際に、ノイズが不足しないようにするノード。
中身は ModelSamplingSD3 ノードと同じ。詳細は SD3 論文の p. 10 Resolution-dependent shifting of timestep schedules を参照。
ノイズを増量することで画像にディティールを追加する使い方もできる。
Waifu Diffusion で効率的に画像を生成する
カテゴリ:deeplearning
プロンプトリストはプロンプトやよく検索されているプロンプト(R18)、danbooru タグ検索を参照。
目次
- ワークフロー
- ツールの選択
- Stable Diffusion のモデルリンク
- Stable Diffusion の解説
- Tips
- 上手く描けない場合(胴が長いなど)はアスペクト比を変えてみる
- クオリティタグを使う
- CFG Scale を上げる
- 解像度を上げると頭や体が複数融合する
- Denoising Strength を下げると画質が落ちる
- 細部の修正
- 手の修正
- 手の自由度
- 高解像度化
- 色のコントロール
- 顔に影ができる
- ファインチューニング
よく検索されているプロンプト(R18)
カテゴリ:deeplearning
T2I 拡散モデルの設計メモ
カテゴリ:deeplearning
目次
- クラウド GPU
- テキストエンコーダー
- VAE
- GAN
- コンディショニング
- 位置埋め込み
- 目的関数
- Transformer アーキテクチャ
- Transformer を使わないアーキテクチャ
- Gated MLP
- ブロック図
- データセット
- キャプショニング
- 学習方法
- 高速化
- ワーキングメモリー
- 教師ありファインチューニング
- 強化学習
NAG Normalized Attention Guide の原理
カテゴリ:deeplearning
Wan 2.1 の論文メモ
カテゴリ:deeplearning
スケール則の終わり
カテゴリ:deeplearning
LLM のスケール則はモデルサイズ、データセットサイズ、学習に使う計算量の3つを適切な比率で増加させれば、LLM の性能は増加量に比例して向上する、という経験則だ。
そしてこのスケール則は以下の要因で終わりに近づいている。
LLM を使ったストーリー作成
カテゴリ:deeplearning
LLM を使ったストーリー作成が一発でうまくいく事はない。なので、ストーリー作成の各工程ごとにアイデア出しの補助をさせることでストーリーを作成する。
AI のべりすとは日本語が使えるが性能は高くない。無料で公開されているローカル実行できる LLM を英語で使ったり、Chat GPT を使う方が効率がいい。AI のべりすとの強みはアダルト文章を日本語で出力できることだ。