Python 3.13 で kohya-ss sd-scripts の環境構築
カテゴリ:deeplearning
xformers は使わない(--sdpa を使う)ので入れていない。
VRAM 8 GB で Qwen Image(Edit)を ComfyUI で実行する
カテゴリ:deeplearning
目次
LoRA の学習方法
カテゴリ:deeplearning
- 画像加工
- トリミング
- 背景除去
- 白背景
- 物体検出
- Aspect Ratio Bucketing
- キャプション・設定ファイル
- キャプション方式
- タグ編集アプリ
- キャプションファイルの先頭にタグを追記するコマンド
- 設定ファイルの class_tokens
- トリガーワード
- 画風学習のキャプションファイル
- キャラ学習のキャプションファイル
- keep_tokens
- VRAM 削減
- fp8_base
- mixed_precision
- xformers
- gradient_checkpointing gradient_accumulation_steps
- データの水増し
- 過学習防止
- 学習
- fp16 と bf16
- サンプルの出力
- 学習方式の選択
- リピート数とエポック数
- network_dim
- dim_from_weights network_weights
- network_alpha base_weights base_weights_multiplier
- min_snr_gamma
- debiased_estimation
- zero_terminal_snr
- v_parameterization
- noise_offset
- 学習率
- スケジューラ
- オプティマイザ
- 階層別学習率
- 高速化
- 省メモリ設定
- logging_dir
- SDXL
- 検証
- 学習の再開
- メタデータの閲覧
蒸留技術まとめ
カテゴリ:deeplearning
Tsukasa-Speech を Windows で GPU で動かす
カテゴリ:deeplearning
デフォルトの状態ではメモリが解放されず、動作を続けると VRAM が不足するのでアプリの再起動が必要になる。
512 トークン制限があり、一度に生成できる文字数は日本語の場合 200 文字に届かない程度。
ファイルアップロードバグ
gr.Audio にはバグがあり、"Too little data for declared Content-Length" のエラーメッセージで、リファレンス音声の再アップロードに失敗する。詳細は Audio component: gradio RuntimeError: Response content shorter than Content-Length #8878 を参照。大きいファイルではエラーが起こらず、小さいファイルを再アップロードすると発生することから、キャッシュが悪さをしている可能性がある。
対処法としては
- アプリを再起動
- ファイルをリネームしてアップロード
torch と cuda の tips
カテゴリ:deeplearning
CUDA は後方互換性があるので、nvcc -V の出力より前のライブラリでビルドされているものも実行できる。
T2I 拡散モデルの設計メモ
カテゴリ:deeplearning
目次
- クラウド GPU
- テキストエンコーダー
- VAE
- GAN
- コンディショニング
- 位置埋め込み
- 目的関数
- Transformer アーキテクチャ
- ブロック図
- データセット
- キャプショニング
- 学習方法
- 高速化
- ワーキングメモリー
- 教師ありファインチューニング
- 強化学習
Windows で Radeon を使って ComfyUI や Automatic1111WebUI を動かす
カテゴリ:deeplearning
Apple の The Illusion of Thinking の誤解
カテゴリ:deeplearning
X(旧 Twitter)では Apple の The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity という論文が「LRM は推論をしてるのではなくパターンマッチングをしているだけ」と主張しているという、間違いを信じている人が多い。
しかし、この論文はそのような主張はしていない。
実際の論文の内容
Waifu Diffusion で効率的に画像を生成する
カテゴリ:deeplearning
プロンプトリストはプロンプトやよく検索されているプロンプト(R18)、danbooru タグ検索を参照。
目次
- ワークフロー
- ツールの選択
- Stable Diffusion のモデルリンク
- Stable Diffusion の解説
- Tips
- 上手く描けない場合(胴が長いなど)はアスペクト比を変えてみる
- クオリティタグを使う
- CFG Scale を上げる
- 解像度を上げると頭や体が複数融合する
- Denoising Strength を下げると画質が落ちる
- 細部の修正
- 手の修正
- 手の自由度
- 高解像度化
- 色のコントロール
- 顔に影ができる
- ファインチューニング