LoRA の学習方法
カテゴリ:deeplearning
- 概要
- kohya-ss インストール時の注意点
- LoRA の種類
- PC スペック
- kohya 版 LoRA を使う
- 学習時に間違いやすいポイント
- 画像加工
- トリミング
- 背景除去
- 白背景
- 物体検出
- Aspect Ratio Bucketing
- キャラ学習
- キャプション・設定ファイル
- キャプション方式
- タグ編集アプリ
- キャプションファイルの先頭にタグを追記するコマンド
- 設定ファイルの class_tokens
- トリガーワード
- 画風学習のキャプションファイル
- キャラ学習のキャプションファイル
- keep_tokens
- VRAM 削減
- fp8_base
- mixed_precision
- xformers
- gradient_checkpointing gradient_accumulation_steps
- データの水増し
- 過学習防止
- 学習
- fp16 と bf16
- サンプルの出力
- 学習方式の選択
- リピート数とエポック数
- network_dim
- dim_from_weights network_weights
- network_alpha base_weights base_weights_multiplier
- min_snr_gamma
- debiased_estimation
- zero_terminal_snr
- v_parameterization
- noise_offset
- 学習率
- スケジューラ
- オプティマイザ
- 階層別学習率
- 高速化
- 省メモリ設定
- logging_dir
- SDXL
- 検証
- 学習の再開
- メタデータの閲覧
Windows で Radeon を使って ComfyUI や Automatic1111WebUI を動かす
カテゴリ:deeplearning
Waifu Diffusion で効率的に画像を生成する
カテゴリ:deeplearning
プロンプトリストはプロンプトやよく検索されているプロンプト(R18)、danbooru タグ検索を参照。
目次
- ワークフロー
- ツールの選択
- Stable Diffusion のモデルリンク
- Stable Diffusion の解説
- Tips
- 上手く描けない場合(胴が長いなど)はアスペクト比を変えてみる
- クオリティタグを使う
- CFG Scale を上げる
- 解像度を上げると頭や体が複数融合する
- Denoising Strength を下げると画質が落ちる
- 細部の修正
- 手の修正
- 手の自由度
- 高解像度化
- 色のコントロール
- 顔に影ができる
- ファインチューニング
AI を使用した漫画作画
カテゴリ:deeplearning
この記事の作例は指定がなければ Qwen Image Edit 2511 を使っている。
目次
ComfyUI で使える高速化・VRAM 技術
カテゴリ:deeplearning
ComfyUI は PyTorch attention = FlashAttention がデフォルトで使われる。昔は xformers(中身は FlashAttention)も使われていたが、最近では PyTorch attention を使うことが多い。
ComfyUI のオプションは comfy/cli_args.py を見るのが早い。
目次
RTX3050+ComfyUI で SageAttention の導入
カテゴリ:deeplearning
目次
- 1. ComfyUI のインストールと venv の有効化
- 2. 環境情報の取得
- 3. Visual Studio 2015-2022 用 Visual C++ 再頒布可能パッケージのインストール
- 4. triton-windows のインストール
- 5. SageAttention のインストール
- 6. ComfyUI で SageAttention の有効化
- 7. TorchCompile のパス制限について
- Patch Sage Attention KJ ノード
ComfyUI の ConditioningZeroOut ノードの使い方
カテゴリ:deeplearning
蒸留技術まとめ
カテゴリ:deeplearning
LLM を使ったストーリー作成
カテゴリ:deeplearning
LLM を使ったストーリー作成が一発でうまくいく事はない。なので、ストーリー作成の各工程ごとにアイデア出しの補助をさせることでストーリーを作成する。
AI のべりすとは日本語が使えるが性能は高くない。無料で公開されているローカル実行できる LLM を英語で使ったり、Chat GPT を使う方が効率がいい。AI のべりすとの強みはアダルト文章を日本語で出力できることだ。
モデルについてはおすすめの日本語対応ローカル大規模言語モデルを参照。
目次
Qwen Image Layered を ComfyUI で動かす
カテゴリ:deeplearning
Qwen Image Layered は画像1枚とプロンプトを入力すると、複数枚の透過画像を出力するモデルだ。
学習画像は主にポスターで、文字・画像・背景・小物を分離するのが得意だ。Live2D 用に人体のパーツを分解することはできない。