ComfyUI の ModelSamplingAuraFlow とは何か
カテゴリ:deeplearning
ModelSamplingAuraFlow は高解像度画像を生成する際に、ノイズが不足しないようにするノード。
中身は ModelSamplingSD3 ノードと同じ。詳細は SD3 論文の p. 10 Resolution-dependent shifting of timestep schedules を参照。
ModelSamplingAuraFlow の shift を増やすと実質的にノイズの量が増える。それによって以下の効果が得られる:
- 画像のディティールが増える
- 構図や全体の色の確定に時間(ステップ数)がかかるので、全体の構図や色のエラーが起こりづらくなる
VRAM8GB で Z Image の LoRA作成
カテゴリ:deeplearning
目次
LLM を使ったストーリー作成
カテゴリ:deeplearning
LLM を使ったストーリー作成が一発でうまくいく事はない。なので、ストーリー作成の各工程ごとにアイデア出しの補助をさせることでストーリーを作成する。
AI のべりすとは日本語が使えるが性能は高くない。無料で公開されているローカル実行できる LLM を英語で使ったり、Chat GPT を使う方が効率がいい。AI のべりすとの強みはアダルト文章を日本語で出力できることだ。
モデルについてはおすすめの日本語対応ローカル大規模言語モデルを参照。
目次
ComfyUI の CFGNorm・Adaptive Projected Guidance・CFG Zero Star ノードとは何か
カテゴリ:deeplearning
CFG 系のアルゴリズムのまとめはCFG Zero Starとかを参照。
python, torch, cuda の tips
カテゴリ:deeplearning
CUDA は後方互換性があるので、nvcc -V の出力より前のライブラリでビルドされているものも実行できる。
AUTOMATIC1111 の便利な機能
カテゴリ:deeplearning
AUTOMATIC1111 は更新を停止している。以下の移行先がある。
- ComfyUI:最もユーザーが多く最新技術がいち早く取り入れられる。AUTOMATIC1111 と互換性はない
- sd-webui-forge-classic:SD 1.5・SDXL 専用。AUTOMATIC1111 と互換性あり
- sd-webui-forge-neo:classic と同じ作成者で最新機能を取り入れるブランチ。すでに Qwen Image Edit・Lumina Image 2.0・Wan・SageAttention などの技術は実装済み。AUTOMATIC1111 と互換性あり
- vladmandic/sdnext:A1111 と互換性はないが、最新モデルの対応が早く、AMD の ROCm に対応
目次
- デティール追加
- Refinier
- CD(Color/Detail) Tuner(色調や書き込み量を調節)
- After Detailer(顔を検出して顔を加筆)
- Dotgeo(hijack) Detection Detailer(顔を検出して顔を加筆)
- LLuL - Local Latent upscaLer(指定した矩形の箇所を加筆)
- Detection Detailer(マスクの自動生成)
- img2img
- img2img のステップ数を直接指定
- Only masked(マスクした部分を拡大してから再生成して合成:旧 Inpaint at full rsolution)
- Batch img2img(フォルダ内の画像すべてに img2img を実行)
- Face Restration(顔を修復する機能)
- Loopback(img2img の結果に img2img を実行する)
- --gradio-img2img-tool(簡易ペイントツール追加)
- 色の補正
- Detection Detailer(顔のマスクを自動生成してくれる Extension)
- Depth-guided model(深度情報を使った img2img)
- Novel AI のような noise strength
- プロンプト
- ファインチューン
- 操作
- Generate ボタンを右クリック > Generate forever で止めるまで生成。止めるときは右クリック > cancel
- Ctrl + Enter で Generate
- Ctrl + Z プロンプトを元に戻す
- スライダーをクリックした後十字キーで1ずつ増減できる
- Alt + ← or → カンマ区切りの文字を選択して左右移動(1.5.0 以降)
- 検証
- X/Y plot(パラメーターの検証に使う)
- Prompt matrix
- Visualize Cross Attention(プロンプトが画像のどこに効いているか可視化)
- DAAM Extension for Stable Diffusion Web UI(プロンプトが画像のどこに効いているか可視化)
- UI
- 高速化
- forgeを使う
- sd-forge-blockcache
- 532.03 以降の GeForce ドライバを使う
- xformers
- FlashAttention-2
- --opt-sdp-attention(VRAM 消費量が増えるが xFormers より速くなるかもしれない)
- Token merging
- HyperTile
- ライブプレビューを切る
- pytorch 2.0(RTX4000番台で高速化する)
- TensorRT Extension for Stable Diffusion Web UI
- TensorRT support for webui
- Lsmith
- Latent Consistency Model
- Adversarial Diffusion Distillation
- SDXL Turbo
- 省メモリ
- そのほか
- Extension など
- Config Presets(設定保存)
- sd_web_ui_preset_utils(設定保存)
- Booru tag autocompletion for A1111(タグ補完)
- extensionEditor(AUTOMATIC1111向けのプロンプトエディター)
- Dataset Tag Editor(タグで画像を編集したり、タグを編集するエディタ)
- Helper GUI for manual tagging/cropping(画像のタグ管理エディタ)
- embedding editor(768 個ある潜在表現ベクトルを手動で調整)
- multi-subject-render(背景とオブジェクトとを雑コラしてくれる)
- Regional Prompter (プロンプトの効く領域を指定)
- Latent Couple extension(プロンプトの効く領域を指定)
- Depth map library and poser(手の深度マップライブラリ)
- Cutoff - Cutting Off Prompt Effect(色移り防止)
- ABG_extension (背景透過)
- 【Stable Diffusion】WebUIに必ず導入したいおすすめの拡張機能40選+α【Extensions】
- animeDiff
- Controlnet
- ポーズ・構図の指定と着色ができる。Image2Image はグレースケール画像の着色ができなかったが Controlnet ではそれができる。
- ControlNet の新モデル Anystyle
- Reference-Only(参考画像を基にイラスト作成)
- ControlNetでポーズや構図を指定してAIイラストを生成する方法
- AUTOMATIC1111+ControlNetのつかいかた2(目当ては自動塗り)
- AIで適当な線画を清書し、さらに色を塗って高品質なイラストに仕上げる方法【ControlNet活用術】
- 画像生成AIを線画整えツールや自動彩色ツールにする
- Character bones that look like Openpose for blender _ Ver_6 Depth+Canny+Landmark(Blender 上でポージングできるツール)
- 「ControlNet 1.1」の新機能まとめ!新しいモデルや改善点を紹介【Stable Diffusion】
- ControlNet(v1.1)の詳しい解説!輪郭やポーズから思い通りの絵を書かせる
- 入力線画を全く変えずに画像生成AIに色塗りさせる方法
- MLSD
- プリプロセッサの dw_openpose(写真から棒人間を作成して入力)
- Multi-Controlnet
- Extension
- Model
ComfyUI で NetaYume-Lumina-Image-2.0
カテゴリ:deeplearning
次世代の NSFW モデルは Anima が軽量で NSFW が出せて自然言語に対応しており最有力候補。
目次
Qwen Image Edit 2511 を ComfyUI で実行する+プロンプトリスト
カテゴリ:deeplearning
目次
- 特徴
- 概要
- ComfyUI のアップデート
- モデル
- ワークフロー
- 動作速度
- 解像度リスト
- keypoint pose 編集
- 日本語のレンダリング
- プロンプト
- 入力画像認識
- 知っておくべき2種類のプロンプトパターン
- プロンプトガイド
- Qwen-Image-Edit-2509 公式プロンプト例
- Qwen-Image-Edit-2511 公式プロンプト例
- カメラアングル変更 LoRa
- Mask Editor
- 作例
Windows で Radeon を使って ComfyUI や Automatic1111WebUI を動かす
カテゴリ:deeplearning
Waifu Diffusion で効率的に画像を生成する
カテゴリ:deeplearning
プロンプトリストはプロンプトやよく検索されているプロンプト(R18)、danbooru タグ検索を参照。
目次
- ワークフロー
- ツールの選択
- Stable Diffusion のモデルリンク
- Stable Diffusion の解説
- Tips
- 上手く描けない場合(胴が長いなど)はアスペクト比を変えてみる
- クオリティタグを使う
- CFG Scale を上げる
- 解像度を上げると頭や体が複数融合する
- Denoising Strength を下げると画質が落ちる
- 細部の修正
- 手の修正
- 手の自由度
- 高解像度化
- 色のコントロール
- 顔に影ができる
- ファインチューニング