dskjal
deeplearning カテゴリの記事一覧を表示しています。
広告
広告

よく検索されているプロンプト(R18)

カテゴリ:deeplearning

続きを読む

ComfyUI で circlestone-labs の Anima を使う

カテゴリ:deeplearning

Anima は軽量で NSFW の絡みが出せるのが強みだ。Anima の隠れた利点は、ダンボールタグを知らなくても、自然言語で記述したものがダンボールタグにあれば再現できることだ。

しかしテキストエンコーダーが 0.6B しかない(現在の軽量モデルは 4B を使うのが主流)ので細かい指示はできない。たとえば、コマの位置の指定ができなかったり、ダンボールタグにないポーズは自然言語でポーズを指定できなかったり、タグの伝染が起こったりする。

ただしテキストエンコーダーの能力が低くても、個数指定や左右指定ぐらいはできる。例えば thigh strap の個数や左右位置を指定できたり、左右非対称の衣装を固定したりできる。

Anima はダンボールタグにあるポーズしか出せないし、ダンボールタグにあるオブジェクトしか描けない。Z-Image や FLUX.2 klein は自然言語でポーズを指示でき、多様なオブジェクトを知っているが、Anima はテキストエンコーダーもモデルも貧弱かつ、データセットが偏っているので汎用性がない。

なので Anima だけですべての作業をするのではなく、ダンボールタグ外の要素は FLUX.2 klein や Qwen Image Edit のような編集モデルを使う割り切りが必要。

アーティストタグを使うなら以下のワークフローはすでに実用レベル:

  1. Anima で下絵
  2. アップスケール
  3. Illustrious の派生モデルで i2i (ディティールの追加・シャープネスアップ・画風の固定)
  4. SAM2 や SAM3 でセグメンテーション(なくてもいい)
  5. Illustrious の派生モデルで Detailer

目次

続きを読む

RTX3050+ComfyUI で SageAttention の導入

カテゴリ:deeplearning

目次

RTX3000 世代は fp8 モデルは非対応

続きを読む

ComfyUI の ModelSamplingAuraFlow とは何か

カテゴリ:deeplearning

ModelSamplingAuraFlow は高解像度画像を生成する際に、ノイズが不足しないようにするノード。

中身は ModelSamplingSD3 ノードと同じ。詳細は SD3 論文の p. 10 Resolution-dependent shifting of timestep schedules を参照。

ModelSamplingAuraFlow の shift を増やすと実質的にノイズの量が増える。それによって以下の効果が得られる:

  1. 画像のディティールが増える
  2. 構図や全体の色の確定に時間(ステップ数)がかかるので、全体の構図や色のエラーが起こりづらくなる

続きを読む

動画生成 AI に関するメモ

カテゴリ:deeplearning

目次

続きを読む

VRAM8GB で Z Image の LoRA作成

カテゴリ:deeplearning

目次



続きを読む

LoRA の学習方法

カテゴリ:deeplearning

続きを読む

ComfyUI で FLUX.2 klein 9B を使う

カテゴリ:deeplearning

FLUX.2 klein 9B の編集能力は高い。物体除去、画像のモノクロトーン化、線画を維持した着色が高速でできる。FLUX.2 klein 9B をデフォルトで使い、できないタスクは Qwen Image Edit や FLUX.2 dev や Nano Banana Pro に投げるのがいいだろう。

Klein 4B は MCP サーバーを立てて LLM と同時に使うと楽しい。

昨今の強化学習で絵が固定されたモデルと違い、シードで多様性が出せるのもよい。

欠点

  • 一貫性の維持ができない
    • 編集すると色が変化する
    • FLUX.2 は HEX コードや参照色で色を指定できるが、klein では機能しない
    • 1~2ピクセルのピクセルシフトがおこる(ピクセルシフトが問題なら Qwen Image Layered や FLUX.2 dev を使う)
    • 参照画像の顔をコピペできない場合は顔がそこそこ変化する
  • t2i の性能は Z Image Turbo の方がよりリアルでプロンプトの追従性が高い
  • 指が溶けたり腕が増えたりする(蒸留モデルでガチャをすればいいので、あまり問題ではない)

目次

続きを読む

T2I 拡散モデルの設計メモ

カテゴリ:deeplearning

目次

続きを読む

LLM を使ったストーリー作成

カテゴリ:deeplearning

LLM を使ったストーリー作成が一発でうまくいく事はない。なので、ストーリー作成の各工程ごとにアイデア出しの補助をさせることでストーリーを作成する。

AI のべりすとは日本語が使えるが性能は高くない。無料で公開されているローカル実行できる LLM を英語で使ったり、Chat GPT を使う方が効率がいい。AI のべりすとの強みはアダルト文章を日本語で出力できることだ。

モデルについてはおすすめの日本語対応ローカル大規模言語モデルを参照。

目次

続きを読む


広告
広告