deeplearning カテゴリの記事一覧を表示しています。

広告

広告

Apple の The Illusion of Thinking の誤解

カテゴリ：deeplearning

X（旧 Twitter）では Apple の The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity という論文が「LRM は推論をしてるのではなくパターンマッチングをしているだけ」と主張しているという、間違いを信じている人が多い。

しかし、この論文はそのような主張はしていない。

実際の論文の内容

続きを読む

AUTOMATIC1111 の便利な機能

カテゴリ：deeplearning

目次

アップスケーラー

生成可能解像度

デティール追加

img2img

プロンプト

ファインチューン

操作

Generate ボタンを右クリック > Generate forever で止めるまで生成。止めるときは右クリック > cancel
Ctrl + Enter で Generate
Ctrl + Z プロンプトを元に戻す
スライダーをクリックした後十字キーで１ずつ増減できる
Alt + ← or → カンマ区切りの文字を選択して左右移動（1.5.0 以降）

検証

UI

高速化

省メモリ

fp8 設定（forge）

そのほか

Extension など

Controlnet

ポーズ・構図の指定と着色ができる。Image2Image はグレースケール画像の着色ができなかったが Controlnet ではそれができる。
ControlNet の新モデル Anystyle
Reference-Only（参考画像を基にイラスト作成）
ControlNetでポーズや構図を指定してAIイラストを生成する方法
AUTOMATIC1111+ControlNetのつかいかた2(目当ては自動塗り)
AIで適当な線画を清書し、さらに色を塗って高品質なイラストに仕上げる方法【ControlNet活用術】
画像生成AIを線画整えツールや自動彩色ツールにする
Character bones that look like Openpose for blender _ Ver_6 Depth+Canny+Landmark（Blender 上でポージングできるツール）
「ControlNet 1.1」の新機能まとめ！新しいモデルや改善点を紹介【Stable Diffusion】
ControlNet(v1.1)の詳しい解説！輪郭やポーズから思い通りの絵を書かせる
入力線画を全く変えずに画像生成AIに色塗りさせる方法
MLSD
プリプロセッサの dw_openpose（写真から棒人間を作成して入力）
Multi-Controlnet

Multi ControlNetによる画像の構図制御

Extension

Model

controlnet-canny-sdxl-1.0

モデルマージ

続きを読む

NovelAI Diffusion V3 の改善点

カテゴリ：deeplearning

続きを読む

llama-cpp-python + CUDA + Windows ビルドメモ

カテゴリ：deeplearning

続きを読む

Stable Diffusion のファインチューンの Tips

カテゴリ：deeplearning

LoRA はLoRA の学習方法へ移動した。

LoRA 以外の情報（Hypernetwork や Textual Inversion、Dreambooth）はStable Diffusion の古い情報へ移動した。

目次

前処理

学習時

Preprocess（前処理）

画風を学習させる場合のキャプション（Textual Inversion・Hypernet）

U-Net の学習

わかりやすい解説として「U-Net は画像のデノイズを行う」という説明がされるが、これは正確には間違いだ。U-Net は除去すべきノイズを出力する。

学習のプロセスは以下のようになる。

ランダムにタイムステップ t ∈ [0, 1000]を選ぶ
教師画像にタイムステップ t に対応するノイズを付与する
U-Net にノイズを付与した教師画像とタイムステップ t とコンテクスト（embedding 化したキャプション）を入力
U-Net が除去すべきノイズを出力する
付与したノイズと U-Net が出力したノイズとの差分から平均二乗誤差（MSE）を計算する
差分を逆伝播して学習する

タイムステップはノイズの量をきめる。0 が教師画像そのもので、1000 が純粋なノイズ画像だ。

概要

2023 年８月現在 LoRA 一強の状況で、Textual Inversion・Hypernetwork・Dreambooth（正則化画像）はほとんど使われていない。

続きを読む

U-Net や Diffusion Transformer はどのようにして可変解像度に対応しているのか

カテゴリ：deeplearning

続きを読む

固定幅入力・逆順生成の動画生成 AI FramePack の論文の解説

カテゴリ：deeplearning

続きを読む

NoobAI-XL 1.0 のアーティストブレンド例

カテゴリ：deeplearning

続きを読む

AUTOMATIC1111 の Dreambooth の使い方

カテゴリ：deeplearning

LoRA はLoRA の学習方法に移動した。

目次

続きを読む

Textual Inversion の使い方

カテゴリ：deeplearning

目次

Textual Inversion

Embedding （.pt や .bin ファイル）を使う

例１

続きを読む

広告

広告

カテゴリ