画像生成 AI の限界
画像生成の出力は以下の限界がある。
- 学習データセット
- テキストエンコーダー・モデルの表現力
- 汎化能力が思ったほど高くない
- オペレータの語彙と想像力
言語の限界が現在の画像・動画生成の限界で、手書きの場合は言語化不可能な概念を画像で表現できる。言い換えると、Danbooru 語で訓練された AI は Danbooru タグを追加できないが、手書きなら Danbooru タグにない絵を描いて新しい Danbooru タグを追加できる。
1. データセットと汎化能力
T2I 拡散モデルの設計メモ
目次
- クラウド GPU
- テキストエンコーダー
- VAE
- GAN
- コンディショニング
- 位置埋め込み
- 目的関数
- Transformer アーキテクチャ
- ブロック図
- データセット
- キャプショニング
- 学習方法
- 高速化
- ワーキングメモリー
Danbooru タグ検索
Waifu Diffusion で効率的に画像を生成する
プロンプトリストはプロンプトやよく検索されているプロンプト(R18)、danbooru タグ検索を参照。
目次
- ワークフロー
- ツールの選択
- Stable Diffusion のモデルリンク
- Stable Diffusion の解説
- Tips
- 上手く描けない場合(胴が長いなど)はアスペクト比を変えてみる
- クオリティタグを使う
- CFG Scale を上げる
- 解像度を上げると頭や体が複数融合する
- Denoising Strength を下げると画質が落ちる
- 細部の修正
- 手の修正
- 手の自由度
- 高解像度化
- 色のコントロール
- 顔に影ができる
- ファインチューニング
LoRA の学習方法
- 画像加工
- トリミング
- 背景除去
- 白背景
- 物体検出
- Aspect Ratio Bucketing
- キャプション・設定ファイル
- キャプション方式
- タグ編集アプリ
- キャプションファイルの先頭にタグを追記するコマンド
- 設定ファイルの class_tokens
- トリガーワード
- 画風学習のキャプションファイル
- キャラ学習のキャプションファイル
- keep_tokens
- VRAM 削減
- mixed_precision
- xformers
- gradient_checkpointing gradient_accumulation_steps
- データの水増し
- 過学習防止
- 学習
- fp16 と bf16
- サンプルの出力
- 学習方式の選択
- リピート数とエポック数
- network_dim
- dim_from_weights network_weights
- network_alpha base_weights base_weights_multiplier
- min_snr_gamma
- debiased_estimation
- zero_terminal_snr
- v_parameterization
- noise_offset
- 学習率
- スケジューラ
- オプティマイザ
- 階層別学習率
- 高速化
- 省メモリ設定
- logging_dir
- SDXL
- 検証
- 学習の再開
- メタデータの閲覧
よく検索されているプロンプト(R18)
Windows Subsystem for Linux でダブルクリックで sh ファイルを実行する
bat ファイルを使う
スクリプトひとつごとに起動用 bat ファイルを書く。test.sh というスクリプトがあるとき、適当な名前で以下のような bat ファイルを作る。
wsl ./test.sh
あとはこの bat ファイルをダブルクリックすれば test.sh を実行できる。
この方法はスクリプトごとに bat ファイルが必要になるのでフォルダ内が散らかる欠点がある。その場合 .sh ファイルを隠しファイルにする方法もある。
レジストリを編集する
バッチ正規化の Tips
バッチ正規化自体に性能を向上させる能力はない
クリエイター関係の法律に関するよくある誤解
目次
- 「請負契約は口頭でも成立する」は証拠が不要という意味ではない
- 著作権は譲渡できる
- 著作者人格権は制限できる
- 「著作権侵害は親告罪なので起訴されてないならば合法」は間違い
- 「白黒を判定する権利があるのは著作権者」は間違い
- 「著作権法はアイデアを保護しない」は間違い
- 「ゾーニングされているSNSだから公衆にはあたらない」は間違い
- 企業内複製・業務上の複製(漫画家が資料として画像をダウンロード)も複製権侵害になる
- 教育のための複製でも著作権者への補償金が必要
- 写真のトレースが著作権侵害になる可能性はある
- イラストのトレース検証で名誉棄損が認定された判例がある
- 「無許諾で二次的著作物を作成したが、私的利用が目的のため著作権侵害にはならない」は間違い
- 「他人のイラストを参考にしてイラストを作成したが、ポーズや構図を変えているから著作権侵害にはあたらない」は間違い
- 「無許諾で二次的著作物を作成したが、特定少数にだけ公開しているので著作権侵害にはあたらない」は間違い
- 日本ではパロディは著作権侵害になる可能性が高い
- 「非営利なら無許諾で二次創作を公開・頒布しても合法」は間違い
- キャラクターに著作権は発生しない
- AI による画像生成
- 「AI が生成した画像に著作権は発生しない」は間違い
- 「プロンプトには著作権がない」は間違い
- 「生成AIの出力は依拠の立証ができないので合法」は間違い
- 新橋玉木屋事件(煮豆売り事件)
- 生成AIの利用者も著作権侵害になる
- 生成 AI を用いたサービス提供を行う事業者が著作権侵害になるケース
- 無版権二次創作同人誌の無断転載事件
- 不正競争防止法による模倣の判例
- 写真素材に依拠して作成されたが著作権侵害が否定された判例がある
- 自炊代行は複製権の侵害になる
- コンビニコピー機(ネットプリント含む)で他人の著作物を複製すると複製権の侵害になる
- 外部リンク
「請負契約は口頭でも成立する」は証拠が不要という意味ではない
請負は諾成契約であり契約書の作成は不要である(民法第632条)。請負契約は口頭でも成立するが、裁判でそれを主張するには口頭で契約した証拠(録音・第三者の証言・メールのやりとり等)が必要になる。契約の立証責任は「契約が存在する」と主張する側にあるため、契約書を作るのが確実だ。
著作権は譲渡できる
譲渡できないのは著作者人格権だ(59条)。著作権の譲渡は61条に定められている。
著作者人格権は制限できる
中山信弘著『著作権法』(有斐閣,2007年)p. 364 では以下のように解説している。
著作者人格権には一般的人格権に相当するものも包含されており、著作者人格権の全てを、財産権と同様な意味で放棄可能とする解釈は採りえないであろう。他方実務においては、必要に迫られて、著作者人格権の不行使特約を締結する例も多いが、未だ司法の確定的な判断はなく、疑心暗鬼の中で実務は進んでいる状況と言えよう。今後は、放棄の態様に応じた検討が必要である。
公表権を制限する契約は一般的だ。たとえば、未発表のゲームのテキストの翻訳を下請けに出すとする。下請けが、その翻訳をゲーム発表前に公表すると問題になる。つまりリークを防ぐために、公表権を制限する必要がある。
同一性保持権を制限する契約も多い。イラストの色調を補正したりトリミングしたりして、イラストを使用することがよくあるからだ。
外部リンク
改変への包括的な黙示の同意と同一性保持権―食品包装デザイン事件― 東京地裁判平成29. 11. 30平成28年(ワ)23604号[食品包装デザイン]