【上級編】エンジニアに捧ぐ！進化する画像生成AI「Stable Diffusion」

掲載日:2022年11月17日　/　更新日:2022年12月6日（約5分で読めます）

Webサービス

今回ご紹介するStable Diffusion（ステーブル・ディフュージョン）は、Stability AI社が2022年8月にオープンソースとして提供をはじめた描画AIです。生成方法には、文字で指定したキーワードからAIが自動で画像生成する「text2img」と、アップロードされた画像をAIが読み取りそこからオリジナル画像を生成する「img2img」の２パターンがあり、さまざまな画像を生成することが可能です。最近著作権の問題でよく議論されていますが、現段階（2022年12月）では著作権の対象とならず、商用利用も可能です。

今回はStable Diffusion設定完了後、画像生成するときに精度を上げる呪文と呼ばれるキーワード選定方法と、便利な拡張機能についてご紹介します。

Stable Diffusionのキーワード集

以下の情報をプライオリティ順に指定することにより精度が高まります。
※標準的な順番で記載
※英語表記推奨

１、出力したい画像の内容
２、画風
３、画家、アーティスト名
４、追加情報(状態など)

１、出力したい画像の内容
running man：走っている人
Kawaii：可愛らしい感じ
profile：横顔
front：正面
なるべく細かく書くことでより、想像している画像に近くなります。
例えば、場所、動き、物や風景など

２、画風
Portrait：肖像画
UKIYO-E：浮世絵
Indian ink painting/ink brush painting：水墨画
Granblue Fantasy：幻想的
Still image：静止画
natural history：博物画
Realistic：リアリズム
Concept art：コンセプトアート
Hyperrealistic：ハイパーリアリスティック
Oil paining：油絵
Pencil drawing：鉛筆
historical painting：歴史画
Cartoon：漫画風
a photo of：写真
Landscape painting：風景画
genre painting：風俗画

３、画家、アーティスト名
有名な漫画家、画家、アーティスト名などを記載します。
アーティスト名を書くことで、画風を近づけることができます。
Vincent van Gogh：ゴッホ
Pablo Picasso：ピカソ
Claude Monet：モネ
Leonardo da Vinci：レオナルド・ダ・ヴィンチ

４、追加情報(状態など)
perfect lighting：明るくなる
dark lighting：暗くなる
no background：背景無し

拡張機能の紹介

Stable Diffusionの拡張機能についてご紹介します。
Stable Diffusionの高機能UI「Stable Diffusion web UI」の構築については、以下で詳しく解説されています。
https://note.com/ktomadev/n/n55976f32380d

Hua
アウトペインティングやインペインティングを簡単な操作で利用できるようにした機能
※アウトペインティング：元画像の続きを描画する
※インペインティング：元画像の一部を生成した画像で置き換える
以下が「Stable Diffusion web UI」と連携させて使う「Hua」のリポジトリになります。
https://github.com/BlinkDL/Hua
Advanced Prompt Tuning(APT)
1枚の画像やイラストを追加で学習させるだけで、画風を真似て多様な構図の画像を生成できます。
以下が「Stable Diffusion web UI」にAPTを追加したリポジトリになります。
https://github.com/7eu7d7/DreamArtist-stable-diffusion
Deforum
Stable Diffusionで生成した画像を元にアニメーションを生成できます。
※「Stable Diffusion web UI」を2022年10月22日以降のバージョンに更新する
以下が「Stable Diffusion web UI」にDeforumを追加したリポジトリになります。
https://github.com/deforum-art/deforum-for-automatic1111-webui

まとめ

Stable Diffusionの精度をあげるテキストの指定方法や拡張機能について紹介してきましたが、今後さらに機能が追加され使いやすくなることにより、誰もが気軽に高品質な画像生成を行えるようになり、絵心のない方でも絵や画像に触れ合う機会が増えて楽しめるのではないかと思います。最近では、NVIDIA社が高精度な画像が生成できるAI「eDiffi」をリリースしており、Stable Diffusionよりテキストに正確な画像が生成できると話題になっています。今後どのように進化していくのか楽しみです。

WEBサービスを
活用しませんか？

いろいろなサービスが存在していて比較検討が難しいといったことでお困りではないですか。
自社サービスの認知拡大や地域活性化といった課題に、
WEBサービスを使って解決できるソリューションを持つMARUKUにご相談ください。