AIの画像生成を少しだけパワーアップ

当ページのリンクには広告が含まれています。

最近、AIの画像生成で遊んでます。そんなに詳しい方ではないけれど、テキストで生成される画像の出来栄えに一喜一憂しながら、そして自分の語彙力の少なさに気付かされながら、時間を忘れて没頭するこの頃。

そもそも画像生成AIとは

AIと聞くと何だかムズい感じがするが、ChatGPTに代表される様に、結局のところエンドユーザーレベルから見ると単なる便利ツールに過ぎない。勿論、その仕組みを生み出す方々はそれこそアタマの良い方なのですが。

画像生成AIとは、ざっくり言うと生成したい文字列(プロンプトという)を入力すると、その文字列にできるだけ忠実な画像を作ってくれるというシロモノ。しかしながら、プロンプトをどの様に入力するかで、画像の出来栄えが全く違ってくるのが面白い。逆に言うと自分の語彙力とか国語力が試される。ワタシは根っからの理系人間なので、国語力を改めて鍛えられているところなのだが。

やり方は大きく2つある

画像生成AIを使うやり方は、大きく2つ。1つがWEBサービスとして提供されているものを使うやり方。これは、AdobeとかMicrosoftが提供していたり、その様な大手以外にもサービスを展開しているところが多くある。

以前、使っていたのは、AdobeのFireFlyや、MicrosoftのDesigner。これらは日本語の多少の変なプロンプトでもそれなりの画像を作ってくれるし、かなり重宝していたのだが、こういったサイトは無償で生成できる数が決まっていて、プロンプトを微調整しながらああでもない、こうでもないっていう試行錯誤がやり難いのが残念なところ。

MicrosoftのDesignerは使い勝手も良く、結果的にMSのCopilot Proというプランに入って生成しまくっていたが、やっぱり月額3,200円というのがなかなか痛く。

もう1つの案としては、自分のPC、つまりローカル環境で生成するというやり方。Stable Difussionという無償のツールを自分のPCにインストールする。これは生成枚数の制限も無ければ、月額払いでもなく、一度自分のPCにセットアップしてしまえば、それこそ無限に画像生成できてしまうツールなのだ。以前からその存在は知っていたものの、なかなか試す機会がなかったが入れてみることにした。

Stable Diffusionで画像生成

インストールの方法はググればいくらでも出てくるので、ここでの説明は割愛する。セットアップが難しいという方もいるが、丁寧にインストール手順を教えてくれるサイトの通りにやれば、何も難しいことはない。

ただ、セットアップしただけではまともな画像生成はできない。というか、やれば出来るのだが、初心者が期待通りの画像出力をするのは難しい。それはプロンプトの入力の仕方もあるが、モデルと呼ばれる生成のキモとなる物をきちんとセットアップする必要がある。インストール直後のデフォルトで入っているモデルだとなかなか良い画像が作れないのだ。

なので、Stable Diffusionをセットアップしたら、最初に外部のサイトから好きなモデルをダウンロードしてセットアップする。ワタシは、いつもCivitalというサイトを使っているが、ここで生成したい画像のイメージに合ったモデルをダウンロードして、Stable Diffusionに読み込ませればOK。(これら一連のやり方はググってね。)

自分のPCで画像生成する

Stable Diffusionを使えば自分のパソコンで好きなだけ画像生成できる。しかも自分の好みのモデルを使って自分なりの世界観で好きな様に生成できるのが良いところ。

ただ、これを動かすにはパソコンのハードウェア性能、特にグラフィックスカードの性能が必要だ。普通のノートパソコンだとかなり厳しいので、デスクトップパソコンにグラフィックスカードを増設する必要がある。これまで、グラフィックスカードはRTX3060Tiを使っていたが生成速度もノンビリながら、生成中にストールするなど安定性がイマイチ。

調べてみるとStable Diffusionを動かすにはVRAMが12GB以上が推奨。ワタシの持っているRTX3060Tiは8GBなので、思い切ってグラフィックスカードを買い替える事にした。今ならRTX5000シリーズなんだろうが、VRAMが12GBのRTX4070が比較的安価に出品されていたので、それを購入することにした。

スポンサーリンク

RTX4070に換装した

という事でMSIのRTX3060Ti GAMING X TRIO 8Gから、同じMSIのRTX4070 GAMING X TRIO 12Gをフリマサイトで購入して換装した。

因みにワタシMSIのGAMING Xシリーズばかり購入している。何故かというとGAMING X にはZERO FROZRという機能が付いていて、忙しくない時はFANが止まる。他のグラボを使ったことが無いから他メーカでも同じ様な機能があるのかもしれないが、やっぱり必要も無いのにFANが回っているのは埃も吸い込むし、いい事がないので。

とりあえず普通にベンチマーク

まずは、普通にPASSMARKでベンチマークを取った。パソコン本体はMinisForumのAtomMan X7 Tiだ。CPUはCore Ultra9 185H、DDR5-32GB、SSDはWDのWDS500G1X0E。グラボはAtomMan X7 TiのOculink 経由で接続している。

まずは今の結果。

次に、グラボをMSIのRTX4070 GAMING X 12Gに換装。順調に性能UP。

次にStable Diffusionの性能差を確認

とりあえず、PCの性能としてはアップデートできた様なので、Stable Diffusionでの確認をする。生成する画像は以下の様な海岸の画像を8枚生成させる。この時はモデルにRealistic Vision V6.0 B1を利用した。

RTX3060TiとRTX4070でこの画像を生成する時間を測定してみた。

下図の一番下の行に生成にかかた時間が表示されている。RTX3060Tiの結果は39.5秒。プロンプトやネガティブプロンプトを含め生成した環境は以下を参照してほしい。

次に、RTX4070で確認。

生成環境は全く同じながら、生成時間は28秒まで短縮。とりあえず10秒以上短縮できた。

何度も試行錯誤するなら性能は重要

同じ画像を生成するのに、グラボを交換しただけで10秒の短縮ができることになった。画像生成は1度で所望の結果を得られる事は稀。だからこそ何度も試行錯誤しながら渾身の1枚を生成するのだが、これをWEBの無償サービスではとてもじゃないができないし、ローカル環境にインストールしたStable Diffusionでも何度も実行が必要になる。

この時に自分のPC環境しだいで生成速度が変化するのであれば、パワーアップしようというモチベーションも悪くないのではないか。なんてことを考えているところ。まぁとりあえず試してみましょう。楽しいですよ。

  • URLをコピーしました!
  • URLをコピーしました!
目次