2023.08.02
Midjourney(ミッドジャーニー)を使って、複数枚(最大5枚)の画像を合成してみる
こんにちは。木村です。
今回はAI画像生成ツールである「Midjourney(ミッドジャーニー)」を使ってみます。
簡単な「Midjourney」の使い方から、今回のテーマである複数画像の合成を試してみました。
「Midjourney」とは?
「Midjourney」を簡単に説明すると、テキストから画像を生成するAIサービスです。
チャットをするようにテキストを打ち込むだけで画像を生成できます。
あと「Midjourney」の詳細については、紹介してくれているサイトが沢山あるので、そこを当たっていただければと思います。
以前であれば無料プランでも画像の生成ができたようですが、現在は有料プランのみ生成が可能です。
支払い方法は、クレジットカードとAlipayのみ。
もし、トラブルが心配な方は「Vプリカ」みたいなクレジットカードと同じ用に使えるプリペイドカードで試してみるのもいいと思います。
今回やりたいこと
実は今回は一つやってみたいことがあります。
それは・・・
「当社の社屋(宮ノ前ベース)の前で、
夜、ストレッチテントを張って、
いい雰囲気でパーティをしている。」
そんな、画像を生成します。
(※ストレッチテントについては後から画像がでてきますので、とりあえず読み進めてみてください)
↓これが「宮ノ前ベース」ね。
「なぜそのような画像を作成したいのか?」は、話すと長くなりますので、今回割愛させてください。笑
一旦、気にせずこのブログを見守ってください。
さて、うまく生成できるのでしょうか?
チャレンジしてみたいと思います!
まずは軽く使ってみる
さて、本題に入る前に簡単な使い方の紹介も兼ねて「Midjourney」を使ってみます。
まず「Midjourney」にログイン後、まずは初心者部屋に入ります。
この左側にある「newbies-○○」のどれかをクリックして、ルームへ入ります。
画面一番下の「newbies-○○へメッセージを送信する」のテキストボックスに、コマンドを入力します。
【入力方法】
①「/imagin」 と入力し、Enter。
→入力途中でも、候補が表示されるので、それをクリックでもOK。
②「/imagine prompt」と表示されるので、この後にカンマ区切りで、テキストを入力し(呪文ともいうらしい)、Enter。
テキストは日本語でも可能らしいですが、英語のほうが精度が高いため、英語で指定します。
英語は苦手なので翻訳サイトを利用します。
(今回はDeepLを使っていますが、Google翻訳とか、なんでもいいと思います。)
さて、試しに以下のようなキーワードにしてみます。
(原文)「緑茶が大好きなトイプードル, スタジオジブリ風」
(翻訳)「Toy poodle that loves green tea, Studio Ghibli style」
入力完了したので、早速いってみます。
(ちょっとドキドキ)
いざEnter!
コマンドが送信され、「Waiting to start」となっています。
しばらく待ちます…。
そして…(1分もしないかな?)
お、
おぉぅぅぅぅううっ、、、
こ、これが、緑茶大好きトイプさん!
(スタジオジブリ風は無視された感じ?難しい)
とまあ、こんな感じで生成できてしまいまいました。
さて、本題です
当社の社屋「宮ノ前ベース」と「ストレッチテントを張ってパーティしている風景」を合成させるのですが、後者の画像がありません。
せっかくなので、「ストレッチテントを張ってパーティしている風景」も「Midjourney」に生成してもらおうと思います。
まずはこのキーワードで生成してみます。
ストレッチテントを張ってパーティ, 賑やか,フェスのよう, 夜, 大勢の人, 照明が美しい, 遠景
(翻訳)
Party with stretch tent, lively, festival like, night, big crowd, beautiful lighting, distant view
そして、できたのがこれ↓
おぉ、きれいなのができました。
(※これがストレッチテント)
が、うーん、
もうちょっとローアングルの画像が欲しいですね。
再度「ローアングル」のキーワードを入れて、指示し直してみます。
ストレッチテントを張ってパーティ, 賑やか,フェスのよう, 夜, 大勢の人, 照明が美しい, 遠景, ローアングル
(翻訳)
Party with stretch tent, lively, festival like, night, big crowd, beautiful lighting, distant view, low angle
↓できたのがこれ
ローアングルな感じになりました。
ここでちょっとバリエーションを増やしてみましょう。
生成された画像の下に、「U1〜U4」、「V1〜V4」「矢印が回転してる画像」のボタンがあります。
番号は、4つ並んだ画像の左上からナンバリングされており、画像を指しています。
【ボタンの意味】
U→ 指定した番号の画像を高解像度化
V→ 指定した番号の画像に似た画像を再度4枚作成
矢印が回転してる画像(更新) → 再度4枚の画像を生成
左下の画像が、良さそうなので、「V3」ボタンを押してみます。
すると4枚再作成されました。
かなり似た画像ばかりですね。
まあ、もう少し遠くからが良かったのですが、これで良しとしましょう。
一旦右下の画像を選ぶことにします。
いよいよ合成(blend)してみる
ここでも同じように、「newbies-○○」の部屋のチャットから、コマンドを送信していきます。
合成についてはまず「Blend機能」(ブレンド)を使ってみます。
メッセージ入力欄にコマンドを入力していきます。
①「/blend」 と入力し、Enter。
→入力途中でも、候補が表示されるので、それをクリックでもOK。
②以下のように、画像を指定できるアイコンが表示されます。
③アイコンにアップロードする画像をドラッグアンドドロップします。
④そしてEnter!
しばらく待ちます・・・
そして、
できたのがこれ↓
なんと!
見事に「宮ノ前ベース」と「ストレッチテント」が合成されたではありませんか!!
(てっきり、社屋の前にストレッチテントが現れるものかと…)
まあ、「blend」ってそういうことですよねー(再認識)
で、あと「blend」の欠点(?)としては、
「どう合成するか?」という指示を出せないこと。
これを補えればもう少し違った展開が待ってたはずですが、ないものは仕方ない。
【別案】画像にテキスト指定して合成してみる
2枚以上を指定できる「blend」では、テキストで指示が追加できませんでしたが、1枚の画像に対してであれば、テキストで指示を出せます。
そこを踏まえ、以下のような手順で試してみます。。
①先に「宮ノ前ベースの外観」画像をアップロードする。
②アップロードした画像に、指示を入れて合成してもらう。
早速やってみます。
①左上の「ダイレクトメッセージ」アイコンをクリック
②「Midjourney Bot」をクリック
③アップロードしたい画像をドラッグアンドドロップ
→画面内ならどこでもOKぽい
④Enterを押して、アップロード完了
⑤アップロードした画像をクリック
⑥やや大きくなった画像の下部の「ブラウザで開く」をクリック
⑦さらに画像が大きく表示されるので、画像の上で右クリックして「画像アドレスをコピー」を選びます。
(これで画像URLが取得できたので、どこかにメモっておいてください)
⑧指示テキストを考えます。今回は以下のようにしました。
⑨以下のように入力し、Enter!
「/imagine prompt <<画像URL>> <<指示テキスト>>」
待ちます…。
そして、
できたのが…
これです↓
ごめん。
笑ってしまった。
(特に右上よ)
まあ、先程の「Blend」よりは近くなりましたが、「宮ノ前ベース」が、えらいことになってます。
気を取り直して、「建物の形状はそのままで」とテキストに入れ、生成してみます。
はい!
えっと、
もっと酷くなった?汗
左下のはギリギリいけるかも?
まあ、悪いのは私です。
指示テキスト(呪文)の難しさを痛感…。
まとめ
(深い検証はできていないけど)
一応まとめ。
・指示通りに生成してもらうのは難しい
→イメージをしっかり言語化する必要あり
・特性を理解して使うことが必要
→検証を繰り返して的確な方法を習得する必要あり(これが楽しくもあり?)
・今回のような合成は「Midjourney」じゃないほうが良いかも。笑
→単なる合成とかなら別ツールを検討したほうが早いでしょうね。
じゃあ、またね!