AI技術の進化が目覚ましい昨今で未だに個人的にまだまだ実用レベルに至っていないと感じているのが画像生成AI(生成というか編集AIのニーズに近いです)ですが、最近リリースされて注目を集めている画像生成AIがとても気になっていました。そう、Googleが開発した「Gemini」の画像編集簿デル「nanobanana」です。

大きな話題にもなっていますし、テキストだけでなく画像や動画、音声など、様々な形式の情報を理解し、生成できるその能力は、まさに次世代のAIと呼ぶにふさわしいものです。

ということで今回は、そんなGeminiの「画像編集モデル「nanobanana」を試してみたいと思います。

せっかくならということで、少し企画っぽくもしてみましたのでお付き合いください。


画像生成AIでこんなことができる!

AIを使った画像生成と聞くと、ゼロから全く新しい画像を創り出すイメージが強いかもしれません。しかし、Geminiの画像編集モデルは、既存の画像をベースに、様々な編集や合成を高い精度で行うことができます。

例えば、

  • 特定の物体を画像から削除したり、追加したりする
  • 画像の背景を変更する
  • 人物の服装や髪型を変える
  • 複数の画像を合成して、新しい画像を作り出す

といったことが可能です。

今回は、この「複数の画像を合成して、新しい画像を作り出す」という機能を活用し、以前飼っていた愛犬と、現在飼っている愛らしいトカゲが仲良くなる様子を表現してみることにしました。

太田高寛

実際今までも0から1を作る(例えばかわいい犬が国会議事堂で走っている画像作って。など)のは出来ましたが、ビジネスで実用的に使おうとすると0.5を1にするニーズの方が多かったり方も多かったのではないでしょうか。

いざ挑戦!画像生成までのステップ(使い方)

では、早速作業に取りかかっていきましょう。今回使用する画像は、愛犬のフレンチブルドッグと、ヒョウモントカゲモドキの写真です。

亡くなってしまった愛犬と現在のトカゲがコラボすることはないので、せっかくなら出会うはずのない2匹が出会って仲良くなるまでのストーリーを究極的にうすっぺらい流れで画像を生成していこうと思い立ってすすめました。

1. プロンプト(指示文)の準備

AIに何をさせたいかを明確に伝えるためのプロンプト(指示文)は、とても重要です。今回は段階ごとに複数のプロンプトを作成しました。

作成したプロンプトの例:

  • ステップ1 「フレンチブルドッグがトカゲと出会う画像」
  • ステップ2「フレンチブルドッグがトカゲに興味をちょっかいを出し始める画像」
  • ステップ3「フレンチブルドッグの腕にトカゲが登り始める画像」
  • ステップ4「フレンチブルドッグとトカゲが仲良くなり、トカゲがフレンチブルドッグの頭に乗っている画像」
  • ステップ5「フレンチブルドッグがトカゲを背中に乗せて、気持ちよさそうに眠っている画像」

このように、物語の起承転結を意識してプロンプトを作成すると、より一貫性のある画像を生成することができます。

2. 画像のインプットと生成

プロンプトができたら、次はAIに画像をインプットします。まずは、愛犬とトカゲの写真を1枚ずつインプットしました。そして、先ほど作成したプロンプトを順番に入力していきます。

ステップ1:出会いのシーン画像生成

最初に生成されたのが、こちらの画像です。

合成の失敗

ふざけていると思うレベルにおかしな合成になりました。これではビジネス利用はまだまだ先だと思いましたが、シンプルに選定した画像の色合いもあって同系色で画像の判断がつきづらいかなと思い、愛犬の画像を差し替えてみました。

背景が白い画像を選定して、愛犬のシルエットだったりが人間にもAIにも判別つきやすい画像をチョイス。そして同様に合成するよう指示すると、、、

愛犬とトカゲの合成

体の向きとかはいまいちですが、トカゲに興味津々なフレンチブルドッグの様子が、とても自然に表現されてきました!!

犬もトカゲも細かいところを見ていくと全然違いますが、あくまでこれは0から1を作る依頼をしたわけなのでここはまず生成出来ていると判断し、この画像をベースにもう少し修正を加えていくことにしました。

ステップ2:ちょっかいを出し始める画像生成

次に以下のプロンプトで生成された画像がこちら。

プロンプト「ゲージを無くしてください。フレンチブルドッグが手を出してトカゲを触ろうとしてるように変更」

見事に腕をトカゲの前に出して、「なんだこれは?」「あそぼうよ」と言わんばかりの構図。表情はまだ改善余地ありそうですが、短いプロンプトでは十分な具合です。

ステップ3:トカゲが登り始める画像生成

次に以下のプロンプトで生成された画像がこちら。

プロンプト「フレンチブルドッグの前の手をよじ登っている画像にして」

画像生成AIで作ったトカゲがよじ登る画像

少し動きに違和感はありますが、まぁ上り始めた感は出ましたしそれ以外が大きく変更が無いのもわるくないですね。

太田高寛

以前までの画像生成AIは平気で前の画像の一部を改造して出力してきてイライラしていましたがそのストレスは格段に減った印象です。

ステップ4:仲良くなりトカゲがフレンチブルドッグの頭に乗っている画像

次に以下のプロンプトで生成された画像がこちら。

プロンプト「次はほのまま登ってフレンチブルドッグの頭の上に乗ってる画像」

画像生成AIで犬の上のトカゲがのった画像

ほぼ完ぺきな出力。

実際指示した画像自体がとてもわかりやすく細かい指示もいらずにストレートに伝わる内容だったのも幸いした気がします。ここは「日本語での指示のわかりやすさ」、「万人共通でイメージしやすい指示であること」が画像生成AIへのプロンプトとしては重要であることがわかりました。

ビジネス利用においても、中途半端な細かいニュアンスで生成というよりはわかりやすいはっきりとした依頼で出来上がる画像を生成して、ビジネス利用で活用できるようにビジネス側の運用をしっかり考えることはとても重要だと再認識しました。

ステップ5:すっかり仲良しのシーン

そして最後に生成された画像がこちら。

プロンプト「このフレンチブルドッグとトカゲが一緒に仲良く寄り添って寝てる画像にしてください」

画像生成AIで作った犬とトカゲが寝ている画像

フレンチブルドッグがすやすやと眠っていて、その背中にトカゲがちょこんと乗っています。「一緒に仲良く寄り添って寝てる」というプロンプトを忠実に再現してくれました。

実際に使ってみて感じたこと

今回の実験を通じて、Geminiの画像編集モデルの驚くべき能力を実感しました。

【良かった点】

  • INPUT画像の再現度が非常に高い: 最初に入力した画像を基にした生成のクオリティが高く、犬の場合は飼い主だったら違和感あると思うが他の人からしたらそこまで気にならないレベルのクオリティは素晴らしいレベル。
  • プロンプトの理解力が高い: 細かいニュアンスや、物語の段階をプロンプトで伝えることで、その意図を汲み取った画像を生成してくれました。頭に乗る画像はどちらも正面を見て画像としても見栄えも良く、しっかり裏側の意図をくみ取ってくれたいいビジュアルの画像を生成するなと感心しました。
  • 段階的な生成が可能: 自信がつくった画像をしっかり記憶しているので、段階的に生成が出来るのはとても良いなと感じました。最初はゲージあり、途中でゲージ消す、そこから細かい確度や腕の動きを変化させるといった微修正が効きやすいなと感じました。

【少し残念だった点】

  • 画像の差し替えは苦手: 一度生成された画像の特定の要素を、別の画像に差し替えるといった細かい編集は、まだまだスムーズにいかなかった印象です。今後のアップデートに期待したいところです。

AI活用で広がる可能性

今回作成した画像を繋げて最終的にパラパラ漫画(といっていいのかは不明)にしてみました。

これくらいの軽いものであれば、正味30分かからないで作れるお手軽感はGoodだと思います。※動画はimovieで作りました。

あくまで遊び心から始めたものですが、この技術をビジネスに活用すれば、様々な可能性が広がります。

マーケティング分野での活用例

  • 商品のイメージ画像作成: 新商品の発売時に、モデルを起用する代わりにAIで商品のイメージ画像を生成することができそうです。
  • SNSコンテンツの作成: 顧客の興味を引くような、ユニークな画像を短時間で大量に作成できそう。
  • Webサイトやブログのビジュアルコンテンツ: 記事の内容に合わせて、オリジナルのイラストや画像を簡単に作成できます。
  • 広告クリエイティブの自動生成: ターゲット層に合わせて、自動で広告クリエイティブを生成し、効果的な広告運用を実現できると考えられます。

業務効率化にも貢献

  • 資料作成の効率化: プレゼン資料や社内文書に使う画像を、AIで素早く作成できます。
  • デザイン業務のサポート: AIがデザインのアイデアを提供したり、下書きを作成したりすることで、デザイナーの業務負担を軽減できます。

AIの進化とビジネスへの影響

Geminiのような高性能なAIの登場は、ビジネスのあり方を大きく変える可能性を秘めています。特に中小企業にとっては、少ないリソースで大きな成果を出すための強力な武器となり得ます。

TSRコンサルティングでは、AIを活用したデジタルマーケティング支援を積極的に行っています。最新のAIツールを日々試し、どうビジネスの現場に生かせるかを追求していますので、お客様のビジネス課題に合わせて最適なソリューションをご提案いたします。

まとめ

今回は、Geminiの画像編集モデルを使って、愛犬とトカゲの「パラパラ漫画素材」を作成してみました。遊び心から始めた企画でしたが、AIの持つ驚くべき画像生成能力を改めて実感する良い機会となりました。

特に、複数の画像を合成し、物語性のある画像を生成できる能力は、今後のマーケティングやコンテンツ制作において、非常に強力な武器となるでしょう。

「AIってなんだか難しそう…」と感じている方もいらっしゃるかもしれませんが、まずは今回のように、気軽に試してみることから始めてみてはいかがでしょうか?新たな発見や、ビジネスのヒントが見つかるかもしれませんよ。

よくある質問

Geminiの画像編集モデルは、どのような企業におすすめですか?

Webサイトの運営、SNSマーケティング、広告運用など、ビジュアルコンテンツの作成を頻繁に行う企業におすすめです。デザイナーやフォトグラファーの業務負担を軽減し、制作コストを抑えながら高品質なコンテンツを量産できる可能性があります。

AIを使って画像を生成する際の注意点はありますか?

AIが生成した画像には著作権の問題が発生する場合があります。生成した画像の利用規約を事前に確認し、商用利用が可能かどうかを把握しておくことが重要です。また、個人情報や機密情報を含む画像をAIに入力しないよう注意しましょう。

Geminiの画像編集モデルは、無料で利用できますか?

Googleが提供するGeminiは、一部の機能は無料で利用できますが、高性能なモデルや商用利用には有料プランが必要になる場合があります。詳細な料金体系は、Googleの公式サイトでご確認ください。