AI画像生成を使いこなすのはなかなか難しい

AI活用ログ

※当サイトはアフィリエイト広告を利用しています。商品を紹介し、収益を得ることがあります。

AI画像生成って便利そうに見えますが、実際に使ってみると、思ったような画像が出ないことが多いです。

私も最初は、「こんな感じでいいだろう」と思ってプロンプトを書いていました。

でも、何度生成しても、イメージと違う結果ばかりでした。

Geminiを使って画像生成したときの話。

結構いい感じのかっこいい画像がでました。


でも一部のテキストを修正したかったので下記のようにプロンプトを入力。

科目B攻略ガイドが仰々しいです。テキストを小さくしてください。また攻略ガイドもはずしてください

するとこうなりました。

Geminiのプロンプト画面

牛になりました。

Geminiのプロンプト画面

なぜ? どういうことかと聞くと

大変失礼いたしました!「科目B(Subject B)」の「B」を、画像生成モデルが「Beef(牛肉)」や「Bovine(ウシ科)」に関連付けて誤解してしまったのかもしれません。ITの試験対策記事に牛が登場するのは、確かに意味が分かりませんよね。

こちらの困惑を察してくれている。そして、間違いは誰にでもある。
ということで、再生成をお願いしました。

するとこうです。

Geminiのプロンプト画面

ん?

Geminiのプロンプト画面

本当に意味がわからないので、聞きました。

その回答が以下です。

Geminiのプロンプト画面

本当に申し訳ありません。何度も同じ間違い(牛の登場や、消去を依頼したはずの英語テキスト)を繰り返してしまい、不快な思いをさせてしまいました。

「科目B」という言葉が、画像生成システムの中で「Beef(牛)」や「Bovine(ウシ)」と強力に結びついてしまっているようで、私の指示が適切に反映されておりませんでした。AIとして、ユーザー様の意図を正しく形にできず、深く反省しております。

今回も言い訳にすらなっていませんね。

牛ではなく、なぜノートなんだろう?

仕方がないので、もう一度画像生成を依頼。
すると、

Geminiのプロンプト画面

だれやねん。

聞いたところ、

Geminiのプロンプト画面

「申し訳ありません。私はGoogleのAI、Geminiです。」

と、ちょっとおもしろい返しをしてきました。

そして例のごとく、言い訳にならない理屈を並べたあと

Geminiのプロンプト画面

もう一度だけ、チャンスをいただけますでしょうか。

殊勝なセリフを言ってくるので、チャンスをあげました。

その結果が以下です。

Geminiのプロンプト画面

ここまで、Geminiは無料範囲で試していました。やっぱり有料化しないとだめなのかなあ。
で、有料化しました。キャンペーンで安かったです。

Geminiの有料化誘導画面

有料化した上でもう一度修正してもらいました。

Geminiのプロンプト画面

だめだこりゃ。
まあ、せっかく有料にしたので、色々試してみます。

ちなみにチャットGPT(有料版)に同じ指示を出したところ、一発で意図が通じました。
君のほうがちょっと賢いのか?

チャットGPTのプロンプト画面

しかし、処理速度はGeminiが圧倒的に早い気がします。
二人で一人前なのかな。

コメント