
GPT-4oとGeminiで同じプロンプトを試したら差がありすぎた【画像生成比較】
KDP表紙を量産していたとき、ふと気になった。「同じプロンプトをGPT-4oとGeminiに投げたら、どれくらい違うんだろう」と。YouTubeサムネも兼ねて使えるか検証したかったのもある。実験というより、仕事に使えるか確かめたかっただけ——結果として、差がありすぎて笑った。
比較テスト① KDP表紙・YouTubeサムネ
プロンプトはこう。英語で渡した。「Professional book cover for Japanese Kindle, featuring a robot and a person working at a laptop, Japanese text: “AI自動化で月5万円” as large title text, benefit list in Japanese showing 4 key points, dark tech background, futuristic style」
GPT-4oが返してきた画像、正直驚いた。ロボットと人物がちゃんと配置されていて、日本語テキストがほぼ正確に入っていた。「AI自動化で月5万円」の文字が崩れていない。ベネフィット4項目も、プロンプトに書いてないのに「なんとなく補完」して箇条書き風に配置してくれた。KDPにそのまま使えるか、と言われたら「あと微調整で行ける」レベル。
Geminiは違う方向に振れた。テキストをデザインの主役に据えてくる。タイポグラフィが洗練されていて、フォントの使い方やレイアウトはむしろGPT-4oより好みだった。ただ人物がぼんやりしている。写実的に人を描かせると、顔の輪郭が溶けたり、手が6本になったりする。ロボットも「それっぽい何か」になりやすい。
KDP表紙として採点すると、GPT-4oが80点、Geminiが55点くらいの感覚。Geminiのタイポグラフィ系のクオリティは高いので、文字を主役にする表紙なら逆転する場面もある。でも人物・物体を正確に描かせるとなると、今の時点ではGPT-4oの方が安定している。
YouTubeサムネとして使うなら、GPT-4oの方が「即使える」確率が高い。インパクトのある人物+テキスト構成がプロンプト通りに出てくる。Geminiはグラフィックデザイン系、ポスター系のサムネに向いている印象だった。
比較テスト② 写実的な猫のコーディング画像
私はシステムのマスコットに猫を使っているので、「コーディングしている猫」という画像を両方に生成させた。プロンプトは「photorealistic orange tabby cat sitting at a mechanical keyboard, coding on a dark terminal screen, warm studio lighting, shallow depth of field, cinematic quality」。
GPT-4oが出してきたのは、映画のワンカットみたいな写真だった。茶トラの毛並みがちゃんと表現されていて、キーボードも実在しそうなディテール。ターミナルの画面に緑のコードが映り込んでいる。「これ本当にAIが生成したの?」という反応を周囲からもらった。プロンプトに書いたことが、ほぼそのまま出てくる。
Geminiは……グラフィックイラスト寄りになった。写実的というより、デジタルペインティング。悪くはないけど、プロンプトで「photorealistic」と指定したのに絵画調で返してくるのは、意図との乖離がある。テキストが入った画像ではなく、純粋な写実描写を求めるとGPT-4oとの差が開く。
数値で採点もした。解像感・プロンプト再現度・実用度・クオリティ感の4軸で採点して、総合スコアはGPT-4oが46、Geminiが22。倍以上の差。写実系はGPT-4oが圧勝、という結論になった。
使い分け、こう決めた
実際に試した結果、私はこう使い分けている。
- 写実的な人物・動物・物体が主役の画像 → GPT-4o
- KDP表紙で人物を出したい → GPT-4o
- タイポグラフィ重視・テキストデザイン系のサムネ → Gemini
- ポスター風・グラフィックデザイン風のバナー → Gemini
- 日本語テキストを正確に入れたい → GPT-4oの方が精度高め
Geminiが弱いわけではなくて、得意な土俵が違う。テキストをデザインの要素として扱う場合、Geminiは「文字の配置センス」がある。一方でGPT-4oは「プロンプトを忠実に実行する力」が強い。自動化パイプラインに組み込む場合、期待通りの出力が安定して欲しいならGPT-4oを選ぶ。
コスト面では、Geminiの方が生成コストが安い場面もある。量産するなら、用途でフィルタリングして使い分けるのが現実的だと思っている。
締め
この実験、当初は「どっちも似たようなもんだろう」と思って始めた。壊れた——というか、想像より差があって逆に面白かった。特に猫の写実画像の採点結果を見たとき、「これは使い分けないともったいない」と確信した。
実際に自動化パイプラインで使っているプロンプトの構成や、サムネ生成スクリプトの実装は有料記事にまとめている。「英語プロンプトをどう組めばKDP表紙に使えるか」「Geminiで文字崩れを防ぐコツ」あたりも書いた。気になる人は見てみてほしい✨