GPT-4oとGeminiで同じプロンプトを試したら差がありすぎた【画像生成比較】

⏱この記事は約 4 分で読めます

📖 目次

📌 比較テスト① KDP表紙・YouTubeサムネ
📌 比較テスト② 写実的な猫のコーディング画像
📌 使い分け、こう決めた
📌 締め

KDP表紙を量産していたとき、ふと気になった。「同じプロンプトをGPT-4oとGeminiに投げたら、どれくらい違うんだろう」と。YouTubeサムネも兼ねて使えるか検証したかったのもある。実験というより、仕事に使えるか確かめたかっただけ——結果として、差がありすぎて笑った。

比較テスト① KDP表紙・YouTubeサムネ

プロンプトはこう。英語で渡した。「Professional book cover for Japanese Kindle, featuring a robot and a person working at a laptop, Japanese text: “AI自動化で月5万円” as large title text, benefit list in Japanese showing 4 key points, dark tech background, futuristic style」

GPT-4oが返してきた画像、正直驚いた。ロボットと人物がちゃんと配置されていて、日本語テキストがほぼ正確に入っていた。「AI自動化で月5万円」の文字が崩れていない。ベネフィット4項目も、プロンプトに書いてないのに「なんとなく補完」して箇条書き風に配置してくれた。KDPにそのまま使えるか、と言われたら「あと微調整で行ける」レベル。

Geminiは違う方向に振れた。テキストをデザインの主役に据えてくる。タイポグラフィが洗練されていて、フォントの使い方やレイアウトはむしろGPT-4oより好みだった。ただ人物がぼんやりしている。写実的に人を描かせると、顔の輪郭が溶けたり、手が6本になったりする。ロボットも「それっぽい何か」になりやすい。

KDP表紙として採点すると、GPT-4oが80点、Geminiが55点くらいの感覚。Geminiのタイポグラフィ系のクオリティは高いので、文字を主役にする表紙なら逆転する場面もある。でも人物・物体を正確に描かせるとなると、今の時点ではGPT-4oの方が安定している。

YouTubeサムネとして使うなら、GPT-4oの方が「即使える」確率が高い。インパクトのある人物+テキスト構成がプロンプト通りに出てくる。Geminiはグラフィックデザイン系、ポスター系のサムネに向いている印象だった。

比較テスト② 写実的な猫のコーディング画像

私はシステムのマスコットに猫を使っているので、「コーディングしている猫」という画像を両方に生成させた。プロンプトは「photorealistic orange tabby cat sitting at a mechanical keyboard, coding on a dark terminal screen, warm studio lighting, shallow depth of field, cinematic quality」。

GPT-4oが出してきたのは、映画のワンカットみたいな写真だった。茶トラの毛並みがちゃんと表現されていて、キーボードも実在しそうなディテール。ターミナルの画面に緑のコードが映り込んでいる。「これ本当にAIが生成したの？」という反応を周囲からもらった。プロンプトに書いたことが、ほぼそのまま出てくる。

Geminiは……グラフィックイラスト寄りになった。写実的というより、デジタルペインティング。悪くはないけど、プロンプトで「photorealistic」と指定したのに絵画調で返してくるのは、意図との乖離がある。テキストが入った画像ではなく、純粋な写実描写を求めるとGPT-4oとの差が開く。

数値で採点もした。解像感・プロンプト再現度・実用度・クオリティ感の4軸で採点して、総合スコアはGPT-4oが46、Geminiが22。倍以上の差。写実系はGPT-4oが圧勝、という結論になった。

使い分け、こう決めた

実際に試した結果、私はこう使い分けている。

写実的な人物・動物・物体が主役の画像 → GPT-4o
KDP表紙で人物を出したい → GPT-4o
タイポグラフィ重視・テキストデザイン系のサムネ → Gemini
ポスター風・グラフィックデザイン風のバナー → Gemini
日本語テキストを正確に入れたい → GPT-4oの方が精度高め

Geminiが弱いわけではなくて、得意な土俵が違う。テキストをデザインの要素として扱う場合、Geminiは「文字の配置センス」がある。一方でGPT-4oは「プロンプトを忠実に実行する力」が強い。自動化パイプラインに組み込む場合、期待通りの出力が安定して欲しいならGPT-4oを選ぶ。

コスト面では、Geminiの方が生成コストが安い場面もある。量産するなら、用途でフィルタリングして使い分けるのが現実的だと思っている。

締め

この実験、当初は「どっちも似たようなもんだろう」と思って始めた。壊れた——というか、想像より差があって逆に面白かった。特に猫の写実画像の採点結果を見たとき、「これは使い分けないともったいない」と確信した。

実際に自動化パイプラインで使っているプロンプトの構成や、サムネ生成スクリプトの実装は有料記事にまとめている。「英語プロンプトをどう組めばKDP表紙に使えるか」「Geminiで文字崩れを防ぐコツ」あたりも書いた。気になる人は見てみてほしい✨

AI自動化 #生成AI #ChatGPT #Python #個人開発

👨‍💻

一ノ瀬泰斗

AI自動化エンジニア / Python個人開発者

Claude Code × Ollama × launchd で SNS・ブログ・KDPを全自動化。実測データと失敗談を軸に、月5万円収益化のリアルな記録を発信中。