こんにちは。
画像生成AIが続々と登場していますが、「結局どれを使えばいいの?」という声をよく聞きます。結論から言うと、「最強」は存在しません。用途で選ぶのが正解です。
今回、Nano Banana 2・Nano Banana Pro・ChatGPT Imagesの3モデルに同一の日本語プロンプトを投げ、合計36枚の画像を生成して比較しました(2026年3月時点)。機能一覧を並べるだけではなく、同じプロンプトで実際どんな差が出るのかを画像つきで見せていきます。
比較条件と評価方法
今回の比較条件は次のとおりです。
- 使用モデル: ChatGPT Images(GPT-5.4、Plusプラン) / Nano Banana 2(Gemini 3.1 Pro、Proプラン) / Nano Banana Pro(Gemini 3.1 Pro、Proプラン)
- プロンプト: 全モデル同一の日本語プロンプトを使用
- 生成回数: 各プロンプトにつき2回ずつ生成(安定性も評価)
- 評価観点: 6つのテストプロンプトで異なる能力を測定
| # | テスト | 何を見るか |
|---|---|---|
| P1 | 英語テキスト描画 | スペル・数字・記号の正確さ |
| P2 | 日本語テキスト描画 | 漢字・ひらがなの崩れ・整合性 |
| P3 | フォトリアリズム | 質感・照明・被写界深度の再現 |
| P4 | イラスト・デザイン | フラットイラストの洗練度 |
| P5 | 指示の忠実度 | 数・色・アングルの正確さ |
| P6 | 複合プロンプト | YAML構造の理解・テキスト4箇所・レイアウト |
テスト結果 — 6つのプロンプトで見えた実力差
P1: 英語テキスト — もう差がつかない時代
1カフェの黒板メニュー。
2チョーク風の手書き文字で「Today's Special: Matcha Latte $5.50」と書かれている。
3背景は濃い緑の黒板、周りにコーヒー豆が散らばっている。1回目



2回目



英語テキストの正確さは、全モデル全回100%でした。スペル、アポストロフィ、ドル記号まで一切ミスなし。英語テキスト描画はもはや差がつかない時代です。
差が出たのはテキスト以外の部分。ChatGPTは正方形フォーマットで黒板をクローズアップしたシンプルな構図ですが、チョークのかすれ感の再現が上手い。Nano Banana Proは横長フォーマットで木枠の黒板を窓辺に置いた構図になり、写真としてのリアルさは最も高い。ただしチョークのかすれ感はChatGPTより薄いです。
Nano Banana 2は1回目に豪華なカフェ背景+装飾的チョークアート、2回目はシンプルな黒板と、出力のブレが大きかった点が気になりました。
P2: 日本語テキスト — 「雑な指示でもいい感じ」vs「余計なことをしない」
1日本の居酒屋の入口にある赤提灯と木の看板。
2看板には筆文字で「炭火焼き鳥 とり平」と書かれている。
3夜の路地裏、暖かい照明。1回目



2回目



「炭火焼き鳥 とり平」の文字自体は3モデルとも読めるレベルで描けています。1年前なら日本語は崩壊していたはずなので、これは大きな進化です。
ただし、明確な差が出ました。ChatGPTは看板1枚+赤提灯1つというシンプルな構図で、余計な文字を一切出しません。指示に忠実ですが、筆文字としてのリアルさがやや弱い(デジタルフォント的な均一感が残る)のと、夜の路地裏の奥行き感は薄いです。
一方、Nano Banana 2/Proは路地裏の雰囲気が圧倒的。石畳、自転車、提灯の列、湯気まで描き込まれ、写真と見紛うレベルです。
ただし「とり平」が看板・暖簾・提灯と3箇所以上に出現してしまう。プロンプトでは1店舗の入口を描いてほしかっただけなのに、「とり平チェーン横丁」になってしまう。この「情報を盛りすぎる傾向」は2回とも再現しました。
P3: フォトリアリズム — 「ボケ感」を守るか、スケール感を取るか
1雨上がりの東京・渋谷スクランブル交差点。
2路面に反射するネオンの光、傘をさす人々、遠くに見える109ビル。
3一眼レフで撮影したような浅い被写界深度。1回目



2回目



3モデルとも実写レベルの画像を出してきますが、アプローチが大きく異なりました。
少しカメラ用語を補足します。「被写界深度」とはピントが合う範囲のこと。「浅い被写界深度」はポートレート写真のように手前だけにピントが合い背景がボケる表現で、「深い被写界深度(パンフォーカス)」は風景写真のように画面全体にピントが合う表現です。プロンプトでは「一眼レフで撮影したような浅い被写界深度」と指示しました。
ChatGPTはこの撮影技法の指示を最も忠実に再現。手前の傘にピントが合い、背景の109ビルが美しくボケるストリートスナップ風の仕上がりです。ただし2回とも縦長フォーマットで出力されました。スクランブル交差点は横長が自然なのに、プロンプトにアスペクト比を明示しなかったためデフォルトの縦長になったようです。
Nano Banana 2/Proは横長フォーマットで広角(広い範囲を写す画角)のパンフォーカス(全体にピントが合った)構図。交差点全体を捉えたドキュメンタリー風で、スケール感は圧巻です。しかしプロンプトで指示した「浅い被写界深度」はほぼ無視されています。
また、STARBUCKS・TSUTAYAなど実在の看板が自然に描かれる一方、指示していない日本語テキスト部分に文字化けが見られました。この問題はP2と共通する横断的な弱点です。
なお、実在ブランドのロゴや看板が描かれるのはリアリティの面では強みですが、商用利用時にはIP(知的財産権)の懸念がある点は注意が必要です。
P4: イラスト — 3モデルとも実用レベル
1SaaSのランディングページ用ヒーローイラスト。フラットデザインで、ノートPCの前に座る女性がダッシュボードを見ている。紫とオレンジのグラデーション背景。ミニマルでモダンな印象。1回目



2回目



このテストが最も差が小さかったですね。3モデルとも「SaaS LPに使える」品質のフラットイラストを出してきます。
安定性ではChatGPTが優秀で、2回とも同じトーンで出力されました。Nano Banana Proの1回目はミニマル+クリーンで最もモダンでしたが、2回目はダーク配色で雰囲気が変わり、Nano Banana 2も生活シーン寄りにブレる場面がありました。差は好みの範囲です。
P5: 指示の忠実度 — ChatGPTが最も正確
1白い大理石のテーブルの上に、赤いリンゴが3個、青いマグカップが1個、黄色い花が5本ある。真上からの俯瞰アングル。自然光、影はやわらかい。1回目



2回目



ここでChatGPTの強さが際立ちます。
ChatGPTはリンゴ3個・青マグ1個・真俯瞰のアングルを2回とも正確に再現しました。花の本数だけ1回目が4本、2回目が5本以上で正確に5本は出せませんでしたが、他のモデルと比べると圧倒的に忠実です。
Nano Banana 2はリンゴの数は2回とも正確(3個)でしたが、アングルが真俯瞰ではなく斜めからになり、指示にないナプキンやスプーンを追加する傾向がありました。「いい感じにスタイリングしてくれる」とも言えますが、忠実度の観点では減点です。
Nano Banana Proが最も苦手としたテスト。1回目はリンゴ2個(指示は3個)、2回目はリンゴ4個。花も散らばりすぎで、数の正確さに明確な課題があります。「いい感じの写真」にはなっているのですが、指示を正確に守る能力ではChatGPTに大きく差をつけられました。
「Nano Banana系の方が全体的に画質がいいんだから、忠実度もNano Bananaが上では?」と思った方もいるかもしれません。しかし「いい感じに仕上げる力」と「指示を正確に守る力」は別の能力です。Nano Banana系は前者が強く、ChatGPTは後者が強い。この違いが用途選びの核になります。
P6: 複合プロンプト — 最大の発見
最後に、サムネイル用のYAML構造プロンプトを投げました。テキスト4箇所、HEXカラー指定、座標値、グラデーション背景、人物フォトリアルの混在という最も複雑なテストです。
1canvas:
2 size: 1600 x 900px
3 background:
4 type: gradient
5 colors: ["#0b132b", "#1e3a8a"]
6 effect: "clean business grid, subtle neon line"
7logo:
8 text: "ai.itokoba.com"
9 position: { x: 40, y: 40 }
10 color: "white"
11 headline_caption:
12 text: "同じプロンプトで検証してみた"
13 font: { family: "Noto Sans JP", size: 30px, weight: 600, color: "#FFFFFF" }
14main_title:
15 text: "画像生成AI 3モデル比較"
16 font: { family: "Noto Sans JP", size: 58px, weight: 800 }
17subtitle:
18 text: "Nano Banana vs ChatGPT"
19 font: { family: "Noto Sans JP", size: 44px, weight: 700, color: "#FFFFFF" }
20 apply_button:
21 text: "2025年最新版"
22 background: { gradient: { from: "#14b8a6", to: "#0ea5e9" } }
23person:
24 description: "30代日本人女性、ノートPCを見ながら微笑んでいる、自然光"
25 position: right_center
26 style: "realistic, natural light, editorial thumbnail style"1回目



2回目



ここで最大の発見がありました。
ChatGPTはレイアウトの大枠(左テキスト/右人物の分割配置)はなんとなく再現しましたが、テキスト描画が崩壊。文字の見切れ、文字化け、字形崩れが目立ちます。
また、YAML内の座標指定(x:40, y:250等)に対して要素の位置が正確に反映されておらず、構造の理解自体も甘いと言わざるを得ません。
Nano Banana 2は今回のテストではテキスト全箇所正確で、レイアウトも忠実。1回目は人物のバランスも良く、そのままサムネイルとして使えるレベルでした。
Nano Banana Proは、YAMLに書かれた座標値やフォント指定(Noto Sans JP, size 44px等)がそのまま画像内にラベルとして描画されてしまいました。
ただしこれはProだけの問題ではなく、経験上Nano Banana 2でも同様のラベル出力が発生することがあります。
今回たまたま2がクリーンに出ただけで、2がProより構造理解に優れているとは言い切れません。いずれにせよ、「各種キーや座標情報は成果物の画像には表示しないでください」と禁止事項を追加すれば改善されるので、プロンプト設計で対処できる問題です。
比較まとめ表
| 観点 | ChatGPT | Nano Banana 2 | Nano Banana Pro |
|---|---|---|---|
| 英語テキスト | ◎ | ◎ | ◎ |
| 日本語テキスト | ○ | ○ | ○ |
| 構図・演出力 | △ | ◎ | ◎ |
| リアリズム | ◎ | ◎ | ◎ |
| イラスト | ◎ | ○ | ◎ |
| 忠実度 | ◎ | ○ | △ |
| 複合プロンプト | △ | ○ | ○ |
| 指示外テキスト | ◎ | △ | △ |
| 安定性 | ◎ | △ | ○ |
| 総合 | 忠実だが演出が弱い | 演出力◎だが不安定 | 質感◎、追加指示で真価発揮 |
用途別おすすめ
比較結果を踏まえた、用途別のおすすめは次のとおりです。
- ブログ・SNS画像 → Nano Banana Pro。リアリティと質感のバランスが良く、雑なプロンプトでもいい感じに仕上げてくれます
- EC・商品画像(数量やアングルの正確さが最優先の場合) → ChatGPT。P5で示したように、要素の数やアングル指示への忠実度は最も高い
- LP・マーケティング素材 → Nano Banana Pro。イラストのミニマルさとモダン感が強み
- テキスト入りのサムネイル・バナー → Nano Banana系(2/Proどちらでも)。テキスト描画の品質はChatGPTより高い。ただし構造ラベルが混入することがあるので、禁止事項の追加指示を併用するのがおすすめ
ちなみに生成速度自体は3モデルに大きな差はありませんが、ダウンロード速度はChatGPTの方が圧倒的に速いです。Gemini(Nano Banana)は右上のダウンロードボタンよりも、3点リーダーから表示されるダウンロードボタン(下画像参照)の方が数倍速かったりするので、工夫次第な面もあります。総合して取り回し(UI・ダウンロード速度)はChatGPTにやや軍配です。

Nano Banana 2とProの差は?
「Proの方が品質においては上位モデルだから良いはず」と思っていたのですが、今回の比較においてはそこまで差を感じませんでした。P6(複合プロンプト)では今回Nano Banana 2の方がクリーンに出力されましたが、2でもラベルが出ることはあるので、モデルの優劣というよりは生成ごとのブレの範囲です。
僕は説明的で文章を含む画像を作ることが多いので、まずNano Banana 2で生成して、微妙ならNano Banana Proで再生成するというワークフローに落ち着いています。
まとめ
というわけで、Nano Banana 2/ProとChatGPT Imagesを同じプロンプトで比較しました。
好みで言えば僕はNano Banana系です。ChatGPTは指示には忠実ですが、文字が崩れやすいのと指示外の出力が弱く、総合して1〜2段階劣る印象でした。ただし、数やアングルの正確さが求められる用途ではChatGPTの忠実度は頼りになります。
もう一つ大事なことがあります。ChatGPTも意外と文字を生成できるようになっていますが、日本語はまだ厳しい。そしてNano Banana系も指示外の日本語は崩れていました。
どのモデルを使うにしてもプロンプトを細かく設計して追加指示で制御するのが現時点でのベストプラクティスです。
「最強の画像生成AI」は存在しません。自分の用途に合ったモデルを選んで、プロンプトを磨いていきましょう。
こちらもあわせてご覧ください。

