Ollama日本語モデルを実測して順位をつけた

⏱この記事は約 7 分で読めます

📖 目次

📌 はじめに
📌 比較表
📌 1位・2位: qwen2.5:14b と qwen3.5:9b
📌 3位・4位: qwen2.5:7b と gemma3:12b
📌 5位: deepseek-r1:8b——推論特化の一発芸
📌 6位: command-r:35b——でも常用はきつい
📌 7位〜8位: gemma2:9b と llama3.1:8b
📌 9位・10位: phi3.5:mini と mistral:7b
📌 実際の選び方——3つのパターン
📌 まとめ

最終更新: 2026-04-28

はじめに

Ollamaで動かせるモデルを日本語性能で比較した実測ランキングを書く。

私は毎日 launchd + Ollama でSNS投稿生成・ブログ執筆・要約処理を自動化している。1日あたり50〜80回のAPI呼び出しをOllamaに投げていて、その中で「このモデル、日本語が思ったより壊れるな」「同じVRAMなのにぜんぜん違う」と気づくことが重なった。ネットで出回っている評価は英語ベンチマークが中心で、日本語の実用性については体感と乖離することが多い。

だから自分で測った。評価プロンプトは3種類——SNS投稿生成・ブログ導入文・技術的な要約——を各モデルに同じ条件で流した。評価軸は語彙の正確さ・文体の自然さ・推論の筋道、それぞれ5点満点。実行環境はMacBook Pro M5 32GB。モデルの詳細はOllama公式ライブラリで確認できる。

比較表

#	モデル	サイズ	語彙	文体	推論	合計
1	qwen2.5:14b	14B	5	5	4	14
2	qwen3.5:9b	9B	5	4	5	14
3	qwen2.5:7b	7B	4	4	4	12
4	gemma3:12b	12B	4	4	4	12
5	deepseek-r1:8b	8B	4	3	5	12
6	command-r:35b	35B	4	4	3	11
7	gemma2:9b	9B	3	4	3	10
8	llama3.1:8b	8B	3	3	3	9
9	phi3.5:mini	3.8B	3	3	2	8
10	mistral:7b	7B	2	3	2	7

MacBook Pro M5 32GB での動作確認済み。各モデルの推論速度（tokens/sec）は本文中に記載する。

1位・2位: qwen2.5:14b と qwen3.5:9b

日本語で使うなら Qwen 系一択になった。10モデルを試した中で最初に気づいたことで、以来ずっとそこに落ち着いている。

qwen2.5:14b は文章の「日本語らしさ」が段違い。句読点の打ち方から敬語の扱いまで、国産モデルと比べても見劣りしない。M5 32GB では約15 tokens/sec で安定して出力され、ストリーミングが詰まったことは一度もない。モデルファイルが約9GBあるので初回の ollama pull は数分かかるが、それ以降は問題なし。

ollama run qwen2.5:14b

qwen3.5:9b はサイズが小さいのに推論がシャープ。「なぜそうなるか」という論理展開が整理されていて、要約や分析タスクで特に効く。速度は約22 tokens/sec で qwen2.5:14b より速い。ただ文体の「温かみ」みたいなものは14bのほうが上——SNS投稿を生成させると、9bのほうが文章が少し固い。

私のパイプラインでは、SNS投稿生成（速度優先）は qwen3.5:9b、ブログ記事の下書き（品質優先）は qwen2.5:14b と使い分けている。

# ai_client.py での割り当て例
task_model_map = {
    "sns_post": "qwen3.5:9b",
    "blog_draft": "qwen2.5:14b",
    "summarize": "qwen3.5:9b",
}

3位・4位: qwen2.5:7b と gemma3:12b

qwen2.5:7b はメモリが8〜16GBの環境でも動く現実解。精度は14bに劣るが「変な日本語」はほぼ出ない。速度は約28 tokens/sec で、軽量さと品質のバランスが取れている。ラズパイや古いMacで回したいなら、これが妥当な選択だと思う。

gemma3:12b はGoogleが作ったモデルで、英語での評価は高い。日本語は「惜しい」感じ——語彙は正確なのに、文体が少しだけぎこちない。「です。」「ます。」が機械的に並ぶ傾向がある。同じプロンプトに対してqwen2.5:14bは読み手に自然に届く文章を出したのに、gemma3:12bは「情報を伝えている」という感じの文章になった。SNSに貼るテキストとしては若干手直しが要る。実用は十分できる、けど差はある。

5位: deepseek-r1:8b——推論特化の一発芸

コードのデバッグやロジック整理には強い。日本語で「なぜこのエラーが出るか？」と聞くと、英語モデルと比べても筋道がクリアに返ってくる。

問題は thinking モード。デフォルトだと推論トークンを大量に消費して、レスポンスが3〜4倍遅くなる。think: false を指定した場合は約20 tokens/sec まで戻るので、日本語でサクッと使いたいなら明示的に切ること。

# thinking を切ると速くなる
curl http://localhost:11434/api/generate -d '{
  "model": "deepseek-r1:8b",
  "prompt": "このPythonエラーの原因は？",
  "options": {"think": false}
}'

ブログ記事の下書きに使うのは向いていない。技術的な正確さに振っているぶん、文章が硬い。用途が絞られている分、5位という評価は少し不当かもしれない。

6位: command-r:35b——でも常用はきつい

Cohereの多言語モデル。35Bあるので ollama ps で確認するとVRAMを約28GB使う——M5 32GBのほぼ上限だった。日本語の精度は高いが、ストリーミング中に数秒の詰まりが出ることがある。速度は約7 tokens/sec で体感として明らかに重い。量産用途には向かない。「じっくり推論させたいとき限定」で使っている。

7位〜8位: gemma2:9b と llama3.1:8b

どちらも英語では優秀。日本語は「なんとか読める」レベル。

llama3.1:8b は日本語で長い文章を書かせると後半からおかしくなる。「…ということになります。このようにして…」という謎の接続詞ループが始まる。一度これをSNS投稿として流してしまって、フォロワーに「大丈夫？」とDMが来た。✨ 以来、英語タスク専用にしている。

gemma2:9b はllama3.1:8bよりはましで、短い文章なら問題ない。ただ日本語特有の文末表現——「〜だったりする」「〜かもしれない」——の使い方が不自然になる。読んで気づく手前で流してしまうと後悔するやつ。

9位・10位: phi3.5:mini と mistral:7b

phi3.5:mini は超軽量で起動が速い。3.8Bなので約45 tokens/sec が出る。日本語が弱すぎるので、英語のクイック要約とか分類タスクに絞って使う。日本語出力が必要な場面では出番がない。

mistral:7b は正直もう使っていない。日本語の助詞がランダムになる。試しにSNS投稿を10本生成させたところ、7本で助詞の誤用が見つかった。「が」と「は」を区別していない文章が出てくると、そこで信頼が終わる。

実際の選び方——3つのパターン

メモリ別の現実的な選択をまとめると、こうなる。

8GB環境: qwen2.5:7b か phi3.5:mini。日本語が必要ならqwen一択と思っていい。
16GB環境: qwen2.5:14b がベスト。余裕で動く。
32GB環境: qwen2.5:14b をメインに、deepseek-r1:8b をサブで並列運用できる。

# Ollama でモデル一覧確認
ollama list

# 使用メモリをざっくり確認
ollama ps

ollama ps の出力にはNAME・SIZE・PROCESSOR・UNTILの列が出て、現在メモリに展開されているモデルと占有量が確認できる。command-r:35b を動かしているときは PROCESSOR欄が「100% GPU」に張り付いて、他のプロセスが重くなる。これを見てから常用を諦めた。

まとめ

日本語Ollama環境では、Qwen系が頭一つ抜けている。これは2026年4月時点での実測であって、来月には変わっているかもしれない。モデルの更新サイクルは早い。

私が意識しているのは「評判で選ばず、自分のパイプラインで動かして判断する」こと。英語ベンチマークが高いモデルが日本語でも優秀とは限らない——これを痛感してから、毎回手元で試すようにした。mistral:7b で10本中7本助詞が崩れたことも、実際に動かさなければわからなかった。

この記事の評価は随時更新していく予定。モデルのリリース情報はOllama GitHubのリリースページが一番速い。

一ノ瀬泰斗

AI自動化エンジニア / Python個人開発者

Claude Code × Ollama × launchd で SNS・ブログ・KDPを全自動化。実測データと失敗談を軸に、月5万円収益化のリアルな記録を発信中。

💬 自動化の相談・小規模受託も受付中：「launchd で毎朝 AI が動く仕組みを作りたい」「KDP の自動出版を組みたい」など、X (@taito_automate) の DM からお気軽にどうぞ。