はじめに
この記事では、Ollama で動かせるモデルを日本語性能で比較した実測ランキングをまとめる。
僕は毎日 launchd + Ollama で SNS 投稿生成・ブログ執筆・要約処理を自動化している。その中で「あれ、このモデルって日本語が思ったより壊れるな」「こっちのほうが同じ VRAM でぜんぜん違う」と気づくことが多くなった。ネットの評価は英語ベースのものが多くて、日本語の実用性についてはあまり情報がない。
なのでここに書く。実際のパイプラインで動かした結果を、忖度なしで。
評価軸は3つ——語彙の正確さ、文体の自然さ、推論の筋道。それぞれ5点満点で採点した。
比較表
| # | モデル | サイズ | 語彙 | 文体 | 推論 | 合計 |
|---|---|---|---|---|---|---|
| 1 | qwen2.5:14b | 14B | 5 | 5 | 4 | 14 |
| 2 | qwen3.5:9b | 9B | 5 | 4 | 5 | 14 |
| 3 | qwen2.5:7b | 7B | 4 | 4 | 4 | 12 |
| 4 | gemma3:12b | 12B | 4 | 4 | 4 | 12 |
| 5 | deepseek-r1:8b | 8B | 4 | 3 | 5 | 12 |
| 6 | command-r:35b | 35B | 4 | 4 | 3 | 11 |
| 7 | gemma2:9b | 9B | 3 | 4 | 3 | 10 |
| 8 | llama3.1:8b | 8B | 3 | 3 | 3 | 9 |
| 9 | phi3.5:mini | 3.8B | 3 | 3 | 2 | 8 |
| 10 | mistral:7b | 7B | 2 | 3 | 2 | 7 |
MacBook Pro M5 32GB での動作確認済み。推論速度は参考値として下記で触れる。
1位・2位: qwen2.5:14b と qwen3.5:9b
ぶっちゃけると、日本語で使うなら Qwen 系一択になった。
qwen2.5:14b は文章の「日本語らしさ」が段違い。句読点の打ち方から敬語の扱いまで、国産モデルと比べても見劣りしない。サイズが 14B あるので M5 32GB でも余裕で動くし、ストリーミングも詰まらない。
ollama run qwen2.5:14b
qwen3.5:9b はサイズが小さいのに推論がシャープ。「なぜそうなるか」という論理展開がきれいで、要約や分析タスクで特に効く。ただ文体の「温かみ」みたいなものは 14b のほうが上。
僕のパイプラインでは、SNS 投稿生成(速度優先)は qwen3.5:9b、ブログ記事の下書き(品質優先)は qwen2.5:14b と使い分けている。
# ai_client.py での割り当て例
task_model_map = {
"sns_post": "qwen3.5:9b",
"blog_draft": "qwen2.5:14b",
"summarize": "qwen3.5:9b",
}
3位・4位: qwen2.5:7b と gemma3:12b
qwen2.5:7b はメモリが 8〜16GB しかない環境でも動く。精度は 14b に劣るが、「変な日本語」はほぼ出ない。ラズパイや古い Mac でも回したいならこれが現実解。
gemma3:12b は Google 製で、英語での評価は高い。日本語は「惜しい」感じ。語彙は正確なのに、文体が少しだけぎこちない。「です。」「ます。」が機械的に並ぶ。実用は十分できるけど、SNS に貼るテキストとしては若干手直しが要る。
5位: deepseek-r1:8b——推論特化の一発芸
コードのデバッグやロジック整理には強い。日本語で「なぜこのエラーが出るか?」と聞くと、英語モデルと比べても筋道がクリアに返ってくる。
ただ文章の「読みやすさ」という点では微妙。技術的な正確さに振っているぶん、ブログ記事の下書きには使いにくい。用途が絞られている分、5位という評価は少し不当かもしれない。
# thinking を切ると速くなる
curl http://localhost:11434/api/generate -d '{
"model": "deepseek-r1:8b",
"prompt": "このPythonエラーの原因は?",
"options": {"think": false}
}'
6位: command-r:35b——でも常用はきつい
Cohere の多言語モデル。35B あるので日本語の精度は高い。でも M5 32GB で動かすとストリーミングがときどき詰まる。量産用途には向かない。たまに「じっくり推論させたい」とき限定で使っている。
7位〜8位: gemma2:9b と llama3.1:8b
どちらも英語では優秀。日本語は「なんとか読める」レベル。
llama3.1:8b は日本語で長い文章を書かせると後半からおかしくなる。「…ということになります。このようにして…」という謎の接続詞ループが始まる。一度これを SNS 投稿として流してしまって、フォロワーに「大丈夫?」とDMが来た。✨ 以来、英語タスク専用にしている。
9位・10位: phi3.5:mini と mistral:7b
phi3.5:mini は超軽量で起動が速い。日本語が弱すぎるので、英語のクイック要約とか、分類タスクに絞って使う。
mistral:7b は正直もう使っていない。日本語の助詞がランダムになる。「が」と「は」を区別していない文章が出てくると、そこで信頼が終わる。
実際の選び方——3つのパターン
メモリ別の現実的な選択をまとめると、こうなる。
8GB 環境: qwen2.5:7b か phi3.5:mini。qwen 一択と思っていい。
16GB 環境: qwen2.5:14b がベスト。余裕で動く。
32GB 環境: qwen2.5:14b をメインに、deepseek-r1:8b をサブで並列運用できる。
# Ollama でモデル一覧確認
ollama list
# 使用メモリをざっくり確認
ollama ps
まとめ
日本語 Ollama 環境では、Qwen 系が頭一つ抜けている。これは 2026 年 4 月時点での実測であって、来月には変わっているかもしれない。モデルの更新サイクルは早い。
僕が意識しているのは「評判で選ばず、自分のパイプラインで動かして判断する」こと。英語ベンチマークが高いモデルが日本語でも優秀とは限らない——これを痛感してから、毎回手元で試すようにした。
この記事の評価は随時更新していく予定。