hermes-agent を Ollama で動かしたら 7B モデルの限界が見えた — セットアップ全手順と 3 つのハマりポイント

「AI エージェントフレームワークを試したいけど、API キーに課金するのはまだ早い」

同じことを考えて hermes-agent を Ollama で動かしてみた結果、動くには動くが、7B モデルだとエージェントとしてはまともに機能しないことが分かった。この記事はそのセットアップ全手順と、ハマった 3 箇所の記録。

結論

hermes-agent + Ollama でローカル完全無料構成は成立する
ただし hermes-agent は最低 64K コンテキストを要求する。Ollama 側の num_ctx も合わせて設定が必要
qwen2.5-coder:7b（32K コンテキスト）ではツール呼び出しが暴発する。素の会話はできるが、エージェントとしての自律動作は実用に耐えない
エージェント機能をまともに使うなら、14B 以上のモデルか OpenRouter 等のクラウド API が現実的

前提環境

項目	バージョン
OS	macOS Sonoma (Darwin 25.3.0)
Python	3.13.7 (システム) / 3.11.13 (hermes venv)
uv	0.8.17
Ollama	0.24.0
モデル	qwen2.5-coder:7b (4.7GB, Q4_K_M)
hermes-agent	0.14.0

Ollama と uv が既にインストールされている前提で進める。なければ先に brew install ollama と brew install uv で入る。

セットアップ手順

1. hermes-agent のインストール

公式 README のワンライナー:

curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash

ここで最初のハマりポイント。

ハマり 1: `curl | bash` が失敗する

bash: line 13: [full: command not found

原因は不明だが、パイプ経由だとシェルの解釈がおかしくなるケースがある。

解決策: ファイルに保存してから実行する。

curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh -o /tmp/hermes-install.sh
bash /tmp/hermes-install.sh --skip-setup --skip-browser

--skip-setup はインタラクティブ設定ウィザードをスキップ（後で config.yaml を直接編集する）。--skip-browser は Playwright/Chromium のインストールをスキップ（不要なら省ける）。

インストールが完了すると ~/.hermes/hermes-agent/ にコードが配置され、~/.local/bin/hermes にランチャーが作られる。

source ~/.zshrc  # PATH を反映

2. config.yaml を Ollama 向けに編集

~/.hermes/config.yaml を開いて 3 箇所変更する。

model:
  default: "qwen2.5-coder:7b"   # ← Ollama のモデル名に変更
  provider: "custom"              # ← "auto" から変更
  base_url: "http://127.0.0.1:11434/v1"  # ← Ollama のエンドポイント

これだけだと動かない。ここで 2 つ目のハマりポイント。

ハマり 2: 64K コンテキスト制限

ValueError: Model qwen2.5-coder:7b has a context window of 32,768 tokens,
which is below the minimum 64,000 required by Hermes Agent.

hermes-agent はシステムプロンプト + ツール定義 + 会話履歴で大量のコンテキストを消費するため、最低 64K トークンのコンテキスト長を要求する。

qwen2.5-coder:7b のデフォルトは 32K。config.yaml でオーバーライドし、さらに Ollama 側の num_ctx も合わせる必要がある。

model:
  default: "qwen2.5-coder:7b"
  provider: "custom"
  base_url: "http://127.0.0.1:11434/v1"
  context_length: 65536      # ← 追加: hermes 側のコンテキスト長
  ollama_num_ctx: 65536      # ← 追加: Ollama 側の num_ctx

3. 動作確認

Ollama が起動していることを確認してから:

# Ollama が動いているか確認
curl -s http://127.0.0.1:11434/api/tags | python3 -m json.tool

# hermes でワンショット実行
echo "Hello! What model are you?" | ~/.local/bin/hermes -z -

ここで 3 つ目のハマりポイント。

ハマり 3: 7B モデルのツール呼び出し暴発

hermes-agent は起動時にツール定義（terminal, file, web_search 等 40 種以上）をシステムプロンプトに注入する。7B モデルだと質問に答える代わりにツールを呼ぼうとする。

実際の出力:

{
  "name": "terminal",
  "arguments": {
    "command": "./configure && make"
  }
}

「What model are you?」と聞いただけなのに ./configure && make を実行しようとした。

解決策: ツールを無効化して素の会話モードにする。

echo "What is your model name?" | ~/.local/bin/hermes -z - -t ""

-t "" でツールセットを空にすると、素の LLM として応答する:

Sorry, I didn't understand your request. Can you please provide more context
or ask a specific question?

応答の質は高くないが、Ollama → hermes-agent の接続自体は動作している。

何が分かったか

観点	結果
Ollama 接続	動作する。API キー不要、課金ゼロ
素の会話 (ツールなし)	動作する。応答品質はモデル依存
エージェント機能 (ツールあり)	7B では実用不可。ツール呼び出しが暴発する
セットアップ所要時間	ハマりポイント込みで約 30 分
ディスク消費	hermes-agent 本体 + venv で約 500MB、モデルは別途 4.7GB

どういう人に向いているか

hermes-agent + Ollama が向くケース:

AI エージェントフレームワークの構造を理解したい（学習目的）
ローカルで API キーなしに素振りしたい
記事やブログのための実験データが欲しい

向かないケース:

今すぐエージェント機能を実用したい → OpenRouter 経由で Claude/GPT を使うか、Claude Code を使った方が早い
7B モデルでフルスペック動作を期待している → 最低 14B、理想は 70B 以上が必要と思われる

まとめ

hermes-agent は「自己学習する AI エージェント」という面白いコンセプトのフレームワーク。Ollama でローカル完全無料で動かせるが、エージェントとして実用するにはモデルサイズの壁がある。

今回の実験で得た判断基準:

素振り・学習・記事ネタ → Ollama + 7B で十分
エージェント機能をちゃんと使う → OpenRouter + Claude Sonnet / GPT-4o が現実解
本気で自律エージェントを運用する → クラウド API + 14B 以上のローカルモデルの併用