hermes-agent を Ollama で動かしたら 7B モデルの限界が見えた — セットアップ全手順と 3 つのハマりポイント

「AI エージェントフレームワークを試したいけど、API キーに課金するのはまだ早い」
同じことを考えて hermes-agent を Ollama で動かしてみた結果、動くには動くが、7B モデルだとエージェントとしてはまともに機能しないことが分かった。この記事はそのセットアップ全手順と、ハマった 3 箇所の記録。
結論
- hermes-agent + Ollama でローカル完全無料構成は成立する
- ただし hermes-agent は最低 64K コンテキストを要求する。Ollama 側の
num_ctxも合わせて設定が必要 - qwen2.5-coder:7b(32K コンテキスト)ではツール呼び出しが暴発する。素の会話はできるが、エージェントとしての自律動作は実用に耐えない
- エージェント機能をまともに使うなら、14B 以上のモデルか OpenRouter 等のクラウド API が現実的
前提環境
| 項目 | バージョン |
|---|---|
| OS | macOS Sonoma (Darwin 25.3.0) |
| Python | 3.13.7 (システム) / 3.11.13 (hermes venv) |
| uv | 0.8.17 |
| Ollama | 0.24.0 |
| モデル | qwen2.5-coder:7b (4.7GB, Q4_K_M) |
| hermes-agent | 0.14.0 |
Ollama と uv が既にインストールされている前提で進める。なければ先に brew install ollama と brew install uv で入る。
セットアップ手順
1. hermes-agent のインストール
公式 README のワンライナー:
curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash
ここで最初のハマりポイント。
ハマり 1: curl | bash が失敗する
bash: line 13: [full: command not found
原因は不明だが、パイプ経由だとシェルの解釈がおかしくなるケースがある。
解決策: ファイルに保存してから実行する。
curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh -o /tmp/hermes-install.sh
bash /tmp/hermes-install.sh --skip-setup --skip-browser
--skip-setup はインタラクティブ設定ウィザードをスキップ(後で config.yaml を直接編集する)。--skip-browser は Playwright/Chromium のインストールをスキップ(不要なら省ける)。
インストールが完了すると ~/.hermes/hermes-agent/ にコードが配置され、~/.local/bin/hermes にランチャーが作られる。
source ~/.zshrc # PATH を反映
2. config.yaml を Ollama 向けに編集
~/.hermes/config.yaml を開いて 3 箇所変更する。
model:
default: "qwen2.5-coder:7b" # ← Ollama のモデル名に変更
provider: "custom" # ← "auto" から変更
base_url: "http://127.0.0.1:11434/v1" # ← Ollama のエンドポイント
これだけだと動かない。ここで 2 つ目のハマりポイント。
ハマり 2: 64K コンテキスト制限
ValueError: Model qwen2.5-coder:7b has a context window of 32,768 tokens,
which is below the minimum 64,000 required by Hermes Agent.
hermes-agent はシステムプロンプト + ツール定義 + 会話履歴で大量のコンテキストを消費するため、最低 64K トークンのコンテキスト長を要求する。
qwen2.5-coder:7b のデフォルトは 32K。config.yaml でオーバーライドし、さらに Ollama 側の num_ctx も合わせる必要がある。
model:
default: "qwen2.5-coder:7b"
provider: "custom"
base_url: "http://127.0.0.1:11434/v1"
context_length: 65536 # ← 追加: hermes 側のコンテキスト長
ollama_num_ctx: 65536 # ← 追加: Ollama 側の num_ctx
3. 動作確認
Ollama が起動していることを確認してから:
# Ollama が動いているか確認
curl -s http://127.0.0.1:11434/api/tags | python3 -m json.tool
# hermes でワンショット実行
echo "Hello! What model are you?" | ~/.local/bin/hermes -z -
ここで 3 つ目のハマりポイント。
ハマり 3: 7B モデルのツール呼び出し暴発
hermes-agent は起動時にツール定義(terminal, file, web_search 等 40 種以上)をシステムプロンプトに注入する。7B モデルだと質問に答える代わりにツールを呼ぼうとする。
実際の出力:
{
"name": "terminal",
"arguments": {
"command": "./configure && make"
}
}
「What model are you?」と聞いただけなのに ./configure && make を実行しようとした。
解決策: ツールを無効化して素の会話モードにする。
echo "What is your model name?" | ~/.local/bin/hermes -z - -t ""
-t "" でツールセットを空にすると、素の LLM として応答する:
Sorry, I didn't understand your request. Can you please provide more context
or ask a specific question?
応答の質は高くないが、Ollama → hermes-agent の接続自体は動作している。
何が分かったか
| 観点 | 結果 |
|---|---|
| Ollama 接続 | 動作する。API キー不要、課金ゼロ |
| 素の会話 (ツールなし) | 動作する。応答品質はモデル依存 |
| エージェント機能 (ツールあり) | 7B では実用不可。ツール呼び出しが暴発する |
| セットアップ所要時間 | ハマりポイント込みで約 30 分 |
| ディスク消費 | hermes-agent 本体 + venv で約 500MB、モデルは別途 4.7GB |
どういう人に向いているか
hermes-agent + Ollama が向くケース:
- AI エージェントフレームワークの構造を理解したい(学習目的)
- ローカルで API キーなしに素振りしたい
- 記事やブログのための実験データが欲しい
向かないケース:
- 今すぐエージェント機能を実用したい → OpenRouter 経由で Claude/GPT を使うか、Claude Code を使った方が早い
- 7B モデルでフルスペック動作を期待している → 最低 14B、理想は 70B 以上が必要と思われる
まとめ
hermes-agent は「自己学習する AI エージェント」という面白いコンセプトのフレームワーク。Ollama でローカル完全無料で動かせるが、エージェントとして実用するにはモデルサイズの壁がある。
今回の実験で得た判断基準:
- 素振り・学習・記事ネタ → Ollama + 7B で十分
- エージェント機能をちゃんと使う → OpenRouter + Claude Sonnet / GPT-4o が現実解
- 本気で自律エージェントを運用する → クラウド API + 14B 以上のローカルモデルの併用
Next Step
次に読むならこの導線です
【第12回】夜寝てる間に Claude Code が記事を書き上げる構成 — 月 ¥5K で動く全コード
Claude Codeラボ全12話の集大成。Skills/MCP/サブエージェント/Hooks/リモート運用を統合した「自走する Claude 自動化」を、月 ¥5K の実コストで動かす全構成を公開。寝てる間に競合調査・記事下書き・PR まで自動化する 6 層アーキテクチャの完成版。
次の実験記録も追う
Claude Code × 個人開発の実験ログ、失敗、判断変更をまとめて追いたい人向けに、月次でLab Freeを届けます。
masatoman のメルマガ — 毎週月曜の朝に 1 通
masatoman.net で今週公開した記事の中から 1 本を、読者目線で深掘りした手紙が届きます。「自分も同じことやってる」「ここで詰まってた」が見つかる予告編。
この記事が役に立ったらシェア