複数Claude Maxアカウントのリソース振り分け機能

Question 1

Phase 0で実測する前にコードを書くのは手戻りリスクがある。Phase 0の最初のステップとして「2アカウント並行でrate limit粒度を確認するスクリプト」を書いて実測結果を得てから実装に進むべきでは？

Answer

判断: 同意。Phase 0を「Step 0: 実測検証」と「Step 1: 実装」の2段階に分割する。

指摘のとおり、rate limitがIP/組織単位だった場合、account_pool.py 全体が無意味になる。コードを書く前に粒度を確認すべき。

具体的な検証スクリプト:

2アカウント（account-a, account-b）で同時に claude -p "hello" --output-format stream-json を実行
一方を意図的にrate limitに到達させた後、もう一方が制限なく動作するかを確認
rate_limit_event の rateLimitType/utilization を両アカウントで比較
/tmp/claude-{UID}/ の共有による干渉がないかを検証
検証結果を logs/rate_limit_granularity_test.json に記録

判定基準:

アカウント単位 → Step 1に進む
IP単位 → 本設計は凍結。IPローテーション等の代替策を別途検討
混合（アカウント+IP）→ 効果は限定的だがStep 1に進む（部分的改善）

Question 2

asyncio環境で同時にacquire()が呼ばれた場合の競合。asyncio.Lockの使用可否、またはin-memory dictのアトミック性について設計判断を明示すべき。

Answer

判断: asyncio.Lockを使用する。

asyncio はシングルスレッドだが、acquire() → release() の間に await がある場合（=subprocess実行中）、別のコルーチンが acquire() を呼ぶ可能性がある。

正確に言うと、acquire() と release() それぞれは同期関数で await を含まないため、単独の呼び出しはアトミック。しかし acquire() 内の「スコア計算 → active_count += 1」が途中で割り込まれる可能性を構造的に排除するため、asyncio.Lock で保護する。

既存の ProcessRegistry は threading.Lock を使っている（スレッドセーフ）。AccountPool は asyncio 環境でのみ使われるため asyncio.Lock が適切。

Question 3

kill -9やbot再起動でrelease()がスキップされると全アカウントのactive_countが永続ファイルに残る。再起動時の具体的な補正ロジックが設計に含まれていない。

Answer

判断: 指摘は正しい。active_countを永続化しない設計に変更する。

そもそも active_count は「現在実行中のプロセス数」であり、再起動後に意味を持たない。永続化すべきは cooldown_until（時刻ベースなので再起動後もTTLで自然消滅）のみ。

補正ロジック:

起動時: rate_limit_status.json から cooldown_until を復元。active_count は全アカウント 0 で初期化し、ProcessRegistryの実行中プロセスを列挙して各アカウントの active_count を再計算
実行中の不整合: try/finally で release() を保証（既存設計どおり）。kill -9 の場合はプロセス消滅 → 次の acquire() 時に ProcessRegistry の実行中PIDと突き合わせて active_count を補正
定期補正: persist() 呼び出し時に ProcessRegistry.active_pids() と照合し、存在しないプロセスの active_count を減算

リスク表を「低」→「中」に引き上げる。

Question 4

アカウント切替時に--resumeが使えないことのコスト（トークン再消費、セッション切断）は何パーセントのオーバーヘッド？ 3アカウント運用で本当にネット利益が出るかの試算はあるか？

Answer

判断: 定量試算は現時点では不可能だが、構造的にネット利益が出る根拠がある。

--resumeが失われるケース: rate limit発生時のリトライ（別アカウントでone-shot実行）のみ。通常のタスク実行では同一アカウント・同一セッションで --resume が維持される。

コスト構造:

--resume喪失のコスト: CLAUDE.md + knowledge/ の再読込（1回あたり数千トークン）。ただしMax Planはトークン課金ではなく月額固定のため、金銭コストは0
rate limitのコスト: 全エージェント停止 × 待機時間（現状5分〜30分）。この間の人的待機コストがはるかに大きい
ネット利益の構造: rate limit発生頻度 × 停止時間の削減 >> resume喪失 × 再読込時間

Max Planの特性: トークン従量課金ではないため、--resume喪失による「トークン再消費」は財務コストに影響しない。影響するのは実行時間のみ（CLAUDE.md再読込で数秒〜十数秒）。

Phase 0 Step 0の実測で rate limit 頻度を定量化し、その結果で費用対効果を再評価する。

Question 5

全アカウント制限中の場合、最も早くcooldown_untilが解除されるアカウントまで待つロジックを入れるべきでは？

Answer

判断: 同意。acquire()にwaitオプションを追加する。

現設計では全アカウント制限時に None を返し、既存の RateLimitError → タスクリトライに委ねている。しかしタスクリトライは exponential backoff（30s→60s→120s）で固定の待機時間を使うため、クールダウン解除タイミングと合わない。

追加するロジック:

acquire(wait=True): 全アカウント制限中なら、最短の cooldown_until まで asyncio.sleep で待機してからリトライ
待機上限: pool_cooldown_max（30分）。超えた場合は None を返す
acquire(wait=False)（デフォルト）: 現行どおり即座に None を返す

rate limitリトライ時（別アカウント取得の場面）では wait=True を使い、最短復帰を待つ。

Question 6

均等分散の目的が「rate limit回避」ならactive_countだけで十分。total_runsは「トークン消費量」を反映しない。均等分散の目的はrate limit回避かコスト均等化か？

Answer

判断: total_runsをスコアリングから除外する。

指摘のとおり、目的は「rate limit回避」。total_runsで均等化しても、rate limit はリクエスト数ではなく利用率（5時間ウィンドウのトークン消費量）で計算されるため、均等化に寄与しない。

変更後のスコアリング:

クールダウン中 → float('inf')
通常 → active_count
同スコア時 → アカウント名の辞書順（決定論的な破壊）

total_runs フィールド自体を削除する。rate limit はトークン消費量ベースで計算されるため、実行回数を記録しても意味がない。

Question 7

「5分で十分に回復する実績あり」の根拠は何件のサンプルか？ Phase 0の実測データで調整する仕組みはあるか？

Answer

判断: 5分はデフォルトフォールバック値であり、CLI提供値を優先する設計に明確化する。

「実績」は正確ではなかった。Claude Maxの rate limit は「5時間ウィンドウ」で管理されているため、5分待てば利用率が多少下がるという推論に基づく。厳密なサンプル数に基づく根拠ではない。

クールダウン値の決定ロジック（優先順）:

rate_limit_info.retry_after（CLIが明示的に返す待機秒数）
rate_limit_info.resetsAt（リセット時刻から算出）
フォールバック: 300秒（5分）— CLI が値を返さなかった場合のみ使用

Phase 0での調整: Step 0の実測で実際のrate limit情報（retry_after, resetsAt）がどの程度返されるかを確認。返却率が高ければフォールバックは滅多に使われない。返却率が低ければフォールバック値を実測値に基づき調整する。

pool_cooldown_seconds は設定値（.env）で変更可能なので、運用中も調整可能。

Question 8

アカウントプールは「botの機能」というよりも「インフラ/リソース管理」の責務。bot/ 配下に置くのは責務の混在にならないか？

Answer

判断: bot/ に配置する。理由は3つ。

利用者が bot/ に閉じている: AccountPool を使うのは bot/claude_runner.py のみ。他のパッケージ（ops/, agents/）からは参照されない。利用者と同じパッケージに置くのが自然
既存の類似モジュールが bot/ にある: bot/process_registry.py（プロセス管理）、bot/task_tracker.py（タスク管理）はいずれも「インフラ/リソース管理」の責務だが bot/ に配置されている。account_pool も同じカテゴリ
新しいディレクトリを作る理由がない: infra/ や lib/ を切り出すほどのモジュール数がない（1ファイル）。一人法人のプロジェクトで過度なディレクトリ分割は保守コストが増える

将来 AI Ops がリソース管理を統括する段階になれば、agents/ai-ops/ 配下への移動を検討する。現時点では YAGNI。

Question 9

bot/account_pool.pyの1ファイルのみと理解している。「なぜ既存ファイルへの追記ではなくファイル分離なのか」を明示してほしい。

Answer

判断: ファイル分離が正しい。理由は以下。

claude_runner.py は既に690行: セッション管理、ストリームパース、rate limit検知、watchdog、認証リフレッシュと責務が多い。ここにアカウントプール管理（データモデル + スコアリング + 永続化 + 補正ロジック）を追加すると800行を超え、可読性が著しく低下する
テスタビリティ: AccountPool は状態を持つクラスで、単体テストが容易。claude_runner.py 内にベタ書きするとsubprocess実行と結合してテストが困難になる
責務の明確さ: 「どのアカウントを使うか」（account_pool.py）と「CLIをどう実行するか」（claude_runner.py）は異なる責務。claude_runner.py はアカウント選択の詳細を知らず、acquire/release だけ呼ぶ

config.py への追記（+6行）は既存ファイルへの追記。新規ファイルは account_pool.py の1本のみ。

Question 10

runner.pyに直接組み込む「直列挟み込み方式」と、独立プロセスとして横から監視する「サイドカー方式」の比較。AI Opsとの責務分離が曖昧にならないか？

Answer

判断: 直列挟み込み方式を採用する。サイドカー方式は現時点では過剰。

サイドカー方式の問題点:

プロセス間通信が必要: アカウント割当をCLI起動前に完了させるにはIPC（ソケット/ファイルロック/メッセージキュー）が必要。単一プロセス内の関数呼び出しに比べて複雑さが桁違い
レイテンシ: CLI起動のたびにサイドカーとの通信往復が入る。rate limitリトライ時のレスポンスが遅くなる
障害点の増加: サイドカープロセスが落ちると全CLI実行が止まる。bot.py単体で完結する現設計より耐障害性が低い

AI Opsとの責務分離:

AccountPool は「アカウントの割当/解放」（実行時の制御）
AI Ops Monitor は「pool_status.json の監視と通知」（事後の監視）
制御と監視は別の責務であり、同じファイルを読み書きしても責務は分離されている。これは既存の rate_limit_status.json（runner が書込み、AI Ops が読取）と同じパターン

DAG並行実行アーキテクチャ（Issue #139）で bot.py が DAG Scheduler 化する段階で、リソース管理をScheduler内の独立モジュールとして再配置する可能性はある。しかしそれは Phase 0 のスコープ外。

Question 11

2つのJSONに分散させるとAI Opsが状態を把握するときに2ファイルを突き合わせる必要が出る。1つのファイルに統合する案と比較して、分離する判断の根拠を聞きたい。

Answer

判断: rate_limit_status.json に統合する。

指摘のとおり、アカウント別のcooldown状態と全体のrate limitイベントは密接に関連しており、分散させるメリットがない。

統合後の rate_limit_status.json 構造:

{
  "cooldown_until": null,         // 既存: 全体のクールダウン（単一アカウント時の後方互換）
  "last_event": { ... },          // 既存: 最後のrate limitイベント
  "history": [ ... ],             // 既存: イベント履歴（24h TTL）
  "accounts": [                   // 新規: アカウント別の状態（active_countはメモリのみ）
    {
      "name": "account-a",
      "cooldown_until": null,
      "last_rate_limit": null
    }
  ],
  "updated_at": 1743984001.0
}

単一アカウント運用時は accounts が空配列 → 既存の cooldown_until / history のみで動作（後方互換）
AI Ops は1ファイルだけ読めばrate limit全体の状態を把握できる
既存の _write_rate_limit_status() を拡張して accounts を書き出す

Question 12

本来の目的は「rate limit時に別アカウントに切り替えられること」であって「均等に使うこと」ではないはず。均等利用を目指すとスコアリングの複雑さが増す。

Answer

判断: 同意。「均等利用」を完了条件から削除する。

目的は rate limit 回避であり、均等分散はそのための手段の一つに過ぎない。active_count ベースのスコアリングは「負荷が偏りすぎない」程度の効果があれば十分で、厳密な均等化は不要。

更新後の完了条件:

rate limit がアカウント単位で有効かどうかの実測データが得られる（Step 0）
rate limit 発生時に別アカウントへの切替が動作する（Step 1）
単一アカウント設定（CLAUDE_ACCOUNTS 未設定）でも既存動作に影響なし（Step 1）

「3アカウントが均等に使用されている」は削除。total_runs の差が多少あっても、rate limit 回避機能が動作すればPhase 0は達成。

条件	スコア	説明
クールダウン中	`(float('inf'), name)`	rate limit中のアカウントは選択されない
通常	`(active_count, name)`	実行中プロセスが少ないアカウントを優先

ステップ	処理	担当
1	Claude CLI が `rate_limit_event` を出力	Claude CLI
2	既存パースロジックで `rate_limited=True` を検知	claude_runner.py（既存）
3	`pool.mark_rate_limited(name, wait_seconds)` でクールダウン設定	claude_runner.py（追加）
4	`pool.release(name)` で現アカウントを解放	claude_runner.py（追加）
5	`pool.acquire(exclude=name, wait=True)` で別アカウントを取得	claude_runner.py（追加）
6a	別アカウント取得成功 → `_run_claude_inner()` を再帰呼出	claude_runner.py（追加）
6b	全アカウント制限中 → 最短復帰まで待機後リトライ。上限超過時は `RateLimitError` 送出	claude_runner.py（追加）

パラメータ	値	根拠
クールダウン値の決定（優先順）	1. `retry_after`（CLI提供） 2. `resetsAt`（CLI提供、時刻から算出） 3. フォールバック: 300秒（5分）	CLI が待機秒数を返す場合はそれを信頼する。返さない場合のみフォールバック（レビュー⑦反映）
クールダウン上限	1800秒（30分）	過大な値を防ぐ安全弁
リトライ回数	1回（別アカウントで即リトライ）	2回以上のリトライは全アカウント制限のリスク。既存の `Task.retry_count` と組み合わせて上限管理
全アカウント制限時	最短の `cooldown_until` まで待機	既存backoffの固定待機より効率的（レビュー⑤反映）

条件	レベル	通知先	クールダウン
全アカウントが同時にクールダウン中	CRITICAL	#bot-info	5分
1アカウントのクールダウンが15分超	WARNING	#bot-info	30分
1アカウントが1時間に3回以上rate limit	INFO	#bot-info	1時間

ファイル	操作	変更内容	行数目安
`bot/account_pool.py`	新規	AccountPool クラス、asyncio.Lock並行制御、active_count補正、rate_limit_status.json拡張書込み、グローバルインスタンス	〜130行
`bot/claude_runner.py`	改修	`_run_claude_inner()` にアカウント取得/解放/切替リトライを追加	+30行
`bot/config.py`	改修	`claude_accounts`, `pool_cooldown_seconds`, `pool_cooldown_max` の3設定を追加	+6行
`agents/ai-ops/monitor/watcher.py`	改修	`_check_pool_status()` メソッドを追加（Phase 1）	+40行
`agents/ai-ops/monitor/reader.py`	改修	`PoolAccountRecord` + `read_pool_accounts()` 追加（Phase 1）	+20行
`.env`	改修	`CLAUDE_ACCOUNTS` 環境変数を追加	+2行
`scripts/test_rate_limit_granularity.py`	新規	Phase 0 Step 0: rate limit粒度の実測検証スクリプト（レビュー①反映）	〜80行

項目	リスク	対策
Rate limitの粒度	高	Anthropicの公開情報にrate limitがアカウント単位かIP/組織単位かの明記なし。 Phase 0 Step 0で実測検証を実施（レビュー①反映）。検証スクリプトで2アカウント並行実行し粒度を確認。 IP単位 → 本設計は凍結。アカウント単位 → Step 1に進む。
CLAUDE_CONFIG_DIRの互換性	中	Claude CLI のバージョンアップで挙動が変わる可能性あり。 → 技術実証済み（Issue #329確認事項）。CLI更新時に動作確認を入れる
active_countの不整合	中	（レビュー③でリスクレベル引上げ） kill -9やbot再起動で `release()` がスキップされるケース。対策: active_countを永続化しない（再起動時は0初期化） `try/finally` で release() を保証 `persist()` 時に ProcessRegistry と突き合わせて補正
セッション継続（--resume）	中	セッションIDはアカウント固有。rate limitリトライで別アカウントに切り替えると `--resume` が使えない。 → リトライ時は新規セッションで実行（one-shot）。Max Planは月額固定のためトークン再消費の金銭コストは0。影響は再読込の数秒〜十数秒のみ（レビュー④）
キーチェーンアクセス	低	3アカウント分のOAuthトークンがキーチェーンに格納されている前提。 → Phase 0 Step 0の検証スクリプトで各アカウントの `claude auth status` も確認

根拠の種類	内容	信頼度
Anthropic公式（API）	有料APIキーは「組織単位（Organization level）で制御」と明示。出典: `platform.claude.com/docs/en/api/rate-limits`	高（ただしMaxプランには適用外）
Anthropic公式（Max）	同一アカウント内でclaude.aiとClaude Codeの使用量は共有。ただし別アカウントの独立性を保証する記述なし。出典: `support.claude.com`	高（独立性の保証ではない）
ccrotate（OSS）	アカウント別に `~/.claude/.credentials.json` を管理し切り替えるツール。動作実績あり。`CLAUDE_CONFIG_DIR` 環境変数で並行運用する実装例もGitHubに存在	中（ToS違反リスクあり、Anthropic保証なし）
/api/oauth/usage	アカウントごとに `five_hour.utilization` を個別取得可能	中
バグ報告 (#12786, #22876)	Account Aで制限到達後、Account Bに切替えてもrate limitエラーが出る報告あり。ユーザー仮説「デバイス/マシンレベルの追跡が存在」。Anthropic側の公式説明なし（Closedで終了）	中（ネガティブ要素）
直接的根拠	Anthropicが「Maxプランはper-account制御」と明示した記述は存在しない	—

結果	判定	次のアクション
アカウント単位	Go	Step 1（実装）に進む
IP/組織単位	Stop	本設計は凍結。IPローテーション等の代替策を別途検討
混合（アカウント+IP）	Go（限定的）	Step 1に進む。部分的改善として実装
/tmp 干渉あり	要対策	UID分離（別ユーザ実行）またはCLAUDE_TMPDIR設定で回避後にStep 1

案	概要	採用/却下	理由
A. ラウンドロビン	順番にアカウントを割り当て	却下	負荷の偏りを考慮できない。長時間タスクがあると特定アカウントに偏る
B. active_countベース（採用）	active_count最小のアカウントを選択	採用	実装がシンプルかつ負荷分散に効果的。total_runsフィールドは廃止（レビュー⑥）
C. 重み付きスコア	active_count + rate_limit_history でスコア計算	却下	Phase 0では過剰。rate limitの実測データが不足している段階で重みを調整するのは時期尚早
D. 外部プロキシ	HAProxy等でCLI実行をプロキシ	却下	Claude CLIはsubprocess実行のため、HTTPプロキシは不適。アーキテクチャの複雑化
E. サイドカー方式	独立プロセスが全CLI実行を監視・割当	却下	IPC通信が必要で複雑さが桁違い。障害点の増加。現時点では直列挟み込みで十分（レビュー⑩）
F. pool_status.json 分離	アカウント状態を専用ファイルに保存	却下	rate_limit_status.json と情報が重複。AI Opsが2ファイル突き合わせ必要。統合がシンプル（レビュー⑪）

#	優先度	質問要旨	設計決定	影響セクション
①	高	コード実装前にrate limit粒度を実測すべき	Phase 0を Step 0（実測）→ Step 1（実装）に分割。`scripts/test_rate_limit_granularity.py`（〜80行）を作成。`/tmp/claude-{UID}/` 干渉も検証	11.1, 11.3
②	高	acquire/releaseにasyncio.Lockが必要	`AccountPool._lock: asyncio.Lock` を追加。acquire/release/mark_rate_limitedを `async` メソッドに変更	3.2
③	高	active_countの永続化と不整合リスク	active_countはメモリのみ（永続化廃止）。起動時にProcessRegistryと突き合わせて再計算。リスクを「低」→「中」に引上げ	3.1, 3.4, 10
④	中	--resume削減効果の定量化	設計変更なし。Max Planは月額固定のためトークン再消費に金銭コスト0。影響は再読込の数秒〜十数秒のみ。Phase 0実測後に再評価	10
⑤	中	全アカウント制限時の待機ロジック	`acquire(wait: bool = False)` パラメータを追加。wait=Trueなら最短cooldown_until解除まで待機（上限30分）	3.2, 4, 6.1
⑥	低	スコアリングのtotal_runsは必要か	`total_runs` フィールドを完全削除。スコアリングは `active_count` のみ。同スコア時はアカウント名の辞書順	3.1, 3.3, 3.4
⑦	低	クールダウン5分の根拠	5分はフォールバック値。CLI提供の `retry_after`/`resetsAt` を優先。Phase 0実測で調整	6.2
⑧	—	account_pool.pyの配置場所	`bot/account_pool.py` で確定。利用者がbot/内に閉じており、既存パターン（process_registry等）と一貫	—（変更なし）
⑨	—	ファイル分離の必要性	分離維持。claude_runner.pyが既に500行超。テスト容易性・責務分離の観点から別ファイルが適切	—（変更なし）
⑩	—	直列挟み込み vs サイドカー方式	直列挟み込み方式を確定。サイドカーはIPC基盤だけで100行超の追加コード。既存の `_semaphore` パターンと一貫	—（変更なし）
⑪	—	pool_status.jsonをrate_limit_status.jsonと分ける理由	pool_status.json新規作成を撤回。既存の `rate_limit_status.json` に `accounts` 配列を追加して統合	3.4, 9
⑫	—	Phase 0完了条件の「均等利用」は不要	「均等利用」を削除。完了条件を3項目に絞り込み: 実測データ取得、アカウント切替動作、後方互換性	11.3

複数Claude Maxアカウントのリソース振り分け機能

A. 設計レビュー回答（12件）

【高】① Rate limitの粒度検証

【高】② 並行性制御 — acquire/releaseにLockが必要

【高】③ active_count不整合の影響が過小評価されていない？

【中】④ --resume削減効果の定量化

【中】⑤ 全アカウント制限時の待機ロジック

【低】⑥ スコアリングのtotal_runsは必要か

【低】⑦ クールダウン5分の根拠

⑧ account_pool.pyの配置場所は bot/ で正しいか

⑨ 新規作成ファイルの必要性確認

⑩ 直列挟み込み方式 vs サイドカー方式

⑪ pool_status.jsonをrate_limit_status.jsonと分ける理由

⑫ Phase 0完了条件の「均等利用」は本当に必要か

1. 概要

解決する問題

設計方針

2. アーキテクチャ図

3. account_pool.py の設計

3.1 データモデル

3.2 AccountPool クラス

3.3 スコアリングアルゴリズム

3.4 rate_limit_status.json への統合（レビュー⑪反映）

4. 配分アルゴリズム — アカウント選択〜実行〜リトライのフロー

5. claude_runner.py の変更

5.1 変更方針

5.2 変更箇所（擬似コード）

5.3 インターフェース変更

6. Rate Limit 対応

6.1 検知〜リトライの流れ

6.2 クールダウンの設計

6.3 既存リトライ機構との関係

7. AI Ops 監視

7.1 監視対象

7.2 通知条件

7.3 データ読取

8. config.py の変更

8.1 追加設定

8.2 .env の設定例

9. 変更対象ファイル一覧

10. 不確実要素・リスク

11. Phase 0 スコープ

11.0 文献調査結果（2026-04-14）

実測検証が必要な理由

11.1 Step 0: 実測検証（コード実装前）

検証スクリプトの内容

判定基準

11.2 Step 1: 実装（Step 0でアカウント単位と確認後）

11.3 Phase 0 完了条件（レビュー⑫反映）

11.4 Phase 0 でやらないこと（Phase 1以降）

12. セキュリティ考慮

入力バリデーション

機密情報

アトミック書込み

13. トレードオフ・代替案

検討した代替案

14. レビュー設計決定サマリー