ARIS — 眠っている間に Claude Code が ML 研究を進める自律ワークフロー

ARIS とは

Claude Code スキルによって構成された 自律 ML 研究ワークフロー。Claude Code が実行を担当し、外部 LLM（Codex / GPT-5.4 xhigh）が批評的レビューを行う クロスモデル協調 が核心的な設計思想。

フレームワークの実体は 純粋な Markdown ファイル群 であり、データベース・Docker・デーモン等の依存が一切ない。どの LLM に渡しても動く。

31

コンポーザブルスキル

4

主要ワークフロー

5/10

→ 7.5 (一晩)

0 dep

依存なし

なぜクロスモデルか

自己レビュー（同一モデルが実行・評価を両方担う）は 局所最小 に陥りやすい。1 つのモデルが自分のパターンを審査すると盲点が生まれる。

Claude Code: 高速・流動的な実行を担当。コーディング・ファイル操作・実験スクリプト生成に特化
GPT-5.4 xhigh (Codex): 遅いが厳密で批判的なレビューを担当。実行者が気付かない欠点を意図的に探す
速度 × 厳格さの組み合わせが、どちらの単独より高い成果を生む

代替モデル対応: Claude + GPT-5.4 の組み合わせが不要な場合も、OpenAI 互換 API（llm-chat MCP）で GLM・MiniMax・Kimi・DeepSeek 等に差し替え可能。

システム全体像

flowchart TD direction TB User["Research Direction"] --> WF1 subgraph WF1["Workflow 1 — Idea Discovery"] A1["research-lit\n(Literature Survey)"] --> A2["idea-creator\n(8-12 Ideas)"] A2 --> A3["novelty-check\n(Verify Novel)"] A3 --> A4["research-refine\n(Anchor + Refine)"] end subgraph WF15["Workflow 1.5 — Experiment Bridge"] B1["experiment-bridge\n(Write Scripts)"] --> B2["GPT-5.4 Code Review"] B2 --> B3["Sanity Check → Deploy GPU"] end subgraph WF2["Workflow 2 — Auto Review Loop"] C1["auto-review-loop\n(GPT-5.4 Reviews)"] --> C2["Claude Code\nruns experiments"] C2 --> C3["paper-narrative-update"] C3 -->|"score < target"| C1 end subgraph WF3["Workflow 3 — Paper Writing"] D1["paper-plan"] --> D2["paper-figure"] D2 --> D3["paper-write\n(LaTeX PDF)"] D3 --> D4["auto-paper-improvement-loop"] end subgraph WF4["Workflow 4 — Rebuttal"] E1["Parse Reviews"] --> E2["Draft Strategy"] E2 --> E3["Safety Gates\n(no fabrication / overpromise)"] E3 --> E4["PASTE_READY.txt"] end WF1 --> WF15 --> WF2 --> WF3 --> Submit["Submit Paper"] Submit --> WF4 style WF1 fill:#f0f4f8,stroke:#93a8c4,color:#1e3a5f style WF15 fill:#fef9f0,stroke:#c8a34a,color:#7a5a00 style WF2 fill:#f0f4f8,stroke:#93a8c4,color:#1e3a5f style WF3 fill:#fef9f0,stroke:#c8a34a,color:#7a5a00 style WF4 fill:#f0f4f8,stroke:#93a8c4,color:#1e3a5f

ファイル構成

ディレクトリ	内容
`skills/`	コアスキル群（`SKILL.md` 形式）。任意の LLM で読み込める
`skills/skills-codex/`	Codex CLI ネイティブ版スキル一式
`templates/`	各ワークフロー向け入力テンプレート（Research Brief / Experiment Plan 等）
`mcp-servers/llm-chat/`	代替 LLM（GLM・MiniMax 等）を Codex MCP 互換で繋ぐサーバー
`tools/`	arXiv / Semantic Scholar フェッチ・Watchdog 等の補助ツール
`docs/`	各 IDE・プラットフォーム向け適応ガイド（Cursor / Trae / Antigravity 等）

4 つのワークフロー

Workflow 1

Idea Discovery & Method Refinement

/idea-discovery

研究方向を与えると文献調査 → 8〜12 のアイデア生成 → 新規性検証 → GPUパイロット実験 → 上位アイデアの深掘りと実験計画まで自動化。

Workflow 1.5

Experiment Bridge

/experiment-bridge

実験計画書をもとにスクリプトを実装し、GPT-5.4 によるコードレビュー後、GPU サーバーへ自動デプロイ・結果収集。Vast.ai 自動レンタルにも対応。

Workflow 2

Auto Review Loop

/auto-review-loop

GPT-5.4 が論文をレビュー → 弱点を特定 → Claude Code が実験を走らせ → 結果を論文に反映 → 再レビュー。4ラウンドで 5/10 → 7.5/10 を達成（実績値）。

Workflow 3

Paper Writing

/paper-writing

ナラティブレポートから LaTeX 論文を自動生成し、コンパイル → PDF 出力。DBLP/CrossRef による実在 BibTeX 取得でハルシネーション引用を排除。

Workflow 4 — Rebuttal

論文査読結果が返ってきたら /rebuttal で査読対応を自動化。

全レビュアーの懸念を原子的に分解し、戦略とドラフトを生成
3 つの安全ゲート: 捏造なし・過約束なし・全懸念をカバー
PASTE_READY.txt（文字数ジャスト）と REBUTTAL_DRAFT_rich.md（詳細版）を出力
auto experiment: true で補足実験も自動実行

Venue 対応: ICLR / NeurIPS / ICML / CVPR / ACL / AAAI / ACM / IEEE に対応。LaTeX テンプレートもバンドル済み。

Score Progression（実績）

ラウンド	スコア	何が起きたか
Initial	5.0/10	Borderline reject 状態
Round 1	6.5/10	標準メトリクス追加、メトリクス分離を発見
Round 2	6.8/10	主張の再現失敗 → ナラティブを転換
Round 3	7.0/10	大規模 seed 実験で主要改善主張を再検証
Round 4	7.5/10	診断エビデンスが固まり投稿準備完了

20+ GPU 実験を自律実行しながら、論文のナラティブと主張を書き直した一晩の実績。

インストール

# 1. スキルをインストール
git clone https://github.com/wanshuiyin/Auto-claude-code-research-in-sleep.git
cp -r Auto-claude-code-research-in-sleep/skills/* ~/.claude/skills/

# 2. Codex MCP セットアップ（レビュースキル用）
npm install -g @openai/codex
codex setup       # モデルを gpt-5.4 に設定
claude mcp add codex -s user -- codex mcp-server

# 3. Claude Code で使用
claude

基本コマンド

# Workflow 1 — アイデア探索（研究方向を与えるだけ）
/idea-discovery "factorized gap in discrete diffusion LMs"

# Workflow 1 強化版 — 参照論文 + ベースリポジトリを指定
/research-pipeline "improve method X" -- ref paper: https://arxiv.org/abs/2406.04329, base repo: https://github.com/org/project

# Workflow 2 — 論文のレビュー改善ループ
/auto-review-loop "your paper topic"

# Workflow 4 — 査読対応
/rebuttal "paper/ + reviews" -- venue: ICML, character limit: 5000

# フルパイプライン（Workflow 1 → 1.5 → 2 → 3）
/research-pipeline "your research direction"

主要パラメータ

パラメータ	デフォルト	説明
`AUTO_PROCEED`	true	アイデア選択ゲートを自動通過。false でGPU投入前に手動選択
`human checkpoint`	false	各レビューラウンド後に一時停止し、カスタム指示を与えられる
`gpu`	local	`local` / `remote`（SSH）/ `vast`（Vast.ai 自動レンタル）
`compact`	false	短コンテキストモデル向けにサマリーファイルを生成
`venue`	ICLR	投稿先会議（ICLR / NeurIPS / ICML / CVPR / ACL / AAAI / ACM / IEEE）
`DBLP_BIBTEX`	true	DBLP/CrossRef から実在 BibTeX を取得。幻覚引用を排除

コアスキル（主要 14）

スキル	ワークフロー	役割
`research-lit`	WF1	マルチソース文献調査（Zotero / Obsidian / arXiv / Semantic Scholar）
`idea-creator`	WF1	GPT-5.4 が 8〜12 のアイデアをブレインストーミング
`novelty-check`	WF1	深い新規性検証 + 悪魔の代弁者レビュー
`research-refine`	WF1	問題アンカー + 手法の反復的精緻化
`experiment-bridge`	WF1.5	実験計画 → スクリプト実装 → GPU デプロイ
`run-experiment`	WF1.5	GPU（local / remote / vast）での実験実行
`auto-review-loop`	WF2	4 ラウンド自律レビュー＋修正ループ
`paper-write`	WF3	LaTeX 論文本文生成（幻覚引用排除付き）
`paper-compile`	WF3	LaTeX コンパイル → PDF 出力
`rebuttal`	WF4	査読対応ドラフト生成（安全ゲート付き）
`paper-slides`	Post WF3	発表スライド（Beamer PDF + PPTX）
`paper-poster`	Post WF3	学会ポスター（A0/A1 PDF + SVG）
`watchdog`	支援	実験プロセス監視・自動再起動
`training-check`	WF2	学習曲線の診断と安定性チェック

コミュニティスキル（12）

コミュニティが追加したドメイン特化スキル。コアワークフローには自動接続されないが、SKILL.md を読み込ませて手動で活用できる。

research-refine experiment-plan grant-proposal paper-poster paper-slides mermaid-diagram proof-writer comm-lit-review dse-loop idea-discovery-robot formula-derivation paper-illustration

対応プラットフォーム

プラットフォーム	ガイド	備考
Claude Code	— (デフォルト)	スラッシュコマンドでスキル直接呼び出し
Codex CLI	`skills/skills-codex/`	OpenAI Codex CLI ネイティブ版スキル一式
Cursor	`docs/CURSOR_ADAPTATION.md`	`@` 参照でスキルを指定
Trae	`docs/TRAE_ARIS_RUNBOOK_EN.md`	ByteDance AI IDE
Antigravity	`docs/ANTIGRAVITY_ADAPTATION.md`	Google エージェントファースト IDE
OpenClaw	`docs/OPENCLAW_ADAPTATION.md`	OpenHands ベース、スラッシュコマンド不要

公式・関連

GitHub: wanshuiyin/Auto-claude-code-research-in-sleep — 本体リポジトリ
awesome-agent-skills — 掲載エコシステム
Claude Code 公式ドキュメント
Codex MCP GitHub
DBLP / CrossRef — 引用ハルシネーション排除に使用
Vast.ai — オンデマンド GPU レンタル (gpu: vast)