ARIS

Auto-claude-code-research-in-sleep — 眠っている間に ML 研究を前進させる自律ワークフロー

Claude Code GPT-5.4 xhigh 依存ゼロ Markdown ベース 31 スキル
1 — 概要

Claude Code スキルによって構成された 自律 ML 研究ワークフロー。Claude Code が実行を担当し、外部 LLM(Codex / GPT-5.4 xhigh)が批評的レビューを行う クロスモデル協調 が核心的な設計思想。

フレームワークの実体は 純粋な Markdown ファイル群 であり、データベース・Docker・デーモン等の依存が一切ない。どの LLM に渡しても動く。

31
コンポーザブルスキル
4
主要ワークフロー
5/10
→ 7.5 (一晩)
0 dep
依存なし

自己レビュー(同一モデルが実行・評価を両方担う)は 局所最小 に陥りやすい。1 つのモデルが自分のパターンを審査すると盲点が生まれる。

  • Claude Code: 高速・流動的な実行を担当。コーディング・ファイル操作・実験スクリプト生成に特化
  • GPT-5.4 xhigh (Codex): 遅いが厳密で批判的なレビューを担当。実行者が気付かない欠点を意図的に探す
  • 速度 × 厳格さ の組み合わせが、どちらの単独より高い成果を生む
代替モデル対応: Claude + GPT-5.4 の組み合わせが不要な場合も、OpenAI 互換 API(llm-chat MCP)で GLM・MiniMax・Kimi・DeepSeek 等に差し替え可能。
2 — アーキテクチャ
Pipeline Overview
flowchart TD direction TB User["Research Direction"] --> WF1 subgraph WF1["Workflow 1 — Idea Discovery"] A1["research-lit\n(Literature Survey)"] --> A2["idea-creator\n(8-12 Ideas)"] A2 --> A3["novelty-check\n(Verify Novel)"] A3 --> A4["research-refine\n(Anchor + Refine)"] end subgraph WF15["Workflow 1.5 — Experiment Bridge"] B1["experiment-bridge\n(Write Scripts)"] --> B2["GPT-5.4 Code Review"] B2 --> B3["Sanity Check → Deploy GPU"] end subgraph WF2["Workflow 2 — Auto Review Loop"] C1["auto-review-loop\n(GPT-5.4 Reviews)"] --> C2["Claude Code\nruns experiments"] C2 --> C3["paper-narrative-update"] C3 -->|"score < target"| C1 end subgraph WF3["Workflow 3 — Paper Writing"] D1["paper-plan"] --> D2["paper-figure"] D2 --> D3["paper-write\n(LaTeX PDF)"] D3 --> D4["auto-paper-improvement-loop"] end subgraph WF4["Workflow 4 — Rebuttal"] E1["Parse Reviews"] --> E2["Draft Strategy"] E2 --> E3["Safety Gates\n(no fabrication / overpromise)"] E3 --> E4["PASTE_READY.txt"] end WF1 --> WF15 --> WF2 --> WF3 --> Submit["Submit Paper"] Submit --> WF4 style WF1 fill:#f0f4f8,stroke:#93a8c4,color:#1e3a5f style WF15 fill:#fef9f0,stroke:#c8a34a,color:#7a5a00 style WF2 fill:#f0f4f8,stroke:#93a8c4,color:#1e3a5f style WF3 fill:#fef9f0,stroke:#c8a34a,color:#7a5a00 style WF4 fill:#f0f4f8,stroke:#93a8c4,color:#1e3a5f
ディレクトリ内容
skills/コアスキル群(SKILL.md 形式)。任意の LLM で読み込める
skills/skills-codex/Codex CLI ネイティブ版スキル一式
templates/各ワークフロー向け入力テンプレート(Research Brief / Experiment Plan 等)
mcp-servers/llm-chat/代替 LLM(GLM・MiniMax 等)を Codex MCP 互換で繋ぐサーバー
tools/arXiv / Semantic Scholar フェッチ・Watchdog 等の補助ツール
docs/各 IDE・プラットフォーム向け適応ガイド(Cursor / Trae / Antigravity 等)
3 — ワークフロー
Workflow 1
Idea Discovery & Method Refinement
/idea-discovery
研究方向を与えると文献調査 → 8〜12 のアイデア生成 → 新規性検証 → GPUパイロット実験 → 上位アイデアの深掘りと実験計画まで自動化。
Workflow 1.5
Experiment Bridge
/experiment-bridge
実験計画書をもとにスクリプトを実装し、GPT-5.4 によるコードレビュー後、GPU サーバーへ自動デプロイ・結果収集。Vast.ai 自動レンタルにも対応。
Workflow 2
Auto Review Loop
/auto-review-loop
GPT-5.4 が論文をレビュー → 弱点を特定 → Claude Code が実験を走らせ → 結果を論文に反映 → 再レビュー。4ラウンドで 5/10 → 7.5/10 を達成(実績値)。
Workflow 3
Paper Writing
/paper-writing
ナラティブレポートから LaTeX 論文を自動生成し、コンパイル → PDF 出力。DBLP/CrossRef による実在 BibTeX 取得でハルシネーション引用を排除。

論文査読結果が返ってきたら /rebuttal で査読対応を自動化。

  • 全レビュアーの懸念を原子的に分解し、戦略とドラフトを生成
  • 3 つの安全ゲート: 捏造なし過約束なし全懸念をカバー
  • PASTE_READY.txt(文字数ジャスト)と REBUTTAL_DRAFT_rich.md(詳細版)を出力
  • auto experiment: true で補足実験も自動実行
Venue 対応: ICLR / NeurIPS / ICML / CVPR / ACL / AAAI / ACM / IEEE に対応。LaTeX テンプレートもバンドル済み。
ラウンドスコア何が起きたか
Initial5.0/10Borderline reject 状態
Round 16.5/10標準メトリクス追加、メトリクス分離を発見
Round 26.8/10主張の再現失敗 → ナラティブを転換
Round 37.0/10大規模 seed 実験で主要改善主張を再検証
Round 47.5/10診断エビデンスが固まり投稿準備完了

20+ GPU 実験を自律実行しながら、論文のナラティブと主張を書き直した一晩の実績。

4 — クイックスタート
# 1. スキルをインストール
git clone https://github.com/wanshuiyin/Auto-claude-code-research-in-sleep.git
cp -r Auto-claude-code-research-in-sleep/skills/* ~/.claude/skills/

# 2. Codex MCP セットアップ(レビュースキル用)
npm install -g @openai/codex
codex setup       # モデルを gpt-5.4 に設定
claude mcp add codex -s user -- codex mcp-server

# 3. Claude Code で使用
claude
# Workflow 1 — アイデア探索(研究方向を与えるだけ)
/idea-discovery "factorized gap in discrete diffusion LMs"

# Workflow 1 強化版 — 参照論文 + ベースリポジトリを指定
/research-pipeline "improve method X" -- ref paper: https://arxiv.org/abs/2406.04329, base repo: https://github.com/org/project

# Workflow 2 — 論文のレビュー改善ループ
/auto-review-loop "your paper topic"

# Workflow 4 — 査読対応
/rebuttal "paper/ + reviews" -- venue: ICML, character limit: 5000

# フルパイプライン(Workflow 1 → 1.5 → 2 → 3)
/research-pipeline "your research direction"
パラメータデフォルト説明
AUTO_PROCEEDtrueアイデア選択ゲートを自動通過。false でGPU投入前に手動選択
human checkpointfalse各レビューラウンド後に一時停止し、カスタム指示を与えられる
gpulocallocal / remote(SSH)/ vast(Vast.ai 自動レンタル)
compactfalse短コンテキストモデル向けにサマリーファイルを生成
venueICLR投稿先会議(ICLR / NeurIPS / ICML / CVPR / ACL / AAAI / ACM / IEEE)
DBLP_BIBTEXtrueDBLP/CrossRef から実在 BibTeX を取得。幻覚引用を排除
5 — スキル一覧
スキルワークフロー役割
research-litWF1マルチソース文献調査(Zotero / Obsidian / arXiv / Semantic Scholar)
idea-creatorWF1GPT-5.4 が 8〜12 のアイデアをブレインストーミング
novelty-checkWF1深い新規性検証 + 悪魔の代弁者レビュー
research-refineWF1問題アンカー + 手法の反復的精緻化
experiment-bridgeWF1.5実験計画 → スクリプト実装 → GPU デプロイ
run-experimentWF1.5GPU(local / remote / vast)での実験実行
auto-review-loopWF24 ラウンド自律レビュー+修正ループ
paper-writeWF3LaTeX 論文本文生成(幻覚引用排除付き)
paper-compileWF3LaTeX コンパイル → PDF 出力
rebuttalWF4査読対応ドラフト生成(安全ゲート付き)
paper-slidesPost WF3発表スライド(Beamer PDF + PPTX)
paper-posterPost WF3学会ポスター(A0/A1 PDF + SVG)
watchdog支援実験プロセス監視・自動再起動
training-checkWF2学習曲線の診断と安定性チェック

コミュニティが追加したドメイン特化スキル。コアワークフローには自動接続されないが、SKILL.md を読み込ませて手動で活用できる。

research-refine experiment-plan grant-proposal paper-poster paper-slides mermaid-diagram proof-writer comm-lit-review dse-loop idea-discovery-robot formula-derivation paper-illustration
プラットフォームガイド備考
Claude Code— (デフォルト)スラッシュコマンドでスキル直接呼び出し
Codex CLIskills/skills-codex/OpenAI Codex CLI ネイティブ版スキル一式
Cursordocs/CURSOR_ADAPTATION.md@ 参照でスキルを指定
Traedocs/TRAE_ARIS_RUNBOOK_EN.mdByteDance AI IDE
Antigravitydocs/ANTIGRAVITY_ADAPTATION.mdGoogle エージェントファースト IDE
OpenClawdocs/OPENCLAW_ADAPTATION.mdOpenHands ベース、スラッシュコマンド不要