今回は、「CursorやWindsurfなどのIDEと、Codex CLIやClaude CodeなどのCLIツール、結局どちらがアウトプット精度が高いのか?」という議論をしております。
Windsurfを長らく使っていた阿部さんがCursorに乗り換え、6体のエージェントに同時に質問を投げる並列調査の体験を語ってくれました。一方で僕は、Codex CLIの方が精度が高いのではないかという感覚を持っていて、最近はClaude Codeのサブエージェント機能で20並列以上の調査を回し、その結果をCodex CLIで評価するという使い方をしています。
そこから「ハーネス」と呼ばれるエージェントチューニングの違いがパフォーマンスに影響しているのではという話に発展。ベンチマーク記事を調べてみたところ、モデルが異なる比較をしていたりと意外な事実も見えてきました。
IDE派とCLI派、それぞれの視点から気づきの多い回となりました。
▼Cursor 関連リンク
https://cursor.com/
▼Windsurf 関連リンク
https://windsurf.com/
▼Codex CLI 関連リンク
https://chatgpt.com/codex
▼Claude Code 関連リンク
https://anthropic.com/claude-code