exploit開発競争｜ブログ(ほぼこもセキュリティニュース)｜(株)コンステラセキュリティジャパン

生成AIの周辺で、いろいろな取り組みが実施されています。
その一つに、この取り組みがありました。
exploit開発競争です。

研究者がEximに存在する脆弱性を発見しました。
Eximは、LinuxなどのUnix系オペレーティングシステムで使用されるオープンソースのメール転送エージェントです。
Sendmailに代わる柔軟性の高いMTAとして開発され、多くのLinuxディストリビューションで標準採用されています。
このEximで認証なしで動作してしまうリモートコード実行の脆弱性が発見されました。

この脆弱性を発見した研究者は、その脆弱性が作用可能であることを概念実証するためにexploitを作ることにしました。
この時同時に、人間の研究者とLLMで競争してみるという取り組みが行われました。
脆弱性の発見は人間の研究者の手によるものでしたが、exploitability分析は人間の研究者がLLMを活用して実施し、exploit開発については人間の研究者がLLMと競争を試みた、というお話です。

exploitの開発は、いくつかの段階を踏んで実施されます。

その脆弱性をどう exploit するか
実際に RCE へ持っていけるか
production build で使えるか

この開発競争を通じて研究者は今後のこの分野の活動にどのくらいLLMを活用できるかを検討したということになると思います。
この試みでおよそ次のようなことが確認できたようです。

LLM は「CTF的 exploit」はかなり強かった
かなり高度な exploit chain まで自動生成した
しかし“実戦的・現実的な production exploit”では最後まで届かなかった
最終的には人間側だけが「実際の production build で stack leak」を達成した

活動のいくつもの要素では、AIはその高速性や大量のデータを使えることをメリットとして活かし、効果的に動作しました。
既知の脆弱性に関する研究情報もAIの情報の中に含まれているためでしょう。
しかしいくつかの面ではまだAIは人間の研究者に及んでいないのが現状という結果となりました。
exploitability の本質理解、production 環境差異、heap の現実挙動、debugging、“どこを疑うべきか”という勘、実戦 exploit、といった部分です。

今回の競争では、ある意味、AIは人間に勝つことができませんでした。
しかし競争の結果そのものにはあまり意味がないかもしれません。
今回は、AIがexploit開発を完全自動化した、とはなりませんでしたが、脆弱性研究の前半工程が猛烈に加速した、という結果が得られたのです。
研究者は象徴的な言葉を残しています。
「Vulnerability research found the turbo button.」
脆弱性研究はターボボタンを手に入れた。

ターボボタンの性能は上がってきています。

Dead.Letter (CVE-2026-45185) How XBOW Found an Unauthenticated RCE on Exim
https://xbow.com/blog/dead-letter-cve-2026-45185-xbow-found-rce-exim