写在前面
根因是公司内部也要开ctf agent比赛了,比赛形式是上传ctf agent的docker 镜像。
身为队长,原本我的目的是探索一下人+ai的做题形式,现在不得不研究一下ai全自动ctf了。
1. 平台选型
1.1 chatgpt推荐
自己从零开始开发还是太变态了,先搜索一下开源的ctf agent平台,chatgpt的搜索结果:
| 优先级 | 方案 | 接近你目标的原因 | 主要短板 |
|---|---|---|---|
| 1 | verialabs/ctf-agent | 最像“成品”:面向真实 CTFd,自动拉题、并发多模型解题、每题独立 Docker sandbox,内置 pwn/rev/crypto/forensics/web 工具链;README 声称在 BSidesSF 2026 解出 52/52。(GitHub) | 新项目,工程成熟度要自己验证;更偏实战竞赛,不一定适合训练/评测体系 |
| 2 | CAI / Cybersecurity AI | 通用安全 Agent 框架,支持多模型、内置安全工具、agent 架构、MCP、Docker compose,且文档里有 CTF agent 示例和 CTF 环境变量。(GitHub) | 偏“安全自动化框架”,不是纯 CTF solver;要自己做 CTFd 拉题/提交/调度 |
| 3 | NYU CTF Agents / D-CIPHER | 学术型但可运行:Planner + Executor + Auto-prompter,多 Agent;明确运行在 Docker 环境并与 CTF challenge 交互。(GitHub) | 更像 benchmark agent,不是面向真实比赛的一体化产品 |
| 4 | SWE-agent EnIGMA / EnIGMA+ | 针对 CTF 的 SWE-agent 分支/增强版,有交互式终端、gdb 等工具和长输出 summarizer;EnIGMA+ 提供 sweagent/enigma:latest 镜像方式运行。(GitHub) |
SWE-agent 主线已偏维护,官方建议新项目看 mini-SWE-agent;CTF 方向需要自己接 CTFd 和调度。(SWE Agent) |
| 5 | CTF-Dojo / CTF-Forge | 不是 solver,但非常适合作为你的“题目运行时/训练集”:658 个 Docker 化 CTF-style challenges,可复现、可自动构建。(GitHub) | 缺少完整实战 agent;更适合训练、回归测试和 benchmark |
| 6 | Cybench / Inspect Evals / CAISI Cyber Evals | 适合做评测 harness。Cybench 包含专业 CTF 任务,覆盖 crypto/web/rev/forensics/pwn/misc;Inspect 生态可直接跑模型评测。(UK Government BEIS) | 不是产品化 solver;题量和交互形态有限 |
| 7 | CTFd + CTFd MCP Server / CTFusion 思路 | CTFd 是主流 CTF 平台,可 Docker 跑,也有插件架构;CTFd MCP server 可以让 agent 获取题目、下载附件、提交 flag,CTFusion 论文也采用 CTFd + MCP 思路。(GitHub) | 它只是平台/桥接层,不负责解题 |
| 8 | Docker Agent / Codex CLI / OpenCode 这类通用 Agent Runtime | 适合作为底座:Docker Agent 原生支持 YAML、多 Agent、MCP、OCI 打包;Codex CLI 可本地读写文件和运行命令,并有 sandbox/approval 机制。(GitHub) | 不是 CTF 专用;需要自己写 CTF 工具、策略、评测和提交逻辑 |
首先排除2. CAI,看了一下文档发现需要订阅用户才能用ctf的功能。
也排除3.NYU CTF Agents,只在自己的数据集里跑过。
排除5. CTF-Forge 是测试集,构建好容器后可以考虑验证。
排除6. Cybench,同样是测试集
排除7. ctfd,是运维平台
排除8. xxx/opencode,太通用,自己重新写逻辑太麻烦了。
还剩下1、4可以选。
1.2 腾讯云黑客松——ai智能体争霸赛 开源agent项目
另一个路径是腾讯云黑客送的各种开源agent项目,或许是个不错的选择.
https://github.com/oritera/Cairn
https://github.com/yhy0/CHYing-agent
2. ctf-agent试用
试试看verialabs的ctf-agent看看实力
3. 定制ctf-agent(todo)
todo