auto ctf: ai agent自动做题(todo)

2026-06-23

写在前面

根因是公司内部也要开ctf agent比赛了,比赛形式是上传ctf agent的docker 镜像。
身为队长,原本我的目的是探索一下人+ai的做题形式,现在不得不研究一下ai全自动ctf了。

1. 平台选型

1.1 chatgpt推荐

自己从零开始开发还是太变态了,先搜索一下开源的ctf agent平台,chatgpt的搜索结果:

优先级 方案 接近你目标的原因 主要短板
1 verialabs/ctf-agent 最像“成品”:面向真实 CTFd,自动拉题、并发多模型解题、每题独立 Docker sandbox,内置 pwn/rev/crypto/forensics/web 工具链;README 声称在 BSidesSF 2026 解出 52/52。(GitHub) 新项目,工程成熟度要自己验证;更偏实战竞赛,不一定适合训练/评测体系
2 CAI / Cybersecurity AI 通用安全 Agent 框架,支持多模型、内置安全工具、agent 架构、MCP、Docker compose,且文档里有 CTF agent 示例和 CTF 环境变量。(GitHub) 偏“安全自动化框架”,不是纯 CTF solver;要自己做 CTFd 拉题/提交/调度
3 NYU CTF Agents / D-CIPHER 学术型但可运行:Planner + Executor + Auto-prompter,多 Agent;明确运行在 Docker 环境并与 CTF challenge 交互。(GitHub) 更像 benchmark agent,不是面向真实比赛的一体化产品
4 SWE-agent EnIGMA / EnIGMA+ 针对 CTF 的 SWE-agent 分支/增强版,有交互式终端、gdb 等工具和长输出 summarizer;EnIGMA+ 提供 sweagent/enigma:latest 镜像方式运行。(GitHub) SWE-agent 主线已偏维护,官方建议新项目看 mini-SWE-agent;CTF 方向需要自己接 CTFd 和调度。(SWE Agent)
5 CTF-Dojo / CTF-Forge 不是 solver,但非常适合作为你的“题目运行时/训练集”:658 个 Docker 化 CTF-style challenges,可复现、可自动构建。(GitHub) 缺少完整实战 agent;更适合训练、回归测试和 benchmark
6 Cybench / Inspect Evals / CAISI Cyber Evals 适合做评测 harness。Cybench 包含专业 CTF 任务,覆盖 crypto/web/rev/forensics/pwn/misc;Inspect 生态可直接跑模型评测。(UK Government BEIS) 不是产品化 solver;题量和交互形态有限
7 CTFd + CTFd MCP Server / CTFusion 思路 CTFd 是主流 CTF 平台,可 Docker 跑,也有插件架构;CTFd MCP server 可以让 agent 获取题目、下载附件、提交 flag,CTFusion 论文也采用 CTFd + MCP 思路。(GitHub) 它只是平台/桥接层,不负责解题
8 Docker Agent / Codex CLI / OpenCode 这类通用 Agent Runtime 适合作为底座:Docker Agent 原生支持 YAML、多 Agent、MCP、OCI 打包;Codex CLI 可本地读写文件和运行命令,并有 sandbox/approval 机制。(GitHub) 不是 CTF 专用;需要自己写 CTF 工具、策略、评测和提交逻辑

首先排除2. CAI,看了一下文档发现需要订阅用户才能用ctf的功能。
也排除3.NYU CTF Agents,只在自己的数据集里跑过。
排除5. CTF-Forge 是测试集,构建好容器后可以考虑验证。
排除6. Cybench,同样是测试集
排除7. ctfd,是运维平台
排除8. xxx/opencode,太通用,自己重新写逻辑太麻烦了。
还剩下1、4可以选。

1.2 腾讯云黑客松——ai智能体争霸赛 开源agent项目

另一个路径是腾讯云黑客送的各种开源agent项目,或许是个不错的选择.
https://github.com/oritera/Cairn
https://github.com/yhy0/CHYing-agent

2. ctf-agent试用

试试看verialabs的ctf-agent看看实力

3. 定制ctf-agent(todo)

todo

references

https://mp.weixin.qq.com/s/OYBUE8Hkd_BCtdWCdrOpAA