MiMo的120亿、Codex的15小时、CC的30个Agent,搞定OpenAI的321个文档!
今天来展示个硬核组合技
我花了整整24小时,把OpenAI官网全部321个文档页面一次性抓取、翻译成中文,并且在本地几乎1:1还原了官网的页面结构和交互体验。
现在,这套完整的中英文双语OpenAI文档镜像已经发布到网上,国内用户无需翻墙就能直接访问,还能直接喂给各种AI大模型,快速精准地检索知识。
学AI、做开发、搞Agent,如果你把OpenAI和Claude两家的文档真正吃透,基本上就已经站在了80%开发者的前面。
这次项目动用了MiMo 120亿参数模型、Codex 15小时持续运行、Claude Code(CC)的30个Agent,外加Claude桌面版、GLM-4.1等工具,真正实现了多模型协同作战。
为什么我要干这件“吃力不讨好”的事?
OpenAI的官方文档虽然写得不错,但存在几个痛点:
- 全部是英文,国内开发者阅读和理解成本高
- 文档分散在不同子域,搜索体验碎片化
- 很多时候我们希望把文档直接喂给本地大模型,但官方文档无法离线使用
- 想做RAG时,官方文档的结构化程度并不理想
于是我决定:自己干一套可离线、可搜索、可直接喂AI、还能持续更新的完整镜像系统。
整个项目用到的核心工具和消耗
- MiMo 120亿参数模型:主要负责中文翻译质量把控和文案润色,累计消耗约120亿Credits
- Codex:承担最核心的爬虫、镜像克隆和构建系统开发工作,单次任务最长跑了15小时
- Claude Code(CC)30个Agent:我为这个项目创建了30个不同职能的Agent,分别负责抓取规则制定、翻译质量审核、页面结构分析、搜索功能注入、异常处理等
- Claude桌面版 + GLM-4.1:负责整体流程调度和最终质量验收
整个项目产出:
– 英文镜像页面:321个
– 中文翻译页面:321个
– 本地静态搜索索引
– 可一键更新的自动化构建流程
Codex如何完美镜像OpenAI官网?
最难的部分其实是“完美复刻”。
OpenAI官网使用了大量现代前端技术,包括复杂的JS交互、动态加载模块、官方Algolia搜索等。Codex对自家文档结构极其熟悉,几乎没怎么修改Prompt,就直接写出了高可用的爬虫和镜像构建脚本。
最终实现效果:
– 视觉和交互几乎1:1还原
– 所有相对链接全部重写为本地链接
– 官方搜索按钮被本地搜索JS接管
– 支持Ctrl/Cmd + K唤起搜索
– 搜索结果全部来自本地静态索引,完全不依赖官方服务
我把整个构建流程固化成了npm脚本,现在只需要执行几条命令,就能完成全量更新或局部更新,极大降低了后续维护成本。
30个Claude Code Agent是如何协同工作的?
这是这次项目最有意思的部分。
我没有用单一Agent硬刚300多个页面,而是按照职能拆成了30个专业Agent,形成了一个小型“文档工厂”:
- 抓取策略Agent
- 反爬虫对抗Agent
- 翻译质量控制Agent(专门盯MiMo的翻译)
- 结构化分析Agent
- 搜索增强Agent
- 异常处理Agent
- 构建流程Agent
- 测试验证Agent
这些Agent通过AGENTS.md和AGENTS.override.md的层级加载机制实现动态切换,极大提升了开发效率。
这套文档对开发者的实际价值
- 国内用户无障碍阅读 —— 再也不用边查字典边看文档
- 可直接喂给本地大模型 —— 做RAG时效果远超直接爬取官方文档
- 搜索体验大幅提升 —— 本地秒搜,不依赖网络
- 可离线使用 —— 出差、高铁、飞机上都能查
- 结构清晰 —— 方便二次加工和知识库建设
目前这套文档已经开放访问,无论是想学习OpenAI API,还是研究Claude使用模式,或者单纯想提升自己的Prompt Engineering能力,这套文档都是极佳的素材。
学AI、搞开发,先把OpenAI和Claude的文档彻底搞清楚,真的已经赢在起跑线上了。
你更想看这套文档的技术实现细节,还是30个Agent的具体分工和Prompt设计?可以在评论区告诉我,我后续再专门写一篇深挖。