我是一名有 4年以上经验 的软件工程师,专注于 AI 基础设施 — 在 AWS 构建 GPU 资源预留、调度和交付的容量管理层。
我负责 Capacity Blocks for ML(ML 训练的 GPU 预留调度)和 UltraServers(通过高带宽加速器互连将多台实例组成超级计算节点, 用于万亿参数模型训练)等产品背后的系统。日常工作涉及分布式工作流编排、 容量预留生命周期管理、以及大规模资源调度的幂等状态机设计。
在 AWS 之前,我在 Apple 实习做数据基础设施, 也在 Boston University Department of Medicine 做过 ML 研究。 本科在波士顿大学学 CS 和数学,研究生在 CMU 学 Entertainment Technology。
这个博客记录我在 GPU 调度、AI 工作负载容量规划、分布式系统模式等方面的学习和思考。 中英双语,取决于话题。