首页 | Mincan Yang

我是一名有 4年以上经验 的软件工程师，专注于 AI 基础设施 — 在 AWS 构建 GPU 资源预留、调度和交付的容量管理层。

我负责 Capacity Blocks for ML（ML 训练的 GPU 预留调度）和 UltraServers（通过高带宽加速器互连将多台实例组成超级计算节点，用于万亿参数模型训练）等产品背后的系统。日常工作涉及分布式工作流编排、容量预留生命周期管理、以及大规模资源调度的幂等状态机设计。

在 AWS 之前，我在 Apple 实习做数据基础设施，也在 Boston University Department of Medicine 做过 ML 研究。本科在波士顿大学学 CS 和数学，研究生在 CMU 学 Entertainment Technology。

这个博客记录我在 GPU 调度、AI 工作负载容量规划、分布式系统模式等方面的学习和思考。中英双语，取决于话题。

对 AI 基础设施、GPU 调度或分布式系统感兴趣？欢迎通过 LinkedIn 或邮件联系。