关于我

我目前在 AWS 做 AI 基础设施方向 — 具体来说是 GPU 容量管理层, 负责资源预留、调度和交付系统的设计与开发。

日常工作涉及分布式工作流编排、跨账户资源管理、幂等性设计, 以及容量规划和工作负载调度之间的接口问题。参与的产品包括 Capacity Blocks for ML(ML 训练的 GPU 预留调度)和 UltraServer(跨账户 GPU 容量共享)。

在此之前,我在 Apple 实习做数据基础设施,在波士顿大学做 ML 研究 (医学影像 — 肾脏活检分割的深度学习),也在上海期货交易所做过实时系统。

教育背景:波士顿大学 CS + 数学双学位本科 (2020),CMU Entertainment Technology 硕士 (2022)。

这个博客

写我在想和在做的东西:

  • Kubernetes GPU 调度(DRA、拓扑感知、Karpenter)
  • AI 工作负载的容量规划系统
  • 分布式系统模式(幂等性、工作流编排、状态机)
  • 调度和容量管理的接口设计

联系方式

邮件: mincany0708@gmail.com