你好,我是 Mincan 👋🏻

我是一名有 4年以上经验 的软件工程师,专注于 AI 基础设施 — 在 AWS 构建 GPU 资源预留、调度和交付的容量管理层。

我负责 Capacity Blocks for ML(ML 训练的 GPU 预留调度)和 UltraServers(通过高带宽加速器互连将多台实例组成超级计算节点, 用于万亿参数模型训练)等产品背后的系统。日常工作涉及分布式工作流编排、 容量预留生命周期管理、以及大规模资源调度的幂等状态机设计。

在 AWS 之前,我在 Apple 实习做数据基础设施, 也在 Boston University Department of Medicine 做过 ML 研究。 本科在波士顿大学学 CS 和数学,研究生在 CMU 学 Entertainment Technology。

这个博客记录我在 GPU 调度、AI 工作负载容量规划、分布式系统模式等方面的学习和思考。 中英双语,取决于话题。

最新文章
查看全部
工作经历
  • Aug2022 - Current
    Amazon Web Services
    Software Engineer — EC2 AI Infrastructure

    Building state-of-the-art AWS AI infrastructure focusing on GPU capacity:

    • Capacity Blocks for ML — Reserved GPU scheduling that guarantees compute availability for training workloads weeks in advance
    • UltraServers — Multi-instance GPU supercomputers connected via high-bandwidth accelerator interconnects for trillion-parameter model training
  • May2021 - Dec2021
    Apple
    Software Engineer Intern — Strategic Data Solutions

    Backend development in Apple’s Strategic Data Solutions group.

  • Oct2019 - Aug2020
    Boston University Department of Medicine
    Machine Learning Research Assistant — Kolachalama Lab

    Developed a deep learning framework for detecting, segmenting, and mapping glomeruli from kidney biopsy images across multiple staining protocols.

联系我

对 AI 基础设施、GPU 调度或分布式系统感兴趣?欢迎通过 LinkedIn 或邮件联系。