Mincan Yang
blog
/
about
|
EN
博客文章
第 0 部分 · 基础
0.1 · 算力层的四层心智模型
一个把算力集群拆成四层——预留、置备、调度、工作负载——的简单模型,让「我的 Pod 卡在 Pending」从三方扯皮变成一分钟就能定位的诊断。
0.2 · 为什么我的 Pod 卡在 Pending?深入排查失败路径
GPU 集群里最常见、也最烧钱的一个问题。同样一句 Pending,可能来自四层中的任何一层;这篇教你在花钱修错地方之前,先一分钟定位是哪一层。