聚合来自不同宿主机的远程 GPU,对工作负载呈现为统一的逻辑资源池。
对接 MetaX 生态:发现、监控遥测与可用隔离模式适配。
支持 Neuron 设备的调度、监控与可复用隔离模板(在可行范围内)。
面向多集群/多地域的调度与路由,支持"算到数"策略与全局配额。
GPU Go 个人/团队版的跨设备 GPU 资源同步能力。
构建私有 MaaS(模型即服务),支持模型缓存与预加载。
面向昇腾 NPU 超分场景的可用 limiter 工作流与可观测性增强。
面向 AMD GPU 的 hook 时间共享隔离能力,与 TensorFusion 配额与调度体系打通。
为多 vGPU / 多加速卡工作负载提供原子调度与一致性放置能力。
感知 NUMA/NVLink/PCIe/IB 拓扑进行放置,提升性能与稳定性。
覆盖多厂商、多隔离模式、传输(以太网/RDMA)与多框架的标准化基准测试套件。
支持 AMD GPU 远程能力,并接入 TensorFusion 调度与遥测。
支持海光 DCU 的远程路径,并纳入统一调度体系。
为 NPU 提供标准化的分区/隔离模板,加速接入与运维。
在同一集群中支持多种 GPU/NPU 厂商,统一调度管理。
空间划分的硬隔离模式,提供更强的隔离保障(不支持超分)。
支持 MIG 等硬件分区隔离的调度能力。
专用控制器管理加速卡生命周期与健康状态。
三种隔离模式用于计算百分比调度,满足不同场景需求。
基于 PID 控制器的自适应计算节流,实现平滑资源共享。
为需要严格内存限制的 GPU 工作负载提供硬内存隔离。
根据利用率与待处理需求自动伸缩 GPU 工作负载。
Pod pending 时自动扩展 GPU 节点,与 Karpenter 集成。
抢占低优先级 GPU worker 以提升调度公平性。
提供 RDMA 通路以实现低延迟/高吞吐的远程 GPU 访问与调度。
Hypervisor 存活与就绪探测的 healthz/readyz API。
基于基准测试的高 GPU 数量集群性能优化。
云厂商集成与 Karpenter GPU 节点自动伸缩。
从现有 NVIDIA operator/device-plugin 体系增量迁移。
Hypervisor 原生集成 K8s device plugin,支持标准资源管理。
实时终端 UI 监控 worker 与 GPU 状态。
面向 NVIDIA 的生产级 GPU-over-IP,包含 Windows vGPU 与 Remote GPU 能力。
重构到 Kubernetes scheduler framework 以支持高级调度策略。
集成 Prometheus Alertmanager 用于 GPU 集群告警。
允许工作负载申请多个 GPU 并支持型号过滤。
按 GPU UUID 或 index 设置 CUDA 限额。
加权调度器实现公平的 GPU 资源分配。
支持 TensorFusion Pod 的灰度/金丝雀发布。
Hook CUDA 内存 API 以实现严格内存限制。
基于 TFLOPs 限制 GPU 资源,实现细粒度控制。
通过 maxSkew 参数控制工作负载跨节点分布。
监控 GPU 温度用于热管理与告警。
控制器与引擎的 TFLOPs/VRAM 指标链路打通。
以池方式管理 GPU 资源与组件配置。