TensorFusion 文档

TensorFusion 文档

快速开始

TensorFusion概览在Kubernetes安装在虚拟机/服务器安装（K3S）Helm本地安装在宿主机/虚拟机安装 TensorFusion架构

应用操作

创建AI应用配置自动扩缩容迁移现有应用最佳实践

自定义AI基础设施

生产级部署指南 QoS级别与计价云厂商集成(BYOC)管理许可证

维护与优化

组件更新配置告警 GPU热迁移预加载模型优化GPU效率

故障排除

问题处理手册链路追踪/性能分析查询指标和日志

参考

Helm安装Values配置

Kubernetes 事件监控指标定义性能测试命令行参考 GPU/驱动/操作系统支持矩阵 TensorFusion 安全白皮书

对比

与NVIDIA vGPU比较与MIG/MPS对比与趋动科技对比与 Run.AI 对比与HAMi的对比

系统管理员参考

Kubernetes 事件

GPUPool 事件

ManagedNodeCreated： Normal, 从云厂商创建了GPU节点，以满足容量要求
Compaction: Normal, GPU节点自动缩容
MaxResourceConstraintReached: Warning, GPU池资源达到预设最大值，无法继续扩容

Pod 事件

GPUQuotaOrCapacityNotEnough: Warning, 表示算力资源或配额不足，Pod无法成功调度
GPUDeviceAllocatedFailed: Warning, 在调度计算之后的BindingCycle报错，无法将GPU信息写入Pod的Annotation
PreScheduleDone: Normal, 调度的SchedulingCycle成功，资源预留成功
ScheduleWithNativeGPU: Normal, 在兼容现有Device Plugin的情况下可能出现，让未迁移到TensorFusion的Pod使用物理GPU模式运行
GPUDeviceAllocated: Normal, 表示TensorFusion调度器完成了BindingCycle，Pod即将开始使用vGPU运行

GPUResourceQuota

GPUResourceQuota is the Schema for the gpuresourcequotas API

监控指标定义

下一页

目录