LogoTensorFusion 文档
LogoTensorFusion 文档
首页

快速开始

TensorFusion概览在Kubernetes安装在虚拟机/服务器安装(K3S)Helm本地安装在宿主机/虚拟机安装TensorFusion架构

应用操作

创建AI应用配置自动扩缩容迁移现有应用最佳实践

自定义AI基础设施

生产级部署指南QoS级别与计价云厂商集成(BYOC)管理许可证

维护与优化

组件更新配置告警GPU热迁移预加载模型优化GPU效率

故障排除

问题处理手册链路追踪/性能分析查询指标和日志

参考

Helm安装Values配置
Kubernetes 事件监控指标定义性能测试命令行参考GPU/驱动/操作系统支持矩阵TensorFusion 安全白皮书

对比

与NVIDIA vGPU比较与MIG/MPS对比与趋动科技对比与 Run.AI 对比与HAMi的对比
系统管理员参考

Kubernetes 事件

GPUPool 事件

  • ManagedNodeCreated: Normal, 从云厂商创建了GPU节点,以满足容量要求
  • Compaction: Normal, GPU节点自动缩容
  • MaxResourceConstraintReached: Warning, GPU池资源达到预设最大值,无法继续扩容

Pod 事件

  • GPUQuotaOrCapacityNotEnough: Warning, 表示算力资源或配额不足,Pod无法成功调度
  • GPUDeviceAllocatedFailed: Warning, 在调度计算之后的BindingCycle报错,无法将GPU信息写入Pod的Annotation
  • PreScheduleDone: Normal, 调度的SchedulingCycle成功,资源预留成功
  • ScheduleWithNativeGPU: Normal, 在兼容现有Device Plugin的情况下可能出现,让未迁移到TensorFusion的Pod使用物理GPU模式运行
  • GPUDeviceAllocated: Normal, 表示TensorFusion调度器完成了BindingCycle,Pod即将开始使用vGPU运行

GPUResourceQuota

GPUResourceQuota is the Schema for the gpuresourcequotas API

监控指标定义

下一页

目录

GPUPool 事件
Pod 事件