LogoTensorFusion 文档
LogoTensorFusion 文档
首页

快速开始

TensorFusion概览在Kubernetes安装在虚拟机/服务器安装(K3S)Helm本地安装在宿主机/虚拟机安装TensorFusion架构

应用操作

创建AI应用配置自动扩缩容迁移现有应用最佳实践

自定义AI基础设施

生产级部署指南QoS级别与计价云厂商集成(BYOC)管理许可证

维护与优化

组件更新配置告警GPU热迁移预加载模型优化GPU效率

故障排除

问题处理手册链路追踪/性能分析查询指标和日志

参考

对比

与NVIDIA vGPU比较与MIG/MPS对比与趋动科技对比与 Run.AI 对比与HAMi的对比

最佳实践

基于 TensorFusion Annotation 的资源配置、性能与稳定性最佳实践。

本文聚焦 workload-annotation 的常见配置模式,帮助你在性能、成本和稳定性之间取得平衡。完整 Annotation 列表请参考 Workload Configuration。术语说明可查看 术语解释。

基础用法

1. requests + limits 精准使用算力/显存资源

推荐同时设置 tflops 和 vram 的 requests/limits,避免资源抖动或过度抢占:

metadata:
  annotations:
    tensor-fusion.ai/tflops-request: "10"
    tensor-fusion.ai/tflops-limit: "20"
    tensor-fusion.ai/vram-request: "4Gi"
    tensor-fusion.ai/vram-limit: "4Gi"

如果你需要用百分比控制计算资源,请使用 compute-percent-*,但不要与 tflops-* 同时配置。

你也可以在 Pod resources 中填写 GPU 的 requests/limits。系统会读取 limits 中的 nvidia.com/gpu(或其他厂商资源名),并将其转换为 compute-percent(默认 100%)。当未显式设置 tflops-* 时,requests 会继承 limits。此路径不一定会直接得到具体的 TFLOPs 数值(取决于是否已知 GPU 型号):

spec:
  containers:
    - name: trainer
      resources:
        requests:
          nvidia.com/gpu: "1"
        limits:
          nvidia.com/gpu: "1"

2. 优先开启本地 GPU 模式降低延迟

当任务对延迟敏感,建议开启本地 GPU 模式。Sidecar Worker 能进一步减少通信开销:

metadata:
  annotations:
    tensor-fusion.ai/is-local-gpu: "true"
    tensor-fusion.ai/sidecar-worker: "true"

3. 通过 WorkloadProfile 复用配置

多个工作负载共享相同资源模板时,优先使用 WorkloadProfile,再用 Annotation 覆盖差异项:

metadata:
  annotations:
    tensor-fusion.ai/workload-profile: "default-profile"
    tensor-fusion.ai/tflops-request: "12" # 覆盖 profile 内默认值

4. 多卡场景要显式声明

多卡任务需要设置 gpu-count:

metadata:
  annotations:
    tensor-fusion.ai/gpu-count: "2"

5. 多容器 Pod 明确每个容器的 GPU 资源需求

当一个 Pod 内多个容器都需要使用 GPU 时,建议明确每个容器的 GPU 数量,避免调度歧义:

metadata:
  annotations:
    tensor-fusion.ai/container-gpu-count: '{"trainer":1,"sidecar":1}'

如果未提供每个容器的 GPU 数量,系统默认所有容器共享同一组 GPU;此时无法正确累计 gpu-count,多卡场景可能会被误判为单卡。

高级用法

6. 选对 QoS,匹配业务优先级

对关键推理服务使用更高的 QoS,批处理或离线任务使用较低等级:

metadata:
  annotations:
    tensor-fusion.ai/qos: "high"

7. 需要稳定性能时指定机型或独占 GPU

当模型对 GPU 型号敏感,或需要性能稳定性时:

metadata:
  annotations:
    tensor-fusion.ai/gpu-model: "A100"
    tensor-fusion.ai/dedicated-gpu: "true"

8. 自动化建议:先开 Autoscale,再用 WorkloadProfile 精细化配置

先用注解快速开启自动伸缩,再把细节参数放到 WorkloadProfile:

metadata:
  annotations:
    tensor-fusion.ai/autoscale: "true"
    tensor-fusion.ai/autoscale-target: "all"
    tensor-fusion.ai/workload-profile: "autoscale-default"
  • compute:只自动调整计算资源(TFLOPs/compute-percent)
  • vram:只自动调整显存
  • all:同时自动调整计算 + 显存

WorkloadProfile 示例(基于历史用量自动设置资源):

apiVersion: tensor-fusion.ai/v1
kind: WorkloadProfile
metadata:
  name: autoscale-default
spec:
  autoScalingConfig:
    autoSetResources:
      enable: true
      targetResource: all # compute | vram | all
      historyDataPeriod: 2h
      marginFraction: "0.15"

9. 灰度开启 TensorFusion

在大规模集群中建议用 enabled-replicas 灰度开启:

metadata:
  annotations:
    tensor-fusion.ai/enabled-replicas: "1"

10. 隔离模式按风险选择

  • soft: 默认,适合大部分共享训练/推理
  • hard: 适合多租户或高风险场景
  • partitioned: 需要硬件分区支持时启用
metadata:
  annotations:
    tensor-fusion.ai/isolation: "hard"

常用模型/芯片算力参考

常用模型资源参考

用这个表格整理常见模型在不同场景下的 TFLOPs、显存需求建议;GPU 数量需结合卡型与集群情况灵活调整。

模型 / 任务场景(训练/微调/推理)精度目标 TFLOPs显存需求(大致范围)备注
LLaMA 7B训练(全量)FP16200–400 TFLOPs~50–60 GB小规模训练/从头训练规模
LLaMA 7B推理BF16/INT81–3 TFLOPs~12–14 GB实时推理需求较小
GPT-2 1.5B训练(全量)FP1660–120 TFLOPs~10–20 GB小模型训练场景
DeepSeek-7B微调FP1660–100 TFLOPs~14–18 GBLoRA / 指令微调
DeepSeek-7B推理BF16 / INT81–3 TFLOPs~14–18 GB单卡在线服务
DeepSeek-33B微调FP16180–300 TFLOPs~60–80 GB主流企业微调
DeepSeek-33B推理BF16 / INT86–12 TFLOPs~60–80 GB高质量对话
DeepSeek-67B微调FP16350–600 TFLOPs~120–140 GB大模型私有化
DeepSeek-67B推理BF16 / INT812–25 TFLOPs~120–140 GB高并发需多卡
Kimi-Base(≈30B)推理BF1620–40 TFLOPs~60–70 GB长上下文主因
Kimi-Base推理BF1680–150 TFLOPs~80–150 GBKV Cache 成本极高
Kimi-Base微调FP16250–400 TFLOPs~250–400 GB长文本训练
Kimi-MoE(估)推理BF1615–30 TFLOPs~60–70 GBMoE 激活稀疏
Qwen-7B微调FP1660–100 TFLOPs~24–40 GB/
Qwen-14B微调FP16120–200 TFLOPs~48–60 GB/
Baichuan-13B推理BF164–8 TFLOPs~24–26 GB/

不同芯片算力参考

此数据来源于不同厂商。

GPU 型号厂家FP16/BF16 峰值 TFLOPs
A100nvdia312
H100nvidia800
H200nvida989
MI250Xamd383
MI300Xamd1300+
Ascend 910华为320
Ascend 910B华为400+
Ascend 310P华为16

迁移现有应用

将现有工作负载迁移到TensorFusion GPU池

生产级部署指南

部署生产环境,具有高可用性、可观测性、可灰度、可回滚、高性能

目录

基础用法
1. requests + limits 精准使用算力/显存资源
2. 优先开启本地 GPU 模式降低延迟
3. 通过 WorkloadProfile 复用配置
4. 多卡场景要显式声明
5. 多容器 Pod 明确每个容器的 GPU 资源需求
高级用法
6. 选对 QoS,匹配业务优先级
7. 需要稳定性能时指定机型或独占 GPU
8. 自动化建议:先开 Autoscale,再用 WorkloadProfile 精细化配置
9. 灰度开启 TensorFusion
10. 隔离模式按风险选择
常用模型/芯片算力参考
常用模型资源参考
不同芯片算力参考