LogoTensorFusion 文档
LogoTensorFusion 文档
首页文档

迁移现有应用

将现有工作负载迁移到TensorFusion GPU池

本指南将引导您将现有GPU工作负载迁移到TensorFusion的虚拟化GPU基础设施。迁移过程设计为渐进和安全,允许您在完全切换之前测试新设置。

前置条件

  • 现存工作负载运行在物理GPU上,使用Device Plugin分配GPU资源
  • TensorFusion集群已部署和配置
  • 了解当前工作负载的GPU规格

步骤1:将当前GPU请求映射到vGPU TFlops/VRAM请求

在迁移之前,您需要了解当前GPU资源需求并将其映射到TensorFusion的vGPU规格。

1.1 识别您的GPU实例类型

首先,确定当前工作负载使用的GPU实例类型:

# 检查当前Pod的GPU请求
kubectl describe pod <your-pod-name> | grep -A 5 "Requests:"

1.2 分析资源需求

查找当前GPU实例类型的总TFlops和VRAM规格。您可以在以下位置找到此信息:

  • Cloud提供商文档 (AWS, GCP, Azure)
  • GPU manufacturer specifications (NVIDIA, AMD)
  • 您的集群的节点规格

此外,您需要了解工作负载的总副本数和所需GPU数量,然后查询监控系统以找到与工作负载实际使用情况匹配的最佳TFlops和VRAM模式。

注意:某些框架可能不会报告实际的VRAM使用情况,因为它们内部有GPU内存池,您需要通过模型参数和上下文窗口来计算实际的VRAM使用情况。

1.3 配置Pod注解

将以下注解添加到工作负载的Pod规范中,以匹配您当前的GPU资源:

metadata:
  annotations:
    tensor-fusion.ai/tflops-limit: "{total_tflops_of_instance_type}"
    tensor-fusion.ai/tflops-request: "{total_tflops_of_instance_type}"
    tensor-fusion.ai/vram-limit: "{total_vram_of_instance_type}"
    tensor-fusion.ai/vram-request: "{total_vram_of_instance_type}"

示例:

metadata:
  annotations:
    tensor-fusion.ai/tflops-limit: "312"
    tensor-fusion.ai/tflops-request: "312"
    tensor-fusion.ai/vram-limit: "24Gi"
    tensor-fusion.ai/vram-request: "24Gi"

步骤2:使用TensorFusion部署和测试新工作负载

使用TensorFusion的GPU池部署工作负载的测试版本以验证迁移。

2.1 为工作负载启用TensorFusion

添加以下配置以启用TensorFusion:

标签:

metadata:
  labels:
    tensor-fusion.ai/enabled: "true"

注解:

metadata:
  annotations:
    tensor-fusion.ai/enabled-replicas: "1"  # 从1个副本开始测试

2.2 部署测试工作负载

使用TensorFusion配置部署您的工作负载:

kubectl apply -f your-workload-with-tensorfusion.yaml

2.3 验证迁移

测试您的工作负载以确保它在虚拟化GPU上正常运行:

  • 验证GPU资源分配
  • 运行典型的工作负载测试
  • 监控性能指标
  • 检查任何兼容性问题

步骤3:渐进式流量迁移

测试成功后,逐步将流量从旧工作负载转移到新的启用TensorFusion的工作负载。

3.1 控制流量分配

使用enabled-replicas注解控制使用虚拟化GPU的Pod百分比:

metadata:
  annotations:
    tensor-fusion.ai/enabled-replicas: "{number_of_replicas_to_use_tensorfusion}"

迁移策略:

  • 从25%的副本开始:tensor-fusion.ai/enabled-replicas: "2"(如果您有8个总副本)
  • 逐步增加到50%、75%,最后100%
  • 在每个阶段监控性能和稳定性

3.2 完成迁移

当您对新设置有信心时,将所有副本设置为使用TensorFusion:

metadata:
  annotations:
    tensor-fusion.ai/enabled-replicas: "{total_replicas}"

目录

前置条件
步骤1:将当前GPU请求映射到vGPU TFlops/VRAM请求
1.1 识别您的GPU实例类型
1.2 分析资源需求
1.3 配置Pod注解
步骤2:使用TensorFusion部署和测试新工作负载
2.1 为工作负载启用TensorFusion
2.2 部署测试工作负载
2.3 验证迁移
步骤3:渐进式流量迁移
3.1 控制流量分配
3.2 完成迁移