迁移现有应用

本指南将引导您将现有GPU工作负载迁移到TensorFusion的虚拟化GPU基础设施。迁移过程设计为渐进和安全，允许您在完全切换之前测试新设置。

前置条件

现存工作负载运行在物理GPU上，使用Device Plugin分配GPU资源
TensorFusion集群已部署和配置
了解当前工作负载的GPU规格

步骤1：将当前GPU请求映射到vGPU TFlops/VRAM请求

在迁移之前，您需要了解当前GPU资源需求并将其映射到TensorFusion的vGPU规格。

1.1 识别您的GPU实例类型

首先，确定当前工作负载使用的GPU实例类型：

# 检查当前Pod的GPU请求
kubectl describe pod <your-pod-name> | grep -A 5 "Requests:"

1.2 分析资源需求

查找当前GPU实例类型的总TFlops和VRAM规格。您可以在以下位置找到此信息：

Cloud提供商文档 (AWS, GCP, Azure)
GPU manufacturer specifications (NVIDIA, AMD)
您的集群的节点规格

此外，您需要了解工作负载的总副本数和所需GPU数量，然后查询监控系统以找到与工作负载实际使用情况匹配的最佳TFlops和VRAM模式。

注意：某些框架可能不会报告实际的VRAM使用情况，因为它们内部有GPU内存池，您需要通过模型参数和上下文窗口来计算实际的VRAM使用情况。

1.3 配置Pod注解

将以下注解添加到工作负载的Pod规范中，以匹配您当前的GPU资源：

metadata:
  annotations:
    tensor-fusion.ai/tflops-limit: "{total_tflops_of_instance_type}"
    tensor-fusion.ai/tflops-request: "{total_tflops_of_instance_type}"
    tensor-fusion.ai/vram-limit: "{total_vram_of_instance_type}"
    tensor-fusion.ai/vram-request: "{total_vram_of_instance_type}"

示例：

metadata:
  annotations:
    tensor-fusion.ai/tflops-limit: "312"
    tensor-fusion.ai/tflops-request: "312"
    tensor-fusion.ai/vram-limit: "24Gi"
    tensor-fusion.ai/vram-request: "24Gi"

步骤2：使用TensorFusion部署和测试新工作负载

使用TensorFusion的GPU池部署工作负载的测试版本以验证迁移。

2.1 为工作负载启用TensorFusion

添加以下配置以启用TensorFusion：

标签：

metadata:
  labels:
    tensor-fusion.ai/enabled: "true"

注解：

metadata:
  annotations:
    tensor-fusion.ai/enabled-replicas: "1"  # 从1个副本开始测试

2.2 部署测试工作负载

使用TensorFusion配置部署您的工作负载：

kubectl apply -f your-workload-with-tensorfusion.yaml

2.3 验证迁移

测试您的工作负载以确保它在虚拟化GPU上正常运行：

验证GPU资源分配
运行典型的工作负载测试
监控性能指标
检查任何兼容性问题

步骤3：渐进式流量迁移

测试成功后，逐步将流量从旧工作负载转移到新的启用TensorFusion的工作负载。

3.1 控制流量分配

使用enabled-replicas注解控制使用虚拟化GPU的Pod百分比：

metadata:
  annotations:
    tensor-fusion.ai/enabled-replicas: "{number_of_replicas_to_use_tensorfusion}"

迁移策略：

从25%的副本开始：tensor-fusion.ai/enabled-replicas: "2"（如果您有8个总副本）
逐步增加到50%、75%，最后100%
在每个阶段监控性能和稳定性

3.2 完成迁移

当您对新设置有信心时，将所有副本设置为使用TensorFusion：

metadata:
  annotations:
    tensor-fusion.ai/enabled-replicas: "{total_replicas}"

本指南将引导您将现有GPU工作负载迁移到TensorFusion的虚拟化GPU基础设施。迁移过程设计为渐进和安全，允许您在完全切换之前测试新设置。

前置条件

现存工作负载运行在物理GPU上，使用Device Plugin分配GPU资源
TensorFusion集群已部署和配置
了解当前工作负载的GPU规格

步骤1：将当前GPU请求映射到vGPU TFlops/VRAM请求

在迁移之前，您需要了解当前GPU资源需求并将其映射到TensorFusion的vGPU规格。

1.1 识别您的GPU实例类型

首先，确定当前工作负载使用的GPU实例类型：

# 检查当前Pod的GPU请求
kubectl describe pod <your-pod-name> | grep -A 5 "Requests:"

1.2 分析资源需求

查找当前GPU实例类型的总TFlops和VRAM规格。您可以在以下位置找到此信息：

Cloud提供商文档 (AWS, GCP, Azure)
GPU manufacturer specifications (NVIDIA, AMD)
您的集群的节点规格

此外，您需要了解工作负载的总副本数和所需GPU数量，然后查询监控系统以找到与工作负载实际使用情况匹配的最佳TFlops和VRAM模式。

注意：某些框架可能不会报告实际的VRAM使用情况，因为它们内部有GPU内存池，您需要通过模型参数和上下文窗口来计算实际的VRAM使用情况。

1.3 配置Pod注解

将以下注解添加到工作负载的Pod规范中，以匹配您当前的GPU资源：

metadata:
  annotations:
    tensor-fusion.ai/tflops-limit: "{total_tflops_of_instance_type}"
    tensor-fusion.ai/tflops-request: "{total_tflops_of_instance_type}"
    tensor-fusion.ai/vram-limit: "{total_vram_of_instance_type}"
    tensor-fusion.ai/vram-request: "{total_vram_of_instance_type}"

示例：

metadata:
  annotations:
    tensor-fusion.ai/tflops-limit: "312"
    tensor-fusion.ai/tflops-request: "312"
    tensor-fusion.ai/vram-limit: "24Gi"
    tensor-fusion.ai/vram-request: "24Gi"

步骤2：使用TensorFusion部署和测试新工作负载

使用TensorFusion的GPU池部署工作负载的测试版本以验证迁移。

2.1 为工作负载启用TensorFusion

添加以下配置以启用TensorFusion：

标签：

metadata:
  labels:
    tensor-fusion.ai/enabled: "true"

注解：

metadata:
  annotations:
    tensor-fusion.ai/enabled-replicas: "1"  # 从1个副本开始测试

2.2 部署测试工作负载

使用TensorFusion配置部署您的工作负载：

kubectl apply -f your-workload-with-tensorfusion.yaml

2.3 验证迁移

测试您的工作负载以确保它在虚拟化GPU上正常运行：

验证GPU资源分配
运行典型的工作负载测试
监控性能指标
检查任何兼容性问题

步骤3：渐进式流量迁移

测试成功后，逐步将流量从旧工作负载转移到新的启用TensorFusion的工作负载。

3.1 控制流量分配

使用enabled-replicas注解控制使用虚拟化GPU的Pod百分比：

metadata:
  annotations:
    tensor-fusion.ai/enabled-replicas: "{number_of_replicas_to_use_tensorfusion}"

迁移策略：

从25%的副本开始：tensor-fusion.ai/enabled-replicas: "2"（如果您有8个总副本）
逐步增加到50%、75%，最后100%
在每个阶段监控性能和稳定性

3.2 完成迁移

当您对新设置有信心时，将所有副本设置为使用TensorFusion：

metadata:
  annotations:
    tensor-fusion.ai/enabled-replicas: "{total_replicas}"

前置条件

步骤1：将当前GPU请求映射到vGPU TFlops/VRAM请求

1.1 识别您的GPU实例类型

1.2 分析资源需求

1.3 配置Pod注解

步骤2：使用TensorFusion部署和测试新工作负载

2.1 为工作负载启用TensorFusion

2.2 部署测试工作负载

2.3 验证迁移

步骤3：渐进式流量迁移

3.1 控制流量分配

3.2 完成迁移

目录

迁移现有应用

前置条件

步骤1：将当前GPU请求映射到vGPU TFlops/VRAM请求

1.1 识别您的GPU实例类型

1.2 分析资源需求

1.3 配置Pod注解

步骤2：使用TensorFusion部署和测试新工作负载

2.1 为工作负载启用TensorFusion

2.2 部署测试工作负载

2.3 验证迁移

步骤3：渐进式流量迁移

3.1 控制流量分配

3.2 完成迁移

目录