LogoTensorFusion 文档
LogoTensorFusion 文档
首页文档

创建AI应用

使用TensorFusion vGPU创建一个AI应用工作负载

步骤 1. 分析计算资源需求与QoS等级

计算初始资源请求

您可以使用TensorFusion云服务获取资源推荐,或通过以下方法估算TFLOPs/显存需求:

显存估算:

  • FP8精度推理情况下,每10亿参数需要约1GiB显存
  • 大语言模型的每1K上下文窗口需要为每个并发用户预留1GB以上额外显存

TFLOPs估算较为复杂,因不同训练/推理框架及模型类型差异较大。建议先在单GPU上运行基准测试并监控利用率,再按用户数/数据量线性扩展,最后通过自动扩缩功能调整。

参考:常见GPU信息

选择QoS等级

  • 低优先级:适合训练和实验任务。保证资源容量但不保证延迟,空闲时可积累突发额度。显存冷却速度快。
  • 中优先级:适合离线任务(如嵌入生成)。保证容量并允许突发,可抢占低优先级任务。无延迟保证,显存冷却速度中等。
  • 高优先级:适合非延迟敏感的在线任务(如推理)。保证容量并优先抢占中优先级任务,显存保持请求水平。
  • 关键优先级:适合实时延迟敏感任务(如实时翻译)。保证容量和低延迟,可抢占大多数任务,显存严格保持请求水平。

步骤 2. 添加工作负载注解

添加Pod注解

tensor-fusion.ai/inject-container: python
tensor-fusion.ai/tflops-limit: '20'
tensor-fusion.ai/tflops-request: '10'
tensor-fusion.ai/vram-limit: 4Gi
tensor-fusion.ai/vram-request: 4Gi
tensor-fusion.ai/qos: medium
tensor-fusion.ai/gpu-count: '1'

使用工作负载配置文件

您也可以创建WorkloadProfile并通过注解引用:tensor-fusion.ai/workload-profile: default-profile

apiVersion: apps/v1
kind: Deployment
metadata:
  name: <...>
spec:
  template:
    metadata:
      labels:
        tensor-fusion.ai/enabled: 'true'
      annotations:
        tensor-fusion.ai/workload-profile: template-for-small-model

完整配置选项参见:工作负载配置

步骤 3. 验证应用状态

  1. 检查是否出现名为inject-lib的新容器

  2. 执行到第一个容器或指定tensor-fusion.ai/inject-container注解的容器中并运行:

nvidia-smi
  1. Verify that:
  • 命令运行成功
  • GPU内存配额已更新为与tensor-fusion.ai/vram-limit设置匹配
  • GPU利用率已更新为与tensor-fusion.ai/tflops-limit设置匹配

目录

步骤 1. 分析计算资源需求与QoS等级
计算初始资源请求
选择QoS等级
步骤 2. 添加工作负载注解
添加Pod注解
使用工作负载配置文件
步骤 3. 验证应用状态