LogoTensorFusion 文档
LogoTensorFusion 文档
首页文档

快速开始

TensorFusion概览在Kubernetes安装在虚拟机/服务器安装(K3S)Helm本地安装在宿主机/虚拟机安装TensorFusion架构

应用操作

创建AI应用配置自动扩缩容迁移现有应用最佳实践

自定义AI基础设施

生产级部署指南QoS级别与计价云厂商集成(BYOC)管理许可证

维护与优化

组件更新配置告警GPU热迁移预加载模型优化GPU效率

故障排除

问题处理手册链路追踪/性能分析查询指标和日志

参考

对比

与NVIDIA vGPU比较与MIG/MPS对比与趋动科技对比与 Run.AI 对比与HAMi的对比

术语解释

TensorFusion 术语与概念速查

本页用于解释 TensorFusion 文档中常见的专业术语,方便快速理解。

基本概念

  • TFLOPS:每秒万亿次浮点运算,是算力分配和调度的基本单位;系统统一以 FP16 稠密算力 计量。
  • VRAM:GPU/NPU 显存,常用别名“GPU Mem”;系统统一以 MiB 为最小单位计量、分配、调度。
  • vGPU:GPU/NPU 设备经过隔离与资源限制后的软件定义虚拟 GPU,对应用来说与物理 GPU 行为一致。

模型与推理相关

  • FP16:16 位浮点精度(半精度),常用于训练与推理的主流计算精度。
  • BF16:BFloat16 16 位浮点精度,指数范围更大,训练稳定性更好,兼顾精度与性能。
  • INT8:8 位整数精度,常用于推理加速与降低显存占用,通常需要量化。
  • KV Cache:注意力机制中 Key/Value 的缓存,用于加速长上下文/多轮推理;序列越长,缓存占用越大。
  • MoE:Mixture of Experts(专家混合)模型架构,通过稀疏激活部分专家网络来提升参数规模与效率。

目录

基本概念
模型与推理相关