TensorFusion 文档

TensorFusion 文档

快速开始

TensorFusion概览在Kubernetes安装在虚拟机/服务器安装（K3S）Helm本地安装在宿主机/虚拟机安装 TensorFusion架构

应用操作

创建AI应用配置自动扩缩容迁移现有应用最佳实践

自定义AI基础设施

生产级部署指南 QoS级别与计价云厂商集成(BYOC)管理许可证

维护与优化

组件更新配置告警 GPU热迁移预加载模型优化GPU效率

故障排除

问题处理手册链路追踪/性能分析查询指标和日志

参考

对比

与NVIDIA vGPU比较与MIG/MPS对比与趋动科技对比与 Run.AI 对比与HAMi的对比

术语解释

TensorFusion 术语与概念速查

本页用于解释 TensorFusion 文档中常见的专业术语，方便快速理解。

基本概念

TFLOPS：每秒万亿次浮点运算，是算力分配和调度的基本单位；系统统一以 FP16 稠密算力 计量。
VRAM：GPU/NPU 显存，常用别名“GPU Mem”；系统统一以 MiB 为最小单位计量、分配、调度。
vGPU：GPU/NPU 设备经过隔离与资源限制后的软件定义虚拟 GPU，对应用来说与物理 GPU 行为一致。

模型与推理相关

FP16：16 位浮点精度（半精度），常用于训练与推理的主流计算精度。
BF16：BFloat16 16 位浮点精度，指数范围更大，训练稳定性更好，兼顾精度与性能。
INT8：8 位整数精度，常用于推理加速与降低显存占用，通常需要量化。
KV Cache：注意力机制中 Key/Value 的缓存，用于加速长上下文/多轮推理；序列越长，缓存占用越大。
MoE：Mixture of Experts（专家混合）模型架构，通过稀疏激活部分专家网络来提升参数规模与效率。

目录

模型与推理相关