术语解释
TensorFusion 术语与概念速查
本页用于解释 TensorFusion 文档中常见的专业术语,方便快速理解。
基本概念
- TFLOPS:每秒万亿次浮点运算,是算力分配和调度的基本单位;系统统一以 FP16 稠密算力 计量。
- VRAM:GPU/NPU 显存,常用别名“GPU Mem”;系统统一以 MiB 为最小单位计量、分配、调度。
- vGPU:GPU/NPU 设备经过隔离与资源限制后的软件定义虚拟 GPU,对应用来说与物理 GPU 行为一致。
模型与推理相关
- FP16:16 位浮点精度(半精度),常用于训练与推理的主流计算精度。
- BF16:BFloat16 16 位浮点精度,指数范围更大,训练稳定性更好,兼顾精度与性能。
- INT8:8 位整数精度,常用于推理加速与降低显存占用,通常需要量化。
- KV Cache:注意力机制中 Key/Value 的缓存,用于加速长上下文/多轮推理;序列越长,缓存占用越大。
- MoE:Mixture of Experts(专家混合)模型架构,通过稀疏激活部分专家网络来提升参数规模与效率。
TensorFusion 文档