LogoTensorFusion 文档
LogoTensorFusion 文档
首页

快速开始

TensorFusion概览在Kubernetes安装在虚拟机/服务器安装(K3S)Helm本地安装在宿主机/虚拟机安装TensorFusion架构

应用操作

创建AI应用配置自动扩缩容迁移现有应用最佳实践

自定义AI基础设施

生产级部署指南QoS级别与计价云厂商集成(BYOC)管理许可证

维护与优化

组件更新配置告警GPU热迁移预加载模型优化GPU效率

故障排除

问题处理手册链路追踪/性能分析查询指标和日志

参考

对比

与NVIDIA vGPU比较与MIG/MPS对比与趋动科技对比与 Run.AI 对比与HAMi的对比

查询指标和日志

从GreptimeDB查询原始监控指标和日志数据

Under Construction

默认情况下,TensorFusion部署时会包含GreptimeDB,您可以通过查询原始TSDB数据深入了解指标和日志。

kubectl port-forward -n tensor-fusion-sys svc/greptime 4000:4000

在浏览器中打开 http://localhost:4000/dashboard。

您可以使用以下SQL查询原始TSDB数据,所有表格和字段的文档可以在这里找到:

SELECT * FROM tensor_fusion_cluster;

示例输出:

注意: 如果您配置了GreptimeDB Cloud,可以直接从GreptimeDB Cloud控制台查询数据。

链路追踪/性能分析

高级问题排查工具,包括vGPU调用追踪/性能分析,Hypervisor TUI等。

工作负载配置

本文档解释了如何使用Pod Annotation和WorkloadProfile自定义资源为AI应用分配vGPU资源。