LogoTensorFusion
  • 价格
  • 文档
GPU Go 控制台TensorFusion EE
LogoTensorFusion

大规模异构 GPU 池化和调度 AI 基础设施

GitHubGitHubDiscordYouTubeYouTubeLinkedInEmail
产品
  • 价格
  • 常见问题
资源
  • 博客
  • 文档
  • 生态系统
  • 更新日志
  • 路线图
  • 合作伙伴
公司
  • 关于我们
法律
  • Cookie政策
  • 隐私政策
  • 服务条款
© 2026 NexusGPU PTE. LTD. All Rights Reserved.

路线图

探索我们的未来计划和即将推出的功能

去 GitHub 参与讨论
产品
任务类型
Backlog6

从不同宿主机挂载多个远程 GPU

聚合来自不同宿主机的远程 GPU,对工作负载呈现为统一的逻辑资源池。

GPU GoTensor Netfeaturearchitecture

MetaX GPU 支持

对接 MetaX 生态:发现、监控遥测与可用隔离模式适配。

Tensor Fusion EngineTensor OSecosystem

AWS Neuron 支持

支持 Neuron 设备的调度、监控与可复用隔离模板(在可行范围内)。

Tensor Fusion EngineTensor OSTensor Netecosystemarchitecture

TensorNet 跨集群 GPU 调度

面向多集群/多地域的调度与路由,支持"算到数"策略与全局配额。

Tensor Netfeaturearchitecture

GPU Go 云同步与多设备

GPU Go 个人/团队版的跨设备 GPU 资源同步能力。

GPU Gofeature

AI 模型仓库与预加载

构建私有 MaaS(模型即服务),支持模型缓存与预加载。

Tensor OSTensor Netfeature
进行中5

昇腾 NPU 软隔离(Soft-isolation)

面向昇腾 NPU 超分场景的可用 limiter 工作流与可观测性增强。

Tensor Fusion EngineTensor OSfeatureecosystem
2026 Q1–Q2

AMD GPU 软隔离(Soft-isolation)

面向 AMD GPU 的 hook 时间共享隔离能力,与 TensorFusion 配额与调度体系打通。

Tensor Fusion Enginefeatureecosystem
2026 Q1

Gang 调度

为多 vGPU / 多加速卡工作负载提供原子调度与一致性放置能力。

Tensor Fusion EngineTensor Netfeaturearchitecture

拓扑感知调度

感知 NUMA/NVLink/PCIe/IB 拓扑进行放置,提升性能与稳定性。

Tensor Fusion EngineTensor Netarchitecture

Benchmark 矩阵

覆盖多厂商、多隔离模式、传输(以太网/RDMA)与多框架的标准化基准测试套件。

Tensor Fusion Engineperformance
已发布33

AMD GPU 远程支持

支持 AMD GPU 远程能力,并接入 TensorFusion 调度与遥测。

Tensor Fusion EngineTensor OSfeatureecosystem
2026-01

海光 DCU 远程支持

支持海光 DCU 的远程路径,并纳入统一调度体系。

Tensor Fusion EngineTensor OSecosystemfeature
2025-12

NPU 虚拟化模板

为 NPU 提供标准化的分区/隔离模板,加速接入与运维。

Tensor OSTensor Fusion Enginearchitecturefeature
2025-12

异构设备支持

在同一集群中支持多种 GPU/NPU 厂商,统一调度管理。

Tensor Fusion EngineTensor OSarchitectureecosystem
2025-12

硬隔离:空间划分共享模式

空间划分的硬隔离模式,提供更强的隔离保障(不支持超分)。

Tensor Fusion Enginearchitecture
2025-11

分区调度(类 MIG)

支持 MIG 等硬件分区隔离的调度能力。

Tensor Fusion Enginearchitecturefeature
2025-11

设备控制器

专用控制器管理加速卡生命周期与健康状态。

Tensor Fusion Enginearchitecture
2025-11

软/硬/共享隔离模式

三种隔离模式用于计算百分比调度,满足不同场景需求。

Tensor Fusion Enginearchitecturefeature
2025-10

弹性速率限制器

基于 PID 控制器的自适应计算节流,实现平滑资源共享。

Tensor Fusion Engineperformancearchitecture
2025-10

VRAM 硬隔离

为需要严格内存限制的 GPU 工作负载提供硬内存隔离。

Tensor Fusion Enginearchitecture
2025-10

GPU 工作负载自动伸缩

根据利用率与待处理需求自动伸缩 GPU 工作负载。

Tensor Fusion EngineTensor OSfeature
2025-09

Karpenter 节点扩展

Pod pending 时自动扩展 GPU 节点,与 Karpenter 集成。

Tensor Fusion EngineTensor OSfeatureecosystem
2025-09

GPU Worker 抢占

抢占低优先级 GPU worker 以提升调度公平性。

Tensor Fusion Enginefeature
2025-09

RDMA 传输支持

提供 RDMA 通路以实现低延迟/高吞吐的远程 GPU 访问与调度。

Tensor Fusion EngineTensor Netperformancearchitecture
2025-08

Hypervisor 健康探针

Hypervisor 存活与就绪探测的 healthz/readyz API。

Tensor Fusion Enginearchitecture
2025-08

大规模基准测试与优化

基于基准测试的高 GPU 数量集群性能优化。

Tensor Fusion Engineperformance
2025-08

GPUNodeClaim 与 Karpenter 集成

云厂商集成与 Karpenter GPU 节点自动伸缩。

Tensor Fusion EngineTensor OSfeatureecosystem
2025-07

从 NVIDIA operator 渐进式迁移

从现有 NVIDIA operator/device-plugin 体系增量迁移。

Tensor Fusion Enginefeature
2025-07

Kubernetes device plugin 集成

Hypervisor 原生集成 K8s device plugin,支持标准资源管理。

Tensor Fusion Enginearchitecture
2025-07

Hypervisor TUI 监控

实时终端 UI 监控 worker 与 GPU 状态。

Tensor Fusion Enginefeature
2025-07

完整 NVIDIA 远程 GPU 能力

面向 NVIDIA 的生产级 GPU-over-IP,包含 Windows vGPU 与 Remote GPU 能力。

Tensor Fusion EngineTensor OSfeaturearchitecture
2025-06

K8s 调度框架重构

重构到 Kubernetes scheduler framework 以支持高级调度策略。

Tensor Fusion Enginearchitecture
2025-06

Alertmanager 集成

集成 Prometheus Alertmanager 用于 GPU 集群告警。

Tensor Fusion EngineTensor OSecosystem
2025-06

多 GPU 申请

允许工作负载申请多个 GPU 并支持型号过滤。

Tensor Fusion Enginefeature
2025-05

按 GPU UUID 限额

按 GPU UUID 或 index 设置 CUDA 限额。

Tensor Fusion Enginefeature
2025-05

加权调度

加权调度器实现公平的 GPU 资源分配。

Tensor Fusion Enginefeature
2025-05

TF Pod 灰度发布

支持 TensorFusion Pod 的灰度/金丝雀发布。

Tensor Fusion Enginefeature
2025-04

CUDA 内存 hook(cuMemCreate)

Hook CUDA 内存 API 以实现严格内存限制。

Tensor Fusion Enginearchitecture
2025-04

基于 TFLOPs 的资源限制

基于 TFLOPs 限制 GPU 资源,实现细粒度控制。

Tensor Fusion Enginefeature
2025-03

分布控制(maxSkew)

通过 maxSkew 参数控制工作负载跨节点分布。

Tensor Fusion Enginefeature
2025-03

GPU 温度监控

监控 GPU 温度用于热管理与告警。

Tensor Fusion Enginefeature
2025-03

GPU 指标体系打底

控制器与引擎的 TFLOPs/VRAM 指标链路打通。

Tensor Fusion Enginearchitecture
2025-01

GPU 池管理

以池方式管理 GPU 资源与组件配置。

Tensor Fusion Enginefeature
2025-01