LogoTensorFusion
  • 价格
  • 文档
GPU Go 控制台TensorFusion EE
LogoTensorFusion

大规模异构 GPU 池化和调度 AI 基础设施

GitHubGitHubDiscordYouTubeYouTubeLinkedInEmail
产品
  • 价格
  • 常见问题
资源
  • 博客
  • 文档
  • 生态系统
  • 更新日志
  • 路线图
  • 合作伙伴
公司
  • 关于我们
法律
  • Cookie政策
  • 隐私政策
  • 服务条款
© 2026 NexusGPU PTE. LTD. All Rights Reserved.

更新日志

查看我们产品的最新动态

月度发布 — 2025-12

2025-12

生产就绪的核心引擎,改进隔离与可移植性

2025/12/31

核心引擎特性

  • up_limit >= 100 时跳过 hooks 安装(透传模式)。
  • 增加隔离 annotation,"shard"/"hard" 隔离级别跳过 hook 初始化。
  • device plugin 新增 nvidia-dev-root 选项,支持自定义宿主机路径前缀。
  • hypervisor 从 cgo 重构为 purego 调用,提升可移植性。

技术改进与 Bug 修复

  • 优化 pod 注册 API(fast-path caching)。
  • 优化 rate_limiter 快速路径(up_limit cache)。
  • 修复 hypervisor 启动与名称不匹配问题。
  • 修复 device plugin 与 index queue 问题。
  • 完善 device mock 代码以便测试。
  • 切换到 NexusGPU/frida-gum 分支。
  • 优化 hypervisor、类型定义与 TUI。
  • 改进 Karpenter 权限处理。
  • 修复 pod index split 逻辑。

生态

  • 改进 Karpenter 集成,优化权限处理。

组件版本

  • tensor-fusion-operator:1.48.2
  • tensor-fusion-node-discovery:1.48.2
  • tensor-fusion-worker:1.68.0
  • tensor-fusion-client:1.61.1
  • tensor-fusion-ngpu:1.8.1
  • tensor-fusion-hypervisor:1.41.7

月度发布 — 2025-11

2025-11

分区调度、无锁设备扩展与硬隔离里程碑

2025/11/30

核心引擎特性

  • 实现分区调度,支持硬件分区隔离(类 MIG 模式)。
  • 新增无锁 Kubernetes 设备扩展,提升可扩展性。
  • 引入设备控制器,管理加速卡生命周期。
  • vgpu.rs 支持按 QoS 等级自动冻结配置。
  • tensor-fusion hypervisor 集成 Kubernetes device plugin。
  • 新增 pod 注册覆盖检测。
  • 里程碑:硬隔离模式——空间划分共享(不支持超分)。

技术改进与 Bug 修复

  • 增加 enqueue 扩展插件实现 queue hint,加速重调度。
  • K8s device plugin 设备 ID 范围从 256 扩展到 512。
  • 统一各 crate 的 pod resource 命名。
  • 为 PID 控制器增加 integral_decay_factor,遗忘旧 clamp 数据。
  • 修复 forward leader API 认证问题。
  • 修复大量 pending pod 时节点自动扩容问题。
  • 消除代码重复,优化性能。
  • 跨模块支持 compute shard。
  • 配置中 compute-isolation 重命名为 isolation。

生态

  • 暂无。

月度发布 — 2025-10

2025-10

计算隔离模式(软/硬/共享)、弹性速率限制器与 VRAM 硬隔离

2025/10/31

核心引擎特性

  • 新增 软/硬/共享 计算隔离模式,支持计算百分比调度。
  • 引入 sidecar worker 模式用于硬隔离,支持 annotation 自定义。
  • 支持 VRAM 硬隔离,提供严格内存限制。
  • 实现弹性速率限制器,支持自适应计算节流。
  • 支持从 nvidia.com/gpu limits 简化迁移。

技术改进与 Bug 修复

  • 修复 ld.so.preload is not an ELF file 问题(更改 conf 路径)。
  • 修复远程 worker 计算百分比与 NVML hook 问题。
  • 使用 ld.so.conf.d 管理动态库路径(替代 LD_LIBRARY_PATH)。
  • 增加 so.1 回退,兼容检测 libcuda.so.1 的应用。
  • 修复共享内存清理死锁。
  • 默认禁用 ngpu 模式。
  • 修复节点扩展与 NUMA 节点未找到问题。
  • 优化历史指标加载。
  • 修复 Deployment 只生成单个 workload 的问题。

生态

  • 暂无。

月度发布 — 2025-09

2025-09

自动伸缩、Karpenter 节点扩展与 GPU worker 抢占

2025/09/30

核心引擎特性

  • 实现基于资源利用率的 GPU 工作负载自动伸缩。
  • Pod pending 时支持节点自动扩展,与 Karpenter 集成。
  • 新增 GPU worker 抢占能力,提升调度公平性。
  • 支持单组件自动更新配置。
  • 实现共享内存 TUI 监控工具,便于实时调试。
  • 当 up_limit >= 100 时跳过 kernel launch 限制,支持透传场景。

技术改进与 Bug 修复

  • 优化默认放置与评分策略,提升调度质量。
  • 改进 K8s 版本兼容性,修复 Karpenter label/annotation 问题。
  • 修复 dedicated GPU annotation 导致 webhook 失败的问题。
  • 在 Bind 阶段增加资源校验,防止 GPU 超分配。
  • 修复 GPU UUID 处理,确保跨模块大小写不敏感匹配。
  • 增大默认共享内存到 128 MB 并增加填充。
  • 简化 Limiter 休眠机制为固定时长。
  • 为 GPU K8s node 增加 hash,为 hypervisor 增加 owner ref。
  • 隔离 shm 路径(按 cluster/namespace)。

生态

  • 深化 Karpenter 集成,支持节点扩展与 label/annotation 处理。

月度发布 — 2025-08

2025-08

大规模基准测试、RDMA 支持与 hypervisor 探针

2025/08/31

核心引擎特性

  • 新增 hypervisor 探针 用于健康检查与监控。
  • 实现大规模基准测试与性能优化,支撑高 GPU 数量集群。
  • 新增 计算百分比追踪 指标。
  • 引入 healthz/readyz API 用于 hypervisor 存活与就绪探测。

技术改进与 Bug 修复

  • 增加 kubelet pod-resource 挂载,用于实时 device-plugin 分配检测。
  • 修复 metrics recorder 导致系统指标丢失的问题。
  • 增加 extra metrics label 重映射能力。
  • 优化缩容时 Pod 的排序逻辑。
  • 修复 K8s 1.20-1.22 兼容性问题。
  • 新增内存百分比指标与功耗/NVLink 带宽占位符。
  • 修复低版本 Kubernetes hypervisor 认证问题。
  • 更新 operator Dockerfile。
  • 更新 README 与单元测试覆盖。

生态

  • 里程碑:支持 RDMA 传输,实现低延迟/高吞吐远程 GPU 访问。

月度发布 — 2025-07

2025-07

Karpenter 集成、渐进式迁移与 hypervisor/TUI 增强

2025/07/31

核心引擎特性

  • 新增 GPUNodeClaim 对接云厂商与 Karpenter 自动伸缩。
  • 支持从现有 NVIDIA operator/device-plugin 体系渐进式迁移。
  • 内置组件 manifest 支持 JSON 监控格式与动态标签。
  • worker/hypervisor 容器支持 pod namespace 与 container name 环境变量。
  • 引入共享内存版本控制与跨进程协调机制。
  • vgpu.rs hypervisor 集成 Kubernetes device plugin。
  • 新增实时监控 TUI 工具。
  • 实现 dlsym 钩子与 NVML hook 设备限制(替代环境变量方式)。

技术改进与 Bug 修复

  • 修复 scheduler reserve plugin 与 workload vGPU worker 伸缩问题。
  • 增加 shm device 实现进程间 limiter 共享与 hypervisor 通信。
  • 修复 allocation debug/simulate、allocator 内存状态与空指针问题。
  • 修复远程 worker token review 权限问题。
  • 解决共享内存孤儿锁导致的死锁。
  • 修复 Helm 配置与 GPU node 补丁问题。
  • 发布 x64/arm64 bootstrap 产物。
  • 为 hypervisor 及 init 容器增加安全上下文。

生态

  • 集成 Karpenter 实现 GPU 节点自动伸缩。

月度发布 — 2025-06

2025-06

调度框架重构、告警集成与 NVIDIA 远程能力里程碑

2025/06/30

核心引擎特性

  • 调度器重构到 Kubernetes scheduler framework,支持 ngpu 模式。
  • 集成 告警能力(Alertmanager),优化指标链路。
  • 为 limiter 增加 CUDA 测试套件,保障隔离能力质量。

技术改进与 Bug 修复

  • 修复配置路径不匹配、重复释放 GPU 等问题。
  • 优化 CUDA 核心可用性同步(condvar 替代 busy-wait)。
  • 简化 IPC 处理并改进指标/日志正确性。
  • 优化部署配置与反亲和性设置。
  • 补充 hostType 与 log collection 配置支持。
  • 完善安装指南与使用示例。

生态

  • 里程碑:完整 NVIDIA 远程 GPU 能力,并支持 Windows vGPU / Remote GPU。
  • 集成 AlertManager 用于 GPU 集群告警。

月度发布 — 2025-05

2025-05

支持多 GPU 申请、GPU 型号过滤,以及基于 UUID 的单卡限额

2025/05/31

核心引擎特性

  • 支持客户端申请 多个 GPU,并支持 GPU 型号过滤。
  • 增强 TensorFusionWorkload 状态/条件表达与组件更新流程。
  • 支持基于环境变量按 GPU UUID(或 index) 设置 CUDA 限额。
  • 引入 加权调度 与 构建版本信息。

技术改进与 Bug 修复

  • 优化 worker watcher 解耦与 GPU 利用率异常处理。
  • 改进分配指标,完善 CRD schema/注解。
  • 提升线程管理与懒加载 socket 连接能力。
  • 修复 TFLOPs 指标缺失与部分 GPU 利用率 NVML 异常。
  • 内存中维护所有 GPU 状态,减少 apiserver 访问压力。
  • 启动时打印版本信息,便于排障与追踪。

生态

  • 暂无。

月度发布 — 2025-04

2025-04

支持灰度发布,并强化 limiter 基础(内存 hook、运行时环境工具)

2025/04/30

核心引擎特性

  • 支持 TensorFusion Pod 的 灰度 / 金丝雀发布。
  • 新增 CUDA 内存 hook 能力(如 cuMemCreate),支持更严格的内存限制。
  • 引入 limiter 相关 crate,构建隔离能力基础。
  • add-path 支持 TF_PREPEND_* 前置模式,优化库加载顺序控制。

技术改进与 Bug 修复

  • 改进 Pod cleanup 与 finalizer 语义。
  • 修复 Helm chart、GPU info map 等配置问题。
  • 补充 FOSSA 扫描状态报告与 CI 修复。
  • 修复 release workflow 中的 artifact 下载问题。
  • 完善安装与使用文档。

生态

  • 暂无。

月度发布 — 2025-03

2025-03

基于 TFLOPs 的资源限制、工作负载生命周期增强与更丰富的设备指标

2025/03/31

核心引擎特性

  • 支持基于 TFLOPs 的资源限制与 GPU 信息配置能力。
  • 连接 URL 引入 worker 版本,提升兼容性管理能力。
  • 增加 分布控制(如 maxSkew)优化 workload 在节点间的分布。
  • 支持配置 metrics batch size,并新增 GPU 温度监控能力。
  • 实现 worker 暂停(pause)功能,支持更灵活的调度控制。

技术改进与 Bug 修复

  • 强化 workload finalizer 处理与事件记录机制。
  • 输出 GPU 设备指标,改进 worker 错误处理。
  • 提升 NVML 初始化容错能力,增加 fallback 机制。
  • 修复 pod template hash 与所有权引用相关问题。
  • 支持 Docker 镜像添加 latest 标签,便于集成与部署。

生态

  • 暂无。

月度发布 — 2025-02

2025-02

集群 Reconcile 加固与控制面稳定性提升

2025/02/28

Core Engine Features

  • 增强 集群 Reconcile 与 GPU Node 控制器 ownership 逻辑。
  • 加固控制面在 Node/Controller 资源生命周期管理上的稳定性。

Technical Improvements & Bug Fixes

  • 修复 Node/Controller 生命周期相关稳定性问题(包含控制器 panic)。
  • 完善生命周期处理(destroying 阶段、NotFound 等)并提升 GPU pool controller 鲁棒性。

Ecosystem

  • 暂无(厂商/传输等生态能力会在后续月份集中出现)。

月度发布 — 2025-01

2025-01

指标体系打底与早期调度/可观测性能力建设

2025/01/31

Core Engine Features

  • 在控制器/Operator 与 vGPU 引擎侧完善 GPU 指标体系打底(TFLOPs/VRAM、日志链路)。
  • 强化 GPU Pool / 资源管理 基础能力与控制器侧信号采集。

Technical Improvements & Bug Fixes

  • 修复 webhook/service 配置问题,避免 worker 端口冲突。
  • 改进 GPU 进程指标与 NVML 初始化容错。

Ecosystem

  • 暂无(厂商/传输等生态能力会在后续月份集中出现)。