更新日志

查看我们产品的最新动态

月度发布 — 2025-12

2025-12

生产就绪的核心引擎，改进隔离与可移植性

2025/12/31

核心引擎特性

up_limit >= 100 时跳过 hooks 安装（透传模式）。
增加隔离 annotation，"shard"/"hard" 隔离级别跳过 hook 初始化。
device plugin 新增 nvidia-dev-root 选项，支持自定义宿主机路径前缀。
hypervisor 从 cgo 重构为 purego 调用，提升可移植性。

技术改进与 Bug 修复

优化 pod 注册 API（fast-path caching）。
优化 rate_limiter 快速路径（up_limit cache）。
修复 hypervisor 启动与名称不匹配问题。
修复 device plugin 与 index queue 问题。
完善 device mock 代码以便测试。
切换到 NexusGPU/frida-gum 分支。
优化 hypervisor、类型定义与 TUI。
改进 Karpenter 权限处理。
修复 pod index split 逻辑。

生态

改进 Karpenter 集成，优化权限处理。

组件版本

tensor-fusion-operator:1.48.2
tensor-fusion-node-discovery:1.48.2
tensor-fusion-worker:1.68.0
tensor-fusion-client:1.61.1
tensor-fusion-ngpu:1.8.1
tensor-fusion-hypervisor:1.41.7

月度发布 — 2025-11

2025-11

分区调度、无锁设备扩展与硬隔离里程碑

2025/11/30

核心引擎特性

实现分区调度，支持硬件分区隔离（类 MIG 模式）。
新增无锁 Kubernetes 设备扩展，提升可扩展性。
引入设备控制器，管理加速卡生命周期。
vgpu.rs 支持按 QoS 等级自动冻结配置。
tensor-fusion hypervisor 集成 Kubernetes device plugin。
新增 pod 注册覆盖检测。
里程碑：硬隔离模式——空间划分共享（不支持超分）。

技术改进与 Bug 修复

增加 enqueue 扩展插件实现 queue hint，加速重调度。
K8s device plugin 设备 ID 范围从 256 扩展到 512。
统一各 crate 的 pod resource 命名。
为 PID 控制器增加 integral_decay_factor，遗忘旧 clamp 数据。
修复 forward leader API 认证问题。
修复大量 pending pod 时节点自动扩容问题。
消除代码重复，优化性能。
跨模块支持 compute shard。
配置中 compute-isolation 重命名为 isolation。

生态

暂无。

月度发布 — 2025-10

2025-10

计算隔离模式（软/硬/共享）、弹性速率限制器与 VRAM 硬隔离

2025/10/31

核心引擎特性

新增 软/硬/共享计算隔离模式，支持计算百分比调度。
引入 sidecar worker 模式用于硬隔离，支持 annotation 自定义。
支持 VRAM 硬隔离，提供严格内存限制。
实现弹性速率限制器，支持自适应计算节流。
支持从 nvidia.com/gpu limits 简化迁移。

技术改进与 Bug 修复

修复 ld.so.preload is not an ELF file 问题（更改 conf 路径）。
修复远程 worker 计算百分比与 NVML hook 问题。
使用 ld.so.conf.d 管理动态库路径（替代 LD_LIBRARY_PATH）。
增加 so.1 回退，兼容检测 libcuda.so.1 的应用。
修复共享内存清理死锁。
默认禁用 ngpu 模式。
修复节点扩展与 NUMA 节点未找到问题。
优化历史指标加载。
修复 Deployment 只生成单个 workload 的问题。

生态

暂无。

月度发布 — 2025-09

2025-09

自动伸缩、Karpenter 节点扩展与 GPU worker 抢占

2025/09/30

核心引擎特性

实现基于资源利用率的 GPU 工作负载自动伸缩。
Pod pending 时支持节点自动扩展，与 Karpenter 集成。
新增 GPU worker 抢占能力，提升调度公平性。
支持单组件自动更新配置。
实现共享内存 TUI 监控工具，便于实时调试。
当 up_limit >= 100 时跳过 kernel launch 限制，支持透传场景。

技术改进与 Bug 修复

优化默认放置与评分策略，提升调度质量。
改进 K8s 版本兼容性，修复 Karpenter label/annotation 问题。
修复 dedicated GPU annotation 导致 webhook 失败的问题。
在 Bind 阶段增加资源校验，防止 GPU 超分配。
修复 GPU UUID 处理，确保跨模块大小写不敏感匹配。
增大默认共享内存到 128 MB 并增加填充。
简化 Limiter 休眠机制为固定时长。
为 GPU K8s node 增加 hash，为 hypervisor 增加 owner ref。
隔离 shm 路径（按 cluster/namespace）。

生态

深化 Karpenter 集成，支持节点扩展与 label/annotation 处理。

月度发布 — 2025-08

2025-08

大规模基准测试、RDMA 支持与 hypervisor 探针

2025/08/31

核心引擎特性

新增 hypervisor 探针 用于健康检查与监控。
实现大规模基准测试与性能优化，支撑高 GPU 数量集群。
新增 计算百分比追踪 指标。
引入 healthz/readyz API 用于 hypervisor 存活与就绪探测。

技术改进与 Bug 修复

增加 kubelet pod-resource 挂载，用于实时 device-plugin 分配检测。
修复 metrics recorder 导致系统指标丢失的问题。
增加 extra metrics label 重映射能力。
优化缩容时 Pod 的排序逻辑。
修复 K8s 1.20-1.22 兼容性问题。
新增内存百分比指标与功耗/NVLink 带宽占位符。
修复低版本 Kubernetes hypervisor 认证问题。
更新 operator Dockerfile。
更新 README 与单元测试覆盖。

生态

里程碑：支持 RDMA 传输，实现低延迟/高吞吐远程 GPU 访问。

月度发布 — 2025-07

2025-07

Karpenter 集成、渐进式迁移与 hypervisor/TUI 增强

2025/07/31

核心引擎特性

新增 GPUNodeClaim 对接云厂商与 Karpenter 自动伸缩。
支持从现有 NVIDIA operator/device-plugin 体系渐进式迁移。
内置组件 manifest 支持 JSON 监控格式与动态标签。
worker/hypervisor 容器支持 pod namespace 与 container name 环境变量。
引入共享内存版本控制与跨进程协调机制。
vgpu.rs hypervisor 集成 Kubernetes device plugin。
新增实时监控 TUI 工具。
实现 dlsym 钩子与 NVML hook 设备限制（替代环境变量方式）。

技术改进与 Bug 修复

修复 scheduler reserve plugin 与 workload vGPU worker 伸缩问题。
增加 shm device 实现进程间 limiter 共享与 hypervisor 通信。
修复 allocation debug/simulate、allocator 内存状态与空指针问题。
修复远程 worker token review 权限问题。
解决共享内存孤儿锁导致的死锁。
修复 Helm 配置与 GPU node 补丁问题。
发布 x64/arm64 bootstrap 产物。
为 hypervisor 及 init 容器增加安全上下文。

生态

集成 Karpenter 实现 GPU 节点自动伸缩。

月度发布 — 2025-06

2025-06

调度框架重构、告警集成与 NVIDIA 远程能力里程碑

2025/06/30

核心引擎特性

调度器重构到 Kubernetes scheduler framework，支持 ngpu 模式。
集成 告警能力（Alertmanager），优化指标链路。
为 limiter 增加 CUDA 测试套件，保障隔离能力质量。

技术改进与 Bug 修复

修复配置路径不匹配、重复释放 GPU 等问题。
优化 CUDA 核心可用性同步（condvar 替代 busy-wait）。
简化 IPC 处理并改进指标/日志正确性。
优化部署配置与反亲和性设置。
补充 hostType 与 log collection 配置支持。
完善安装指南与使用示例。

生态

里程碑：完整 NVIDIA 远程 GPU 能力，并支持 Windows vGPU / Remote GPU。
集成 AlertManager 用于 GPU 集群告警。

月度发布 — 2025-05

2025-05

支持多 GPU 申请、GPU 型号过滤，以及基于 UUID 的单卡限额

2025/05/31

核心引擎特性

支持客户端申请 多个 GPU，并支持 GPU 型号过滤。
增强 TensorFusionWorkload 状态/条件表达与组件更新流程。
支持基于环境变量按 GPU UUID（或 index） 设置 CUDA 限额。
引入 加权调度 与 构建版本信息。

技术改进与 Bug 修复

优化 worker watcher 解耦与 GPU 利用率异常处理。
改进分配指标，完善 CRD schema/注解。
提升线程管理与懒加载 socket 连接能力。
修复 TFLOPs 指标缺失与部分 GPU 利用率 NVML 异常。
内存中维护所有 GPU 状态，减少 apiserver 访问压力。
启动时打印版本信息，便于排障与追踪。

生态

暂无。

月度发布 — 2025-04

2025-04

支持灰度发布，并强化 limiter 基础（内存 hook、运行时环境工具）

2025/04/30

核心引擎特性

支持 TensorFusion Pod 的 灰度 / 金丝雀发布。
新增 CUDA 内存 hook 能力（如 cuMemCreate），支持更严格的内存限制。
引入 limiter 相关 crate，构建隔离能力基础。
add-path 支持 TF_PREPEND_* 前置模式，优化库加载顺序控制。

技术改进与 Bug 修复

改进 Pod cleanup 与 finalizer 语义。
修复 Helm chart、GPU info map 等配置问题。
补充 FOSSA 扫描状态报告与 CI 修复。
修复 release workflow 中的 artifact 下载问题。
完善安装与使用文档。

生态

暂无。

月度发布 — 2025-03

2025-03

基于 TFLOPs 的资源限制、工作负载生命周期增强与更丰富的设备指标

2025/03/31

核心引擎特性

支持基于 TFLOPs 的资源限制与 GPU 信息配置能力。
连接 URL 引入 worker 版本，提升兼容性管理能力。
增加 分布控制（如 maxSkew）优化 workload 在节点间的分布。
支持配置 metrics batch size，并新增 GPU 温度监控能力。
实现 worker 暂停（pause）功能，支持更灵活的调度控制。

技术改进与 Bug 修复

强化 workload finalizer 处理与事件记录机制。
输出 GPU 设备指标，改进 worker 错误处理。
提升 NVML 初始化容错能力，增加 fallback 机制。
修复 pod template hash 与所有权引用相关问题。
支持 Docker 镜像添加 latest 标签，便于集成与部署。

生态

暂无。

月度发布 — 2025-02

2025-02

集群 Reconcile 加固与控制面稳定性提升

2025/02/28

Core Engine Features

增强 集群 Reconcile 与 GPU Node 控制器 ownership 逻辑。
加固控制面在 Node/Controller 资源生命周期管理上的稳定性。

Technical Improvements & Bug Fixes

修复 Node/Controller 生命周期相关稳定性问题（包含控制器 panic）。
完善生命周期处理（destroying 阶段、NotFound 等）并提升 GPU pool controller 鲁棒性。

Ecosystem

暂无（厂商/传输等生态能力会在后续月份集中出现）。

月度发布 — 2025-01

2025-01

指标体系打底与早期调度/可观测性能力建设

2025/01/31

Core Engine Features

在控制器/Operator 与 vGPU 引擎侧完善 GPU 指标体系打底（TFLOPs/VRAM、日志链路）。
强化 GPU Pool / 资源管理 基础能力与控制器侧信号采集。

Technical Improvements & Bug Fixes

修复 webhook/service 配置问题，避免 worker 端口冲突。
改进 GPU 进程指标与 NVML 初始化容错。

Ecosystem

暂无（厂商/传输等生态能力会在后续月份集中出现）。

核心引擎特性

新增 软/硬/共享计算隔离模式，支持计算百分比调度。
引入 sidecar worker 模式用于硬隔离，支持 annotation 自定义。
支持 VRAM 硬隔离，提供严格内存限制。
实现弹性速率限制器，支持自适应计算节流。
支持从 nvidia.com/gpu limits 简化迁移。

技术改进与 Bug 修复

修复 ld.so.preload is not an ELF file 问题（更改 conf 路径）。
修复远程 worker 计算百分比与 NVML hook 问题。
使用 ld.so.conf.d 管理动态库路径（替代 LD_LIBRARY_PATH）。
增加 so.1 回退，兼容检测 libcuda.so.1 的应用。
修复共享内存清理死锁。
默认禁用 ngpu 模式。
修复节点扩展与 NUMA 节点未找到问题。
优化历史指标加载。
修复 Deployment 只生成单个 workload 的问题。

生态

暂无。