大普微实测解析 Windows Server 2025 原生 NVMe 优势

2026.05.22浏览次数：33671DapuStor

进入 AI 时代，海量数据的并行处理与高频交互需求呈指数级上升。在硬件层面，PCIe 5.0 NVMe SSD 凭借极高的接口带宽与多队列并发机制，已成为现代数据中心应对 I/O 密集型工作负载的核心介质。

然而在实际生产环境中，许多企业级用户面临着一个技术痛点：即便服务器部署了顶级的 PCIe 5.0 NVMe SSD，在面对海量高并发随机 I/O 请求时，应用端实际获取的 I/O 性能往往显著低于硬件的标称峰值。造成这一性能损耗的根源，受限于传统 Windows Server 操作系统历史遗留的存储栈架构设计所带来的高协议转换开销。

随着微软 Windows Server 2025 正式引入原生 NVMe（Native NVMe）支持，这一底层架构局限被打破。

架构演进：从 SCSI 协议转换到原生 NVMe 直达

01.传统架构的性能损耗：双重协议转换

在早期 Windows Server 操作系统中，为保证广泛的硬件兼容性，所有上层的 I/O 请求均需先被翻译为标准的 SCSI 命令，再由微型端口驱动（Miniport）进行二次翻译，重新封装为 NVMe 指令下发至设备。具体环节：

- 第一重协议转换（逻辑驱动层）：通用 I/O 请求进入 Disk.sys，被强制翻译为标准的 SCSI 命令。

- 指令路由（端口驱动层）：存储端口驱动 Storport.sys 接收该 SCSI 命令，并将其路由至对应的微型端口驱动（Miniport）。

- 第二重协议重构（微型端口驱动层）：微型端口驱动（如处理 NVMe 设备的 Stornvme.sys）将接收到的 SCSI 命令进行二次翻译，重新封装为底层硬件能够原生识别的 NVMe 指令，最终下发至设备。

在面对现代 PCIe 5.0 SSD 数百万 IOPS 的极限并发时，这种“通用 I/O -> SCSI -> NVMe”的双重转换机制会产生极高的内核态 CPU 开销。这导致主机 CPU 算力提前透支，指令下发速率严重滞后于 SSD 的吞吐上限，使得底层硬件无法发挥出真实性能潜能。

02.原生架构的效率革新：端到端直接分发

为解决上述因协议转换引发的性能瓶颈，Windows Server 2025 重构了底层存储架构，摒弃了传统的 SCSI 抽象层，专为 NVMe 规范打造了一条无翻译的直达路径。在新架构下，冗余的“双重转换”被彻底移除，I/O 请求的下发路径被优化为端到端的原生分发机制：

- 原生驱动接管： 对于被新架构接管的 NVMe 存储设备，上层文件系统产生的 I/O 请求不再经过传统的通用 Disk.sys 驱动，而是直接交由全新开发的专属驱动 NVMeDisk.sys 接管，在逻辑层直接生成原生的 NVMe 指令。

- 多队列直接分发： 指令从 NVMeDisk.sys 直接传递至存储端口驱动（Storport.sys）中的 StorMQ（存储多队列，Storage Multi-Queue）。StorMQ 在系统软件层面对齐了硬件侧的 NVMe 多队列架构，将指令直接投递至物理存储介质，该流程完全绕过了传统微型端口驱动（Miniport）的二次协议翻译层。

通过上述架构层面的精简，Windows Server 2025 实现了 I/O 路径的显著缩短。这种原生模式显著降低了 CPU 内核态在处理海量中断与并发请求时的调度与上下文切换开销。操作系统端的存储栈与现代PCIe 5.0 企业级NVMe SSD 硬件端的多队列机制实现完美匹配，底层硬件在数百万 IOPS 级别的真实并发潜能得以被完整释放。

实测解析：软硬全栈协同，彻底释放并发潜能

01.测试环境

为验证架构升级的实际收益，大普微使用具备极限并发 I/O 处理能力的 DapuStor R6101 PCIe 5.0 企业级 NVMe SSD 进行了一系列基准对照压测。

服务器平台：

- 处理器：单路 AMD EPYC 9124 16-Core Processor

- 内存：32GB DDR5-4800 内存

操作系统：

- Windows Server 2022 (OS Build 20348，使用传统存储栈)

- Windows Server 2025 (OS Build 26100，开启 Native NVMe 支持)

存储设备：

DapuStor R6101 系列企业级 NVMe SSD（型号：DPRE5104T0TL03T8000，规格：3.84TB / U.2 PCIe Gen5 x4 / TLC / 1 DWPD）

测试工具与参数： FIO 基准压测软件，版本号3.13

测试前置条件：在执行压测前，已对测试盘进行充分的持续写入预处理，确保所有测试数据均在硬盘达到稳态（Steady State）后抓取。

- 顺序读写：128K 区块大小 (Block Size) / 64 队列深度 (QD) / 1 个测试线程

- 随机读写：4K 区块大小 (Block Size) / 64 队列深度 (QD) / 16 个测试线程

02.测试结果

图1. Windows原生与非原生NVMe驱动存储性能对比结果

本次测试使用 FIO 工具，分别针对 128K 顺序读写和 4K 随机读写四种典型企业级负载场景进行了压测。具体测试结果如下：

- 128K 顺序写入：在使用 FIO 配置 128K 数据块进行顺序写入测试时，两种架构的吞吐性能基本一致，均稳定在 6 GB/s 左右，传统架构 6017.81 MB/s，原生架构 6019.36 MB/s。

- 128K 顺序读取：原生 NVMe 架构的吞吐量达到 14389.76 MB/s，较传统架构的14172.37 MB/s有微幅领先，但整体来看，两者在极致顺序拉取下的表现基本处于同一梯队。

- 4K 随机写入： 针对 4K 数据块的随机写入测试，传统架构取得 382.32 KIOPS，原生架构取得 382.59 KIOPS，两者性能表现高度一致。

- 4K 随机读取：在该项测试中，我们观察到了新架构带来的最为关键的性能突破。在使用 FIO 配置 4K 数据块进行高并发随机读取时，原生 NVMe 架构展现出了显著的优势：其 IOPS 从传统架构的 1418.48 KIOPS 大幅跃升至 2539.32 KIOPS，提升幅度高达 79.02%。这一实测数据与微软官方宣称的“提升约 80%”高度吻合。

在128K顺序读写以及 4K 随机写入场景中，两种架构的测试成绩均达到了DapuStor R6101 NVMe SSD的标称稳态性能。而在 4K 随机读取这一高并发场景下，原生NVMe架构的实测性能同样达到了该硬盘的物理标称值；相比之下，非原生架构的性能表现则存在显著差距。

这一现象表明，在面对海量随机 I/O 请求时，非原生的系统存储栈已经成为制约底层硬件性能发挥的瓶颈。而Windows Server 2025 的原生 NVMe 架构消除了协议转换带来的计算开销，让 DapuStor R6101 NVMe SSD极高的随机读取并发能力终于得以彻底释放，实现了性能的巨大提升。

业务赋能：构建 AI 时代高并发存储基石

在真实的业务场景中，4K 随机读取性能近 80% 的跃升，意味着系统能够更加高效地处理海量、碎片化的小文件请求。无论是传统数据库的复杂索引查找及碎片化检索，还是 AI 业务负载中的向量数据库相似性检索与特征节点遍历，其核心痛点都在于极高并发下的 I/O 响应延迟。DapuStor PCIe 5.0 SSD 与 Windows Server 2025 原生架构的深度结合，通过软硬件的底层协同，大幅提升了数据供给效率。