PNY公司最近推出了一系列人工智能存储设备,经过重新开发,具有高性价比,以适应人工智能市场,该市场正在看到越来越多的小型GPU服务器集群。
Nvidia DGX A100 HPC为组织和研究机构提供了新的能力,随着这些项目的发展,DGX系统的小型集群的数量也在增加。这反过来又对存储系统提出了更高的要求。
虽然许多存储供应商竞相为多PB的超级吊舱开发解决方案,但该公司专注于为普通客户提供解决方案。与SDS团队合作,开发一个PNY定制解决方案,该解决方案仅专注于Nvidia的关键功能,如HDR/200Gbe和GPUDirect,但从30TB开始。这些解决方案的设计目的是使新项目能够负担得起,同时仍能提供HDR/200Gbe性能。1U可扩展至150TB,2U可扩展至360TB,可选的1U/2U扩展盒应可扩展。
1U一直瞄准不断增长的POD/Edge市场,在这个市场上,推断需要快速存储,但成本和空间至关重要。
“项目资金最好用在GPU上;正是这些gpu提供了用户价值和ROI。然而,我们需要确保存储能够保持gpu的活动性,并提供维持如此高水平性能的质量。我们的第1代解决方案提供了这一点,但是使用的NVMe作为连接,它主要局限于单个服务器。随着项目的发展,即使只有两台服务器,它们也需要更多的存储能力和共享数据的能力。这是一个挑战,花费了大量的精力、投资和时间,但我们相信结果将改变默认的人工智能吊舱解决方案。如果您正在启动一个人工智能项目,并且需要考虑存储,同时确保您的资金主要用于GPU,这将提供一个简单的即插即用设备解决方案,”PNY EMEAI专业解决方案DM Laurent Chapoulaud说。
该解决方案是公司独有的,尽管他们的主要关注点是价格、性能和易用性,但认识到孤立的和基于边缘的解决方案所面临的日益严峻的挑战,正在开发其他功能来帮助统一完整的PNY POD,例如,完整的Nvidia监控将是公司的存储监控本身,anf还将监控DGX和Mellanox交换机,为解决方案合作伙伴创建一个统一的支持路径,以提供完整的远程监控。
“PNY旨在为合作伙伴提供创建完整解决方案所需的所有要素,添加统一的PNY POD远程监控选项只是PNY帮助经销商提供解决方案承诺的延伸。”
为了帮助调整解决方案,该公司与存储专家、SDS运动和AFA概念的先驱Mark Klarzynski合作。”显然,对绩效的关注已经取得了成效。在我们的测试中,即使是入门级1U解决方案的性能也优于企业级全闪存阵列。在存储方面,我们有很多测试方法可以提供很好的基准测试结果,通常我们会使用多个服务器来驱动存储速度更快,并获得好看的、适销对路的性能数据。但是,使用PNY解决方案,单个nvidia100服务器很容易使HDR/200Gbe链路饱和。简单地说,它比大多数领先的供应商表现更好,成本很低,甚至不费吹灰之力。
“运行现实生活中的深度学习测试,我们根本无法投入足够的硬件,我们有三个DGX服务器完全用尽,存储看起来几乎没有尝试。新的设计充分利用了NVIDIA Mellanox RDMA的优势,构建了一个新的存储堆栈,以充分利用其超低延迟和高带宽。但最终,我对它的简易性印象最深,我们只是简单地插上电源,几分钟内我们就飞起来了,”他补充道。