要单挑英伟达GPU! Tenstorrent 最新AI硬件来了!
据Tenstorrent官网消息,近日,Tenstorrent已经推出基于其下一代 Wormhole Tensix 芯片的AI硬件---两款 PCIe AIC 外形的扩展卡和一个工作站,它们是专为对使用 Tenstorrent 强大的开源软件栈进行多芯片开发的可扩展性感兴趣的开发人员而设计。这些基于 Wormhole 的板卡和系统现在可在 tenstorrent.com 上立即订购:Wormhole™ n150搭载单颗Wormhole处理器;Wormhole™ n300则搭载两颗处理器。TT-LoudBox则是由四个 Wormhole™ n300(八颗处理器)板卡组成的开发人员工作站。Wormhole™ n150 和 Wormhole™ n300 是 Tenstorrent 在其 Grayskull™DevKit板的基础上推出的下一代开发套件。TT-LoudBox 系统是 Tenstorrent 为专注于人工智能软件的开发人员和开发团队提供的高吞吐量解决方案。Tenstorrent 还推出了全新的 TT-QuietBox,这是一款高端水冷式人工智能开发人员工作站。TT-QuietBox 采用液体冷却解决方案,在几乎无噪音的外形尺寸中提供 8 个 Wormhole 处理器的强大功能,现已接受预订。Wormhole™卡、TT-LoudBox和TT-QuietBox完全由Tenstorrent的开源TT-Buda和TT-Metallium软件栈支持,可支持多个LLM和其他流行的人工智能模型。Tenstorrent软件栈可在www.github.com/tenstorrent。“将我们更多的产品交到开发人员手中,总是一件非常有意义的事情。Tenstorrent首席执行官Jim Keller表示:"发布带有我们Wormhole™卡的开发系统有助于开发人员扩展和开发多芯片人工智能软件。“除了这次发布,我们还很高兴地看到,我们的第二代产品Blackhole的带出和开机工作进展非常顺利。”Wormhole n150 定价 999 美元,Wormhole n300 则定价 1399 美元。Tenstorrent成立于2016年,曾为英特尔、AMD和特斯拉设计芯片的硅谷大神吉姆·凯勒(Jim Keller)担任其CEO,Jim Keller曾多次表示未来AI 芯片设计革命的关键在于舍弃 HBM。多用途 AI 芯片主要面向入门级和主流 AI 任务场景,因此 Tenstorrent 在芯片中并未使用 HBM,而是使用 GDDR6 显存。目前,HBM 是 AI GPU 的重要部件,以英伟达 H100 加速卡为例,物料成本为 3000 美元,而 SK 海力士提供的 HBM 芯片成本就高达 2000 美元超过生产封装。Tenstorrent 也设计产品以尽可能实现成本效益,Tenstorrent的处理器采用开源指令集 RISC-V 架构的。Tenstorrent采用独特的硬件和软件紧密结合的方法。硬件专门用于AI任务,但软件并不复杂。整个软件堆栈只有大约 50,000 行代码。与大多数其他需要定制开发流水线的AI专用ASIC不同,Tenstorrent的芯片具有很强的适应性和灵活性,同时支持所有主流的工具链、框架和运行时。Wormhole是其第一款商业新品,它有80个Tensix核(少于上一代GraySkull的120个Tensix Core),6个通道的GDDR6,16通道的PCIe Gen4,和16个端口的100Gb以太网,所有这些都是通过NOC总线连接到一起。计算核心Tensix core有5个标量RISC-V CPU:用于运行时发射调度指令和数据;SRAM作为private memory,用于保存本地计算结果;Packet Manager数据包管理器包含Tensor形状变换、数据传输和数据路由功能;Packet Compute Engine数据包计算引擎:INT8算力3TOPS,FP16算力0.75TFLOPS;DRAM片上存储,可被Tensix全局访问;Ethernet接口:用于芯片间互联,便于scale out;PCIE接口:连接Host,与Host进行数据传输;Network on Chip(NoC)数据互联接口,在Ethernet中也含有NoC - System Manager系统管理单元:4个RISC-V CPU,负责中断、时钟、温控等基础功能,及数据路由功能。Wormhole Tensix 处理器支持广泛的数据精度格式,可相较传统 GPU“提供卓越的性价比”,还可多颗芯片联网组成算力集群。该处理器支持两款开源 SDK,即高级的 TT-Buda 和低级的 TT-Metalium,分别适合生产用户和开发客户,均支持多种流行 AI 模型。