加载中...

开源GPU哪家强

发表于2025-11-26|更新于2025-12-05|IC

|浏览量:

我们需要开源驱动，还需要开源GPU，还需要Windows开源，Intel、AMD的CPU开源ლ(´ڡ`ლ)

Arch用户表示英伟达的开源驱动真不好用

原来GPU还能不支持图像吗

乘影Ventus

github仓库:THU-DSP-LAB/ventus-gpgpu: GPGPU processor supporting RISCV-V extension, developed with Chisel HDL（文档、PPT）

论文：Ventus: A High-performance Open-source GPGPU Based on RISC-V and Its Vector Extension | IEEE Conference Publication | IEEE Xplore（ICCD）

硬件

看仓库仿真用的是verilator，xs

软件

SM确实和处理器长的挺像的，而更高层的CTA调度大概就是GPU的逻辑了

结果

在台积电 (TSMC) 的 12nm 工艺库下，一个 8-warp-16-thread 配置的 Ventus 单个 SM可达到 1.2 GHz 的时钟频率，并占用 $876084~\mu m^{2}$ 的面积

他甚至不愿意给GFLOPS
应该还没流片，感觉是在vortex的基础上实现的，怪不得那时觉得像。GPUGPU与RISC-V生态结合起来，毕竟CUDA一家独大，就用RISC-V的生态优势来弥补自造生态的不足。

加了不少SIMT指令，大量uniform寄存器，前端生态怎么维护可能也是个问题？

Vortex

官网：vortex.cc.gatech.edu/（下论文）

git:vortexgpgpu/vortex

PPT:vortexgpgpu/vortex_tutorials

主论文：Vortex: Extending the RISC-V ISA for GPGPU and 3D-Graphics Research

结果

在早期使用 15nm 教育版工艺库进行综合时，一个 8W-4T 单核心 的 Vortex 设计预计功耗为 46.8 mW，运行频率为 300 MHz。

32个核心时在Stratix 10 FPGA上达到25.6 GFlops @ 200MHz，但没说在什么精度。

贴个便宜的V100性能图

时钟是1380MHZ，4090我记得双精度大概有1.3T

只使用5条指令扩展，软件栈似乎比ventus更完善

偶然看到的一篇加速3DGS的GPU的论文，看时间是最近两天放在arxiv的，scoop？

miaow（发音为“me-ow”）

github地址：VerticalResearchGroup/miaow: An open source GPU based off of the AMD Southern Islands ISA.

这界面真够干净的

纯verilog写，太强了，

RTL 实现部分: 计算单元（CU）是使用可综合的Verilog RTL实现的。

行为级模型部分: L2缓存、片上网络（OCN）和内存控制器等组件则使用行为级C/C++模块拟。

个人觉得可能更倾向于一个开源的GPU教学方案？主要部分在11年前就完成了。

文章作者: ZJN

文章链接: http://iczjn.com/posts/3543225653.html

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Cosmos！

体系结构 GPU

相关推荐

AXI总线探索

前言最近需要想办法给CPU接AXI总线，目前先试着看下AXI4-LITE，IFU和ROM已经写好了，开始往LSU和RAM看看 AXI4-lite ...

统一高效因子图加速器设计

针对机器人优化的统一高效因子图加速器设计

BOOM源码与《超标量处理器设计》学习

BOOM 寄存器重命名 RenameStage - 重命名阶段顶层模块 RenameMapTable - 寄存器映射表 RenameFreeList - 空闲物理寄存器列表 RenameBusyTable - 寄存器忙状态表 RenameStage ...

MICRO2025论文阅读

MICRO 2025 Systems for Al (Training) 部分的论文阅读，论文内容集中在分布式训练有关的通信

Titan-1论文阅读

Titan-1是一个开源的、高性能的 RISC-V 向量核心生成器，旨在同时扩展数据级并行性 (DLP) 和指令级并行性 (ILP)

ld链接与简易bootloader（添加全局变量支持）

堆区在启动文件里分配，作为用户主动申请时的空间，如调用malloc() 栈区在启动文件里分配，作为局部变量自动申请和释放空间的变量（也有说是编译器分配的空间） bss 存放未初始化的全局变量和静态变量； ...

评论

数据加载中