我们需要开源驱动,还需要开源GPU,还需要Windows开源,Intel、AMD的CPU开源ლ(´ڡ`ლ)

cover_24

Arch用户表示英伟达的开源驱动真不好用

img

原来GPU还能不支持图像吗

乘影Ventus

github仓库:THU-DSP-LAB/ventus-gpgpu: GPGPU processor supporting RISCV-V extension, developed with Chisel HDL(文档、PPT)

论文:Ventus: A High-performance Open-source GPGPU Based on RISC-V and Its Vector Extension | IEEE Conference Publication | IEEE Xplore(ICCD)

image-20251127173935149

硬件

image-20251126145632042

image-20251126150136003

看仓库仿真用的是verilator,xs

软件

image-20251126145840918

image-20251126150118311

image-20251126151345399

SM确实和处理器长的挺像的,而更高层的CTA调度大概就是GPU的逻辑了

结果

image-20251126150216443

在台积电 (TSMC) 的 12nm 工艺库下,一个 8-warp-16-thread 配置的 Ventus 单个 SM可达到 1.2 GHz 的时钟频率,并占用 876084 μm2876084~\mu m^{2} 的面积

他甚至不愿意给GFLOPS
应该还没流片,感觉是在vortex的基础上实现的,怪不得那时觉得像。GPUGPU与RISC-V生态结合起来,毕竟CUDA一家独大,就用RISC-V的生态优势来弥补自造生态的不足。

加了不少SIMT指令,大量uniform寄存器,前端生态怎么维护可能也是个问题?

Vortex

官网:vortex.cc.gatech.edu/(下论文)

git:vortexgpgpu/vortex

PPT:vortexgpgpu/vortex_tutorials

主论文:Vortex: Extending the RISC-V ISA for GPGPU and 3D-Graphics Research

image-20251126154601000

image-20251126153940595

image-20251126154014260

结果

image-20251126154816434

image-20251127173328111

在早期使用 15nm 教育版工艺库进行综合时,一个 8W-4T 单核心 的 Vortex 设计预计功耗为 46.8 mW,运行频率为 300 MHz

32个核心时在Stratix 10 FPGA上达到25.6 GFlops @ 200MHz,但没说在什么精度。

贴个便宜的V100性能图

image-20251205090022330

时钟是1380MHZ,4090我记得双精度大概有1.3T

只使用5条指令扩展,软件栈似乎比ventus更完善

image-20251126155742143
偶然看到的一篇加速3DGS的GPU的论文,看时间是最近两天放在arxiv的,scoop?

miaow(发音为“me-ow”)

github地址:VerticalResearchGroup/miaow: An open source GPU based off of the AMD Southern Islands ISA.

image-20251127152717794

这界面真够干净的

纯verilog写,太强了,

image-20251127153456857

RTL 实现部分: 计算单元(CU)是使用可综合的Verilog RTL实现的 。

image-20251205082858508

行为级模型部分: L2缓存、片上网络(OCN)和内存控制器等组件则使用行为级C/C++模块拟 。

image-20251127172021604

image-20251127172306629

个人觉得可能更倾向于一个开源的GPU教学方案?主要部分在11年前就完成了。