JanusVLN论文阅读
高德和西交最近的论文,这几天要开源 概括 JanusVLN具有双重隐式神经记忆,将空间几何记忆和视觉语义记忆建模为独立的、紧凑的、固定大小的神经表征。该框架首先扩展了 MLLM,使其能够整合来自空间几何编码器的 3D 先验知识,从而增强了仅基于 RGB 输入的模型的空间推理能力。然后,将来自空间几何和视觉语义编码器的历史键值(KV)缓存构建成双重隐式记忆。通过仅保留初始和滑动窗口中令牌的 KV,避免了冗余计算,从而实现了高效的增量更新。 与先前研究的对比 VLN方法局限 当前主流的基于MLLM的VLN方法普遍依赖显式记忆机制(如文本拓扑地图、历史图像序列): 语义认知地图: 使用纯文本描述对象节点和关系边(MapNav,后面可以看下)。 存储历史观测帧:...
Window_use环境配置和UI编写
原项目地址:https://github.com/CursorTouch/Windows-Use.git 有趣的玩具,自己写了个小ui,他llm跟gui层的Windows接起来还是很有意思的,允许AI直接在GUI层面与Windows操作系统交互。但用起来确实笨笨的,稍微复杂一点就不行了,只能当个玩具了,不过他内层还有不少工具,应该能更深入地开发。 因为国外的API充值要国外的银行卡,我把环境替换成了使用qwen。 效果 ...
MICRO 2025 Systems for Al (Training) 部分论文阅读
NetZlP 在分布式大模型训练中实现网络内无损压缩梯度和激活,实现了压缩算法和硬件加速器 并行训练模式总结对比表 维度 数据并行 (DP) 流水线并行 (PP) 张量并行 (TP) 并行核心思想 数据维度:将训练数据分批,在不同的设备上使用相同的模型副本进行处理。 模型维度(层间):将模型按层拆分成多个阶段,每个设备负责模型的一个连续部分。 模型维度(层内):将单个层内的运算和参数进行拆分,分布到多个设备上。 如何划分 划分训练数据集。 划分模型的层。 划分层的权重矩阵/计算。 设备上的模型状态 每个设备拥有完整模型的一个副本。 每个设备只拥有模型的一部分(一组连续的层)。 每个设备拥有一层或几层的部分参数。 通信内容 梯度(反向传播后) 激活值(前向传播时) 梯度(反向传播时) 部分激活值/计算结果(前向和反向传播过程中) 通信时机 每次迭代的反向传播结束后。 在前向和反向传播过程中,阶段与阶段之间。 在单个层的前向和反向计算过程中。 主要优势 - 实现简单,应用广泛。 - 对于模型较小、数据量大的情况非常有效。 -...
Neural_MP论文阅读
概述 论文概述 通过大规模数据驱动的学习,构建一个通用、快速运动规划器,能泛化到未见过的真实世界场景。 成果 提出了一种简单、可扩展的方法来训练和部署快速、通用的神经运动规划器:1) 在逼真的配置中生成具有多样化环境的大规模程序化场景,2) 用于拟合基于采样的运动规划数据的多模态序列建模,以及 3) 轻量级的测试时优化,以确保在现实世界中快速、安全和可靠的部署。 在四个不同的环境中评估了我们的方法在 64 个现实世界运动规划任务中的表现,结果表明,与基于采样的方法相比,运动规划成功率提高了 23%,与基于优化的方法相比提高了 17%,与神经运动规划方法相比提高了 79%。 实现 生成大规模训练数据 ...
π0阅读复现
A human being should be able to change a diaper, plan an invasion, butcher a hog, conn a ship, design a building, write a sonnet, balance accounts, build a wall, set a bone, comfort the dying, take orders, give orders, cooperate, act alone, solve equations, analyze a new problem, pitch manure, program a computer, cook a tasty meal, fight efficiently, die gallantly. Specialization is for insects. 使用这个混合来训练我们的流匹配 VLA 模型,该模型包含一个更大的 VLM 主干和一个更小的动作专家,用于处理机器人状态和动作。VLM 主干权重从...
riscv扩展指令集
看了WAIC,感觉这个真有意思 Gemini 扩展 硬件 Gemmini的空间阵列用于执行MAC操作,空间阵列由Scratchpad SRAM读取数据,并将输出结果写入Accumulator SRAM;同时还支持其他常见的DNN计算核(如非线性激活、池化等)。 脉动阵列(Systolic Array):执行矩阵乘法 显式管理的内存:Scratchpad(输入缓存) + Accumulator(累加器) DMA引擎:主存与私有SRAM间的数据传输 解耦访问/执行:Load/Store/Execute三控制器并行工作 Gemmini的空间阵列由Tile、PE两级架构组成,Tile通过显式流水线寄存器相连接;而Tile可进一步细分为PE,同一Tile中的PE通过组合电路连接,而不使用流水线寄存器。每个PE每个周期执行一次MAC运算,使用WS或OS的数据流形式。每个PE和每个Tile只与其相邻的单元共享输入和输出。 ISA 数据移动指令 mvin - 从主内存加载数据到暂存器 格式:mvin rs1,...
Linux板制作
芯片选型 F1C200S,全志H3,全志V3s,rk3566,让AI总结的性能对比 参数 F1C200S H3 V3S RK3566 CPU ARM9 单核@600MHz A7 四核@1.2GHz A7 单核@1.2GHz A55 四核@1.8GHz GPU 无 Mali-400MP2 无 Mali-G52 MP2 内存 64MB DDR1 外置DDR3(2GB) 64MB DDR2 外置LPDDR4(8GB) 视频解码 1080p H.264 4K H.265 1080p H.264 4K H.265/VP9 显示输出 720p RGB 1080p HDMI 720p RGB 4K HDMI 全志H3,rk3566都需要植球,不会也没设备,全志V3s应该是现有最好的选择了 画PCB 晶振电路,2个15PF的寄生电容,存储和锁相环电压 32.768kHz低速晶振接口 暑假忙着电赛,集创赛各种事情没推下去,看看大四接着玩玩吧 参考资料与开源项目 全志H6开发板-从零入门ARM高速电路设计 - 立创开源硬件平台 GitHub -...
BOOM源码与《超标量处理器设计》学习
BOOM 寄存器重命名 RenameStage - 重命名阶段顶层模块 RenameMapTable - 寄存器映射表 RenameFreeList - 空闲物理寄存器列表 RenameBusyTable - 寄存器忙状态表 RenameStage 整体两阶段流水线: 阶段1(Ren1):接收来自解码阶段的微操作(uop) 阶段2(Ren2):完成重命名并发送到调度队列 通过MapTable完成逻辑寄存器到物理寄存器的映射 通过FreeList分配新的物理寄存器 通过BusyTable跟踪寄存器忙状态 处理分支预测错误时的恢复 AbstractRenameStage——寄存器重命名的基础抽象类 micro微操作集定义在micro-op.scala 包含了指令基本信息,逻辑寄存器编号,物理寄存器编号(重命名阶段分配),寄存器忙状态(BusyTable 提供),分支预测相关,执行信息 1....
Arch的ssh连接,远程桌面,vivado安装
内容均参考官方wiki ssh连接 (1) 安装 openssh 1sudo pacman -S openssh (2) 启动 SSH 服务 1sudo systemctl enable --now sshd 现在我使用winscp,复制文件很方便 远程桌面 局域网内连接 xrdp试了很多次,一直黑屏 目前更换成了tigervnc,配置参考wiki,但还是会黑屏,因此使用共享物理桌面 1x0vncserver -display :0 -passwordfile ~/.vnc/passwd 用tigervnc应用连接 ip::5900(:0是偏移,即端口为5900+0) 跨局域网连接 首先获得路由器网络公网ip 1curl ifconfig.me 注意公网ip会2-3天一换 在浏览器输入路由器管理网址,配置端口转发 如我的端口是5900,我设置外端口为25900,内端口为5900,ip就是局域网ip 通过tigervnc应用连接公网ip::25900 连接的屏幕只有大概原本屏幕的2/3,需要拖拽 目前能用就行,后续会继续探索更高效的方法 Vivado...
Typora与hexo完美适配
终于实现了Typora与hexo的完美适配,直接复制图片到typora即可自动保存本地,也不需要额外的删改即可完成插入图片 渲染器上依然可以使用markdown-it-plus,正常渲染公式,而不必使用大部分采取方案的的markdown-it导致渲染器的冲突 Typora端效果 有空补一下详细配置过程。 嘿嘿,确实开心
