切换版块
×
基础软件平台
PyTorch开发
TensorFlow开发
编解码及SDK开发
BANG语言与计算库
开发工具链
MagicMind开发
软件栈百科
云平台集成
硬件产品专区
MLU370系列AI加速卡
MLU270系列AI加速卡
MLU220系列AI加速产品
经验方案交流区
经验案例与实践分享
开发者服务
开发者活动
公告与版务
高校支持
《智能计算系统》
签到
版块
社区
文档
SDK下载
370系列
200系列
开发平台
官网首页
注册
登录
全部版块
基础软件平台
硬件产品专区
经验方案交流区
开发者服务
高校支持
发布新帖
登录/注册
LV.1
Sirius
114
积分
2
赞
2
帖子
5
回复
0
收藏
TA的动态
TA的帖子
TA的回复
寒武纪加速卡是如何进行多进程管理的,类似于NVIDIA的MPS服务
我的回复:你好,MLU 的调度策略和GPU不太一样。根据我们的调研和客户返回,MPS目的是提高GPU 在多进程下并行处理异步的能力,这种能力的提升来自于在CUDA Driver和Application之间提供了以一个Proxy,从而减少GPU Context storage、switching的开销。故而猜测,MPS Proxy是对多进程任务进行转发,在通过一些调度算法把不同进程任务下发到同一个GPU Context上。而对于MLU 调度来说并不存在Context switching的概念,所有进程的任务都是下发到MLU Device进行基于cnQueue的调度。因此是不需要类似MPS工具进行并行化优化的。我们在某客户的交付经验来看,双进程打满调度效率的情况下,GPU+MPS调度性能 == MLU调度性能 <= 5%的调度效率损失。(调度效率根据任务pattern不同而不同,上述描述只作为参考)
0
运行bang语言的程序代码,整个系统崩溃(主机侧、设备侧均崩溃)
我的回复:看起来是硬件异常了, 看如下输出 PC is at cn_pci_reg_read32+0x48/0x54 LR is at msi_interrupt+0x13c/0x358这里可以看出来进入中断后, 通过PCIe Bar空间读取MLU 寄存器发生了异常,而且这是一个Unhandled fault: synchronous external abort应该是CPU执行一个load指令时候,由PCIe RC同步返回了一个错误。从上面的日志来看,当前系统为ROCK Pi 4 是 Radxa 基于 Rockchip RK3399的 SBC(单板计算机)。我们之前帮助客户调试过RK3399 平台,确实会有类似问题,驱动加载阶段正常,但是只要使用PCIe DMA进行拷贝,在中断里就会出现异常。建议联系RK厂家,拿到系统patch来解决。
0
【经验交流】MLU220-M.2 在RK3399上出现DMA错误
我的回复:[ 2797.290748] PC is at cn_pci_reg_read32+0x48/0x54 [cambricon_drv]这个函数是PCIe DMA在清除中断状态寄存器,读改写操作。在这个操作之前,已经读取过中断状态,以判断完成DMA的Channel,所以这个问题应该不是单纯PCIe Bar读写错误。 而是在MSI中断发生情况下操作MLU寄存器出现异常。根本原因由于没有找到RK技术支持,只是使用INTx做绕过。
1
cnmon
我的回复:请描述一下驱动安装方式。如果是使用tar包手动编译并insmod,确实没有cnmon。
0
寒武纪系统驱动安装、卸载方式
我的回复:#23sunxiaofeng回复在飞腾的ARM架构cpu上安装好驱动后使用cnmon提示无法执行该二进制文件,可执行文件格式错误可以怎么解决请联系AE获取aarch64. rpm or deb 。 cnmon发布的是二进制程序,默认安装包里是x86_64格式。 可以使用file /usr/bin/cnmon 来验证一下。 最近的MLU Driver v4.9.3 做过FT2000适配,可以使用此版本在FT机器上进行开发。
3
思源显卡和2080ti显卡哪个运算速度更快
我的回复:架构不一样,所以需要确定使用场景,不能泛泛而谈。
0
寒武纪的SR-IOV虚拟化和NVIDIA的vGPU,以及MIG(Multi-Instance-GPU)有什么区别
我的回复:简单来说:SRIOV虚拟化是基于PCIe SRIOV技术,将一个PF虚拟出多个VF,让系统看起来有多个“物理”设备。同时,寒武纪的SRIOV虚拟化还将设备内部资源做了“物理”切分,使其分别服务于不同VF设备。优点:多虚拟化设备之间物理资源隔离,不会出现互相抢占资源情况。缺点:虚拟化设备资源只有物理设备的1/4,有可能在物理设备上可以运行的网络在虚拟设备上由于资源不足无法运行。vGPU更像是CPU的多线程的分时复用技术。寒武纪SRIOV更像是硬盘分区概念。MIG的技术背景更高端,A100还做到了不同instance的错误隔离,调度资源隔离,总线带宽隔离等等。
1
思元270系列智能加速卡支持centos8.1吗?
我的回复:MLU270 驱动代码是开源的,可以从安装包里解压出来,自行编译并加载。如果遇到适配问题,可以把编译error log发出来。如果只用于基础开发和评估,一般只要编译通过驱动就能正常加载。
0
开机后报错
我的回复:看起来是出现了PCIe DCP Error。是否有/var/log/dmesg 可以提供,分析一下错误原因。
0
Github
开发平台
文档中心
新手必读
官方微信
版权所有 © 2024 寒武纪 Cambricon.com 备案/许可证号:
京ICP备17003415号-1
关闭