换个port可以运行,但提示mlulink显示3,4端口不能通信,还是运行在单节点。不知道是不是这个原因?[图片]
一般经验下是ip:port没有配置成功,可以追溯到torch源码中把ip和port打印出来看一下
换个port可以运行,但提示mlulink显示3,4端口不能通信,还是运行在单节点。不知道是不是这个原因?
torch的torch.nn.parallel.ddp方法?init_method参数如何设置?我用IP:Port,提示被占用。
使用分布式计算的方法
torch的torch.nn.parallel.ddp方法?init_method参数如何设置?我用IP:Port,
提示被占用。
寒武纪提供了寒武纪版本的deepspeed,https://sdk.cambricon.com/download?sdk_version=V1.13.0&component_name=Basis
也可以使用torch的分布式接口
请登录后评论