打开微信,使用扫一扫进入页面后,点击右上角菜单,
点击“发送给朋友”或“分享到朋友圈”完成分享
【MLU370 S4两张】使用xinference模型推理速度非常慢,如何提高推理速度 【寒武纪硬件产品型号】必填*:MLU370 S4
【使用操作系统】必填*:麒麟kv10
Cpu:海光32核
【使用驱动版本】必填*:
例如:v5.10.22
【出错信息】必填*:
Xinference运行Deepseek-r1-qwen 7B模型。推理速度非常慢!两张mlu共48G显存不应该啊。
我换了qwen3-4B速度依然不行,很卡顿。
用的都是transformers引擎。
有没有办法使用量化的模型?比如llama.cpp的gguf呢?或者transformers的那个量化功能怎么才能用?默认不支持吗?
【当前已做了哪些信息确认】选填:
加入man_len或者block_size似乎没有效果
更改模型感觉效果都不大,希望使用量化模型,如何实现?
热门帖子
精华帖子