×

签到

分享到微信

打开微信,使用扫一扫进入页面后,点击右上角菜单,

点击“发送给朋友”或“分享到朋友圈”完成分享

【MLU370 S4】使用xinference模型推理速度非常慢,如何提高推理速度 解决中 x23212778652025-07-18 11:29:46 回复 5 查看 技术答疑 使用求助 经验交流
【MLU370 S4】使用xinference模型推理速度非常慢,如何提高推理速度
分享到:

【MLU370 S4两张】使用xinference模型推理速度非常慢,如何提高推理速度 【寒武纪硬件产品型号】必填*:MLU370 S4


【使用操作系统】必填*:麒麟kv10

Cpu:海光32核 


【使用驱动版本】必填*:
例如:v5.10.22


【出错信息】必填*:

Xinference运行Deepseek-r1-qwen  7B模型。推理速度非常慢!两张mlu共48G显存不应该啊。

我换了qwen3-4B速度依然不行,很卡顿。

用的都是transformers引擎。

有没有办法使用量化的模型?比如llama.cpp的gguf呢?或者transformers的那个量化功能怎么才能用?默认不支持吗?

【当前已做了哪些信息确认】选填:

加入man_len或者block_size似乎没有效果

更改模型感觉效果都不大,希望使用量化模型,如何实现?


版权所有 © 2026 寒武纪 Cambricon.com 备案/许可证号:京ICP备17003415号-1
关闭