硬件

主板为:微星B760M-A II代 DDR4 WIFI版本,使用5060ti(16G显存)插入主板直连CPU的PCIE-X16接口。用一根PCIE-X16 4.0x4速率的延长线(小机箱装不下两张显卡)接入一张1060(6G显存)。电源为850W白金电源。

大模型测试

使用LM Studio完全载入Qwen3-14B int8_0的量化模型。GPU卸载拉满,开启闪电注意力。生成一篇《春江花月夜》鉴赏,token生成速度为:19.97token/s。5060ti/1060的显存负载分别为:12gb和4gb。
对比5060ti单卡,同设置情况下,输出为9.41token/s。显存负载为15.5gb,应该有几层被置换到了内存中去,拖慢了计算速度。

结论

  1. LM studio对PCIE方式接入的单机多卡设备支持得很好。
  2. 微信B760M-A II代 DDR4 WIFI无论是客服还是公开资料都说不支持双显卡推理。但实测证明可以进行单机多卡推理。公开资料包括多个大模型的回答都将“单机多卡”和“Nvidia交火”混淆。