微星B760M-A II代 DDR4主板对双显卡大模型推理的支持情况测试

硬件

主板为：微星B760M-A II代 DDR4 WIFI版本，使用5060ti（16G显存）插入主板直连CPU的PCIE-X16接口。用一根PCIE-X16 4.0x4速率的延长线（小机箱装不下两张显卡）接入一张1060（6G显存）。电源为850W白金电源。

大模型测试

使用LM Studio完全载入Qwen3-14B int8_0的量化模型。GPU卸载拉满，开启闪电注意力。生成一篇《春江花月夜》鉴赏，token生成速度为：19.97token/s。5060ti/1060的显存负载分别为：12gb和4gb。
对比5060ti单卡，同设置情况下，输出为9.41token/s。显存负载为15.5gb，应该有几层被置换到了内存中去，拖慢了计算速度。

结论

LM studio对PCIE方式接入的单机多卡设备支持得很好。
微信B760M-A II代 DDR4 WIFI无论是客服还是公开资料都说不支持双显卡推理。但实测证明可以进行单机多卡推理。公开资料包括多个大模型的回答都将“单机多卡”和“Nvidia交火”混淆。

硬件

大模型测试

结论

推荐阅读