这个要看模型。对于平行处理要求高的大模型,放显存在显卡运行要比放内存用CPU运行快至少百倍以上。Time to First Token 和 token / second 都是如此。当然,这只是 inference 的效率,输出本身并没有那么快。直观上来说,不用显卡,只用内存时,回答显示得比较慢。尺寸小的模型还能达到一秒七八个字,基本和你的阅读速度持平。尺寸大的就比较慢。例如 QwQ-32B 就一秒两三个字。平均Time to First Token要200到300秒。用显存的话则显示极快,超过在线版本的反应和显示速度。