设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
123
返回列表 发新帖
楼主: 孟词宗
打印 上一主题 下一主题

[时事热点] 叒说 AI 本地部署 - 一千美刀跑 DeepSeek R1 671B Q5版

[复制链接]
  • TA的每日心情
    奋斗
    2021-6-5 00:39
  • 签到天数: 901 天

    [LV.10]大乘

    41#
    发表于 18 小时前 | 只看该作者
    孟词宗 发表于 2025-7-2 11:24
    要求不同罢了。 DeepSeek R1 0528进步的确很大。 Q2 以上版本算是可用了。 问题是如果只是用来搞 Python  ...

    你说的挺有道理,其实我只是觉得像 DeepSeek R1 671B FP16那种 0.x token/s 的速度,实在太卡了,交互体验很差,哪怕模型再聪明也难以流畅使用。不过我也发现了,哪怕是 Q2/Q3 的量化版,它在理解复杂任务、写策略、调代码这类事上,确实比很多 32B 模型强不少。所以我现在是想找个折中方案:模型够聪明,同时速度也得跟得上,至少交互能用。等 DeepSeek 下个版本 V4 或 R2 出来后,我打算照着高性能需求装一台 EPYC 的机器,目标是32K context跑原版 TG > 5 tps、Q4 版大于 10 tps,那时候就不折腾半吊子方案了。你那台 Z8 能直接上 FP16 确实牛,如果跑ktransformers表现如何?
    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-7-3 20:14 , Processed in 0.031755 second(s), 17 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表