众生平等,这个体积,除了英伟达专业显卡,其他所有卡包括4090都是废品,大家都要用cpu算
非moe,用不了清华大学的推理构架。
众生平等之下MJJ掌握优势:一般人没有4通道的内存, MJJ人手一个E5 ovh
实测,E5 ovh不到0.3个token/s, 我去问个问题,吃完饭,回来再看!
官网:https://build.nvidia.com/nvidia/llama-3_1-nemotron-ultra-253b-v1 卡成狗了
loc首发介绍:https://hostloc.com/thread-1402426-1-1.html 但是openrouter就没必要了,貌似时非推理的。
英伟达整个模型比较强,可以时推理的模型,也可以关闭推理。
非moe,用不了清华大学的推理构架。
众生平等之下MJJ掌握优势:一般人没有4通道的内存, MJJ人手一个E5 ovh
实测,E5 ovh不到0.3个token/s, 我去问个问题,吃完饭,回来再看!
官网:https://build.nvidia.com/nvidia/llama-3_1-nemotron-ultra-253b-v1 卡成狗了
loc首发介绍:https://hostloc.com/thread-1402426-1-1.html 但是openrouter就没必要了,貌似时非推理的。
英伟达整个模型比较强,可以时推理的模型,也可以关闭推理。