这段时间玩大模型,120个g的home分区满了,把跑不动的清理了一遍,现在还剩60个g,直接空了一半。因为我的tesla p4小垃圾只跑得动qwen_1.8b,chatglm的6b模型int4量化之后勉强跑得动,但是tokens生成太慢了没法用。还有一堆其他的大模型都是尝试量化的过程中得到的,但是就10系显卡这个帕斯卡架构,连flash attention都支持不了,跑不了一点