torch.compile 很酷,但是 LLM compile 更厉害:它接受你的 .py 仓库作为字符串,并输出一个全新的、定制的、从头开始的、最小化代码仓库,直接在高度优化的 CUDA 上运行你的网络。