vLLM 和 Outlines 正则表达式有限状态机的构建在第一次推理时非常便宜。与此同时,OpenAI 的上下文无关语法生成存在显著的延迟,“在十秒到一分钟之内”。这可能不会影响“预热”推理,但如果模式更动态,可能会出现问题。