主流大语言模型(LLMs)能够在几秒钟内输出大量的tokens之前,基于差异的优化策略将是保持用户体验和降低成本的关键。最近,我通过对某些指令实施基于差异的方法,优化了https://wegic.ai的对话修改功能,将平均响应时间从55秒减少到不足15秒。