使用 #LLM 应用程序进行长时间聊天是否导致内存溢出?我们的资深工程师和 MIT 教授 Song Han 已经研发并整合了 StreamingLLM 到 #TensorRT LLM v0.8。点击下方链接在 GPU 环境的 Jupyter notebook 上用 Mistral 7B 实现 StreamingLLM 编程。https://console.brev.dev/notebook/streamingllm-tensorrt-llm