我们在 @Hvyntivka Mosina docbot 上使用了 LLM 作为评判,并了解到:1. 自动评估与人工标签的匹配度超过了80%2. 通过在 LLM 评判中使用包含示例的 GPT-3.5,可以节省成本(10倍)并提高延迟(3倍)最佳实践即将发布到 @mlflow!https://sprou.tt/1uTLFahOkxF