@Deep Yao 和我为 @静楠墨筠 发布了一篇新博客文章,展示了如何通过并行运行 LLaMA 3.1 8B 并使用 Modal Sandboxes 安全验证输出,在 HumanEval Python 编码基准测试中击败 GPT-4o。包括重现代码!https://modal.com/blog/llama-human-eval