👏我们刚刚推出了NeedleBench——一个框架,包括一系列逐渐更具挑战性的任务,用于评估双语长上下文能力,涵盖多个长度区间(4k、8k、32k、128k、200k、1000k及更长)和不同深度范围。💡所有代码和资源均可在此获取:https://github.com/open-compass/opencompass👁️论文:https://arxiv.org/pdf/2407.11963