我发现对新的LLM进行测试时最困难的事情是逻辑。大多数已知的逻辑问题可能已经训练到数据集中。
所以当我提出一个逻辑问题时,我如何知道它是否实际上在使用逻辑,还是只是利用它对该问题的已知信息?
我也觉得这可能是大多数用于比较模型的常见基准测试的一个类似问题。我们如何知道模型实际上是否正在提高它们被测试的技能,而不仅仅是将最佳响应训练到模型中。
在真实的学生场景中,这就像知道如何独立找到答案与背诵答案通过考试之间的区别。似乎前者让我们更接近实际的AGI,而后者不会。
有没有比我更聪明的人,更了解这方面的人,可以帮助我理解或指出我自己逻辑上的缺陷?