8月9日 我们用GPT-4o-mini进行了相同的实验,发现了类似的结果。主要区别在于,对于方法②,在超过5次修订后,准确性随着修订次数的增加而下降。这可能是由于GPT-4o-mini在长上下文推理方面的限制。