在AI研究科学家的论文之后,一个大问题是基于大型语言模型(LLM)的代理是否能够生成新的研究想法。这项工作发现,LLM生成的研究想法被认为比人类专家的想法更具新颖性(p <0.05);然而,在灵活性方面,它们的评分略低。他们还报告称,LLM代理在生成想法的过程中缺乏多样性,并且不是可靠的评估者。