这篇论文对o1模型在医疗场景中的初步探索进行了介绍。优点:o1在19个数据集和两个新创建的复杂问答场景中,准确性平均比之前的GPT-4高出6.2%和6.6%。缺点:识别出幻觉、多语言能力不一致以及评估指标不一致的问题。从这些早期的初步研究结果来看,像o1这样的语言推理模型在推理和计划方面可能非常有用,但在其他能力上可能不会比标准的LLM带来实质性的提升或好处。