将会出现第二次类似DPO的变革,用以扩大对对齐技术的访问——当Meta和Mistral也发布了令人惊叹的10亿参数模型时。大约一年后,这些10亿参数模型将与当前的70亿参数模型一样优秀,使得对对齐技术和微调方法的研究变得易于获取和可复制。